永发信息网

C#只获取网页的普通文字,怎么做???

答案:2  悬赏:30  手机版
解决时间 2021-02-14 15:33
  • 提问者网友:轮囘Li巡影
  • 2021-02-13 23:23
C#只获取网页的普通文字,怎么做???
最佳答案
  • 五星知识达人网友:愁杀梦里人
  • 2021-02-14 00:19
解析HTML, 可以看看 HtmlParser 当然, 最好是自己逐字符分析,将所以 < .... > 都去年。 var s = html; StringBuilder result = new StringBuilder(); int lastIndex = 0; while (lastIndex < s.Length) { int index = s.IndexOf('<', lastIndex); if (index < 0) { result.Append(s.Substring(lastIndex)); break; } if(index > lastIndex) result.Append(s.Substring(lastIndex, index - lastIndex)); int index2 = s.IndexOf('>', index); if (index2 < 0) { break; } else { lastIndex = index2 + 1; } } return result.ToString(); 当然这里还有些细活, 比如在替换div tr br 等块元素时, 最好能插入换行, 而另有些元素可能需要插入空格或制表符等。

求采纳
全部回答
  • 1楼网友:酒醒三更
  • 2021-02-14 00:39

点右键,点“查看源文件”就可以了

我要举报
如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
点此我要举报以上问答信息
大家都在看
推荐资讯