永发信息网

怎样把html文件转换成标准的DOM4j的DOM

答案:1  悬赏:0  手机版
解决时间 2021-11-25 12:18
  • 提问者网友:溺爱和你
  • 2021-11-25 01:09
怎样把html文件转换成标准的DOM4j的DOM
最佳答案
  • 五星知识达人网友:逐風
  • 2021-11-25 01:33
由于html文件不是标准的xml文件
比如:






标签不是成对出现的,所以用dom4j是不能解析的

解决方法:
利用cobra.jar架包先把html文件解析成org.w3c.dom.Document类型的dom
然后利用dom4j的方法
DOMReader xmlReader = new DOMReader();
xmlReader.read(org.w3c.dom.Document document)

代码:
UserAgentContext uacontext = new SimpleUserAgentContext();
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder builder = factory.newDocumentBuilder();
InputStream in = new FileInputStream("F:/iKnow/chmimport/U2000FAQ_WebHome_123/U2000.hhc");
Reader reader = new InputStreamReader(in, "GBK");
org.w3c.dom.Document document = builder.newDocument();
// Here is where we use Cobra's HTML parser.
HtmlParser parser = new HtmlParser(uacontext, document);
parser.parse(reader);
DOMReader xmlReader = new DOMReader();
System.out.println(xmlReader.read(document).asXML());
我要举报
如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
点此我要举报以上问答信息
大家都在看
推荐资讯