发布日期:2018-03-26
JAVA中哪个HTML解析器是最好的?+ 查看更多
JAVA中哪个HTML解析器是最好的?
+ 查看更多
发布日期:2018-03-08 16:29
分类:JAVA
浏览次数:111
我编写了很多解析器。 到目前为止,我使用HtmlUnit无头浏览器来实现进行解析和浏览自动化。
现在,我想分离这两个任务。由于80%的工作只涉及解析,我想使用一个轻量的HTML解析器,因为HtmlUnit首先要加载页面,然后获取源,然后解析,这个过程需要很多时间。
我想知道哪个HTML解析器是最好的。如果它接近HtmlUnit解析器那就更好了。
注意:
至少需要满足以下两点:
1.速度
2.通过其“id”或“名name称”或“标签类型”轻松找到任何Html元素。
如果它不清理脏的HTML代码,也是可以的。我不需要清理任何HTML源代码。 我只需要一个最简单的方法来移动跨越Html元素并且从中收获数据。
1.速度
2.通过其“id”或“名name称”或“标签类型”轻松找到任何Html元素。
如果它不清理脏的HTML代码,也是可以的。我不需要清理任何HTML源代码。 我只需要一个最简单的方法来移动跨越Html元素并且从中收获数据。
回答:
个人插件:我刚刚发布了一个新的Java HTML解析器:jsoup[https://jsoup.org/]。 我在这里提到它,因为我认为它符合你的要求。
它的派对技巧是一个CSS选择器语法来查找元素,例如:
String html ="
Parsed HTML into a doc."; Document doc = Jsoup.parse(html); Elements links = doc.select("a"); Element head = doc.select("head").first();
有关更多信息,请参阅选择器javadoc。这是一个新的项目,所以非常欢迎提建议!