好问题
Good  Question
  • 首 页
  • 问题
    • PHP
    • JAVA
    • CPlusPlus
    • C#
    • SQL
  • 关 于
  • 联 系
JAVA中哪个HTML解析器是最好的? 关闭 返回上一级  

JAVA中哪个HTML解析器是最好的?
+ 查看更多

发布日期:2018-03-08 16:29
分类:JAVA
浏览次数:102
我编写了很多解析器。 到目前为止,我使用HtmlUnit无头浏览器来实现进行解析和浏览自动化。
现在,我想分离这两个任务。由于80%的工作只涉及解析,我想使用一个轻量的HTML解析器,因为HtmlUnit首先要加载页面,然后获取源,然后解析,这个过程需要很多时间。
我想知道哪个HTML解析器是最好的。如果它接近HtmlUnit解析器那就更好了。
注意:
至少需要满足以下两点:
1.速度
2.通过其“id”或“名name称”或“标签类型”轻松找到任何Html元素。
如果它不清理脏的HTML代码,也是可以的。我不需要清理任何HTML源代码。 我只需要一个最简单的方法来移动跨越Html元素并且从中收获数据。

回答:

个人插件:我刚刚发布了一个新的Java HTML解析器:jsoup[https://jsoup.org/]。 我在这里提到它,因为我认为它符合你的要求。
它的派对技巧是一个CSS选择器语法来查找元素,例如:

String html ="

Parsed HTML into a doc."; Document doc = Jsoup.parse(html); Elements links = doc.select("a"); Element head = doc.select("head").first();

有关更多信息,请参阅选择器javadoc。这是一个新的项目,所以非常欢迎提建议!
上一篇JAVA中如何比较两个没有时间的日期?
如何在Java中播放声音?下一篇
下一篇如何在Java中播放声音?

最新文章

  • 函数`__construct`用来干嘛的
    发布日期:2018-03-26
  • 通过访客的IP得到他们的地区
    发布日期:2018-03-26
  • 合并两个PHP对象的最好的方法是什么?
    发布日期:2018-03-26
  • 该如何把一该如何把一个对象转化成数组?
    发布日期:2018-03-26
  • 什么是输出缓冲区?
    发布日期:2018-03-26
  • 在PHP中怎么把用逗号分隔的字符串分隔在一个数组里?
    发布日期:2018-03-26
  • 在PHP中使用foreach循环时查找数组的最后一个元素
    发布日期:2018-03-26
关于好问
收集整理一些有用的问题和回答,造福中国的程序旺和IT喵们!
友情链接
起飞页 
相关信息
版权声明
Copyright © 2016 - 2022  苏州卡达网络科技有限公司 备案号:苏ICP备09008221号