技术头条 - 一个快速在微博传播文章的方式     搜索本站
您现在的位置首页 --> PHP --> PHP Simple HTML DOM Parser 是一个不错的html/xml分析类

PHP Simple HTML DOM Parser 是一个不错的html/xml分析类

浏览:5789次  出处信息

用php解析html/xml文件,PHP内置了几个类,但是要不就是目前处理能力过于简单,用户编码太多,要不就是对文档的要求很严格。刚好今天要用php抓取大量网页的特定内容,在sf.net 上找到了这个称为PHP Simple HTML DOM Parser 类。单个文件,目前36k。官方给出的特性和要求是:

  • 相当简单的方式操作HTML
  • 要求PHP 5 以上
  • 支持无效的HTML
  • 类似jQuery的选择器来查找元素
  • 单行代码就可以从HTML页面抓取内容。

支持无效的HTML很重要,网络上能严格通过w3c验证的网站太少了,大部分网站的很多标签都非封闭的,而大部分DOM解析器都是以XML方式处理,而XML对标签的封闭就要求很严格了,因此大部分网页无法使用这种函数来处理。

一个强大的选择器来查询和定位要找的元素至关重要,jQuery无疑在这方面做的相当棒。而这个类就采用了jQuery类似的查询方式,官方网络上也给出大量的例子来说明这点。

可惜的是,目前还不支持xpath查询方式,如果xpath查找,那就更强悍了,希望早日能看到这个功能。

想进一步了解,可以看在线文档

建议继续学习:

  1. 仅100行的JavaScript DOM操作类库    (阅读:3437)
  2. phpQuery:像jQuery一样处理DOM    (阅读:3333)
  3. 对大量子节点DOM操作的最佳实践方式    (阅读:3160)
  4. 获取Dom元素的X/Y坐标    (阅读:2863)
  5. React入门:关于虚拟DOM(Virtual DOM)    (阅读:2683)
  6. DOM元素上jQuery事件几点学习    (阅读:2437)
  7. JS操作iframe里的dom    (阅读:2356)
  8. DOM Storage全解析    (阅读:2281)
  9. 页面DOM加载顺序和用户视觉浏览顺序的一致性    (阅读:2252)
  10. DOM操作琐碎知识点    (阅读:2092)
QQ技术交流群:445447336,欢迎加入!
扫一扫订阅我的微信号:IT技术博客大学习
© 2009 - 2024 by blogread.cn 微博:@IT技术博客大学习

京ICP备15002552号-1