IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

PHP Simple HTML DOM Parser 是一个不错的html/xml分析类

Linux|系统管理|WEB开发 2010-04-15 13:49:07 累计浏览 7,086 次
本机暂存

用php解析html/xml文件,PHP内置了几个类,但是要不就是目前处理能力过于简单,用户编码太多,要不就是对文档的要求很严格。刚好今天要用php抓取大量网页的特定内容,在sf.net 上找到了这个称为PHP Simple HTML DOM Parser 类。单个文件,目前36k。官方给出的特性和要求是:

  • 相当简单的方式操作HTML
  • 要求PHP 5 以上
  • 支持无效的HTML
  • 类似jQuery的选择器来查找元素
  • 单行代码就可以从HTML页面抓取内容。

支持无效的HTML很重要,网络上能严格通过w3c验证的网站太少了,大部分网站的很多标签都非封闭的,而大部分DOM解析器都是以XML方式处理,而XML对标签的封闭就要求很严格了,因此大部分网页无法使用这种函数来处理。

一个强大的选择器来查询和定位要找的元素至关重要,jQuery无疑在这方面做的相当棒。而这个类就采用了jQuery类似的查询方式,官方网络上也给出大量的例子来说明这点。

可惜的是,目前还不支持xpath查询方式,如果xpath查找,那就更强悍了,希望早日能看到这个功能。

想进一步了解,可以看在线文档

同分类推荐文章

  1. 等了十年的 Go 链式管道,终于来了:seq 让你像写 Scala 一样写 Go (2026-06-25 18:38:18)
  2. Go 实验特性详解 (2026-06-21 10:05:27)
  3. amd64 微架构级别对 Go 程序性能提升多少? (2026-06-21 09:38:49)

查看更多 后端 文章 →

建议继续学习

  1. 用Hyer来进行网站的抓取 (累计阅读 158,250)
  2. 使用gettext来支持PHP的多语言 (累计阅读 39,267)
  3. WordPress插件开发 -- 在插件使用数据库存储数据 (累计阅读 29,162)
  4. Paypal接口详细代码(PHP版,非API接口) (累计阅读 19,407)
  5. 我的PHP,Python和Ruby之路 (累计阅读 13,146)
  6. include(“./file.php”)和include(“file.php”)区别 (累计阅读 12,788)
  7. 15个最好的免费开源电子商务平台 (累计阅读 12,540)
  8. Redis消息队列的若干实现方式 (累计阅读 12,085)
  9. 到底什么是MVC? (累计阅读 11,865)
  10. 整理了一份招PHP高级工程师的面试题 (累计阅读 11,708)