PHP Simple HTML DOM Parser 是一个不错的html/xml分析类

Linux|系统管理|WEB开发 2010-04-15 13:49:07 累计浏览 7,088 次

本机暂存

内容概览

这篇讲的是PHP中一个轻量级的HTML/XML解析工具——PHP Simple HTML DOM Parser。作者从实际需求出发，提到PHP内置的DOM或SimpleXML等类虽然可用，但在处理不规范的HTML时往往要么能力不足、编码繁琐，要么过于严格。为了解决抓取大量网页特定内容的问题，作者找到了这个第三方类。

这个库最大的特点是轻量便捷：整个解决方案封装在单个文件中，目前仅36KB大小。它采用类似jQuery的语法来遍历和选择元素，大大降低了编码复杂度，尤其适合处理现实世界中那些结构松散、不完全符合规范的HTML文档。文章虽然未完全展示官方列出的特性，但核心已指向其易用性和对宽松文档的宽容度。

对于需要快速抓取和解析网页内容的PHP开发者来说，这个轻量级工具或许比使用重量级框架或编写复杂的正则表达式更为直接高效。

用php解析html/xml文件，PHP内置了几个类，但是要不就是目前处理能力过于简单，用户编码太多，要不就是对文档的要求很严格。刚好今天要用php抓取大量网页的特定内容，在sf.net 上找到了这个称为PHP Simple HTML DOM Parser 类。单个文件，目前36k。官方给出的特性和要求是：

相当简单的方式操作HTML
要求PHP 5 以上
支持无效的HTML
类似jQuery的选择器来查找元素
单行代码就可以从HTML页面抓取内容。

支持无效的HTML很重要，网络上能严格通过w3c验证的网站太少了，大部分网站的很多标签都非封闭的，而大部分DOM解析器都是以XML方式处理，而XML对标签的封闭就要求很严格了，因此大部分网页无法使用这种函数来处理。

一个强大的选择器来查询和定位要找的元素至关重要，jQuery无疑在这方面做的相当棒。而这个类就采用了jQuery类似的查询方式，官方网络上也给出大量的例子来说明这点。

可惜的是，目前还不支持xpath查询方式，如果xpath查找，那就更强悍了，希望早日能看到这个功能。

想进一步了解，可以看在线文档。

同分类推荐文章

等了十年的 Go 链式管道，终于来了：seq 让你像写 Scala 一样写 Go （2026-06-25 18:38:18）
Go 实验特性详解（2026-06-21 10:05:27）
amd64 微架构级别对 Go 程序性能提升多少？（2026-06-21 09:38:49）

查看更多后端文章 →

建议继续学习

用Hyer来进行网站的抓取（累计阅读 158,250）
使用gettext来支持PHP的多语言（累计阅读 39,268）
WordPress插件开发 -- 在插件使用数据库存储数据（累计阅读 29,164）
Paypal接口详细代码(PHP版，非API接口) （累计阅读 19,408）
我的PHP，Python和Ruby之路（累计阅读 13,146）
include(“./file.php”)和include(“file.php”)区别（累计阅读 12,789）
15个最好的免费开源电子商务平台（累计阅读 12,541）
Redis消息队列的若干实现方式（累计阅读 12,088）
到底什么是MVC？（累计阅读 11,865）
整理了一份招PHP高级工程师的面试题（累计阅读 11,708）