PHP Simple HTML DOM Parser 是一个不错的html/xml分析类
浏览:6528次 出处信息
用php解析html/xml文件,PHP内置了几个类,但是要不就是目前处理能力过于简单,用户编码太多,要不就是对文档的要求很严格。刚好今天要用php抓取大量网页的特定内容,在sf.net 上找到了这个称为PHP Simple HTML DOM Parser 类。单个文件,目前36k。官方给出的特性和要求是:
- 相当简单的方式操作HTML
- 要求PHP 5 以上
- 支持无效的HTML
- 类似jQuery的选择器来查找元素
- 单行代码就可以从HTML页面抓取内容。
支持无效的HTML很重要,网络上能严格通过w3c验证的网站太少了,大部分网站的很多标签都非封闭的,而大部分DOM解析器都是以XML方式处理,而XML对标签的封闭就要求很严格了,因此大部分网页无法使用这种函数来处理。
一个强大的选择器来查询和定位要找的元素至关重要,jQuery无疑在这方面做的相当棒。而这个类就采用了jQuery类似的查询方式,官方网络上也给出大量的例子来说明这点。
可惜的是,目前还不支持xpath查询方式,如果xpath查找,那就更强悍了,希望早日能看到这个功能。
想进一步了解,可以看在线文档。
建议继续学习:
- 仅100行的JavaScript DOM操作类库 (阅读:4057)
- phpQuery:像jQuery一样处理DOM (阅读:4008)
- 对大量子节点DOM操作的最佳实践方式 (阅读:3682)
- 获取Dom元素的X/Y坐标 (阅读:3697)
- React入门:关于虚拟DOM(Virtual DOM) (阅读:3266)
- DOM元素上jQuery事件几点学习 (阅读:2985)
- JS操作iframe里的dom (阅读:2867)
- 页面DOM加载顺序和用户视觉浏览顺序的一致性 (阅读:2886)
- DOM Storage全解析 (阅读:2789)
- DOM操作琐碎知识点 (阅读:2719)
QQ技术交流群:445447336,欢迎加入!
扫一扫订阅我的微信号:IT技术博客大学习
扫一扫订阅我的微信号:IT技术博客大学习
文章信息
- 作者:mlsx 来源: Linux|系统管理|WEB开发
- 标签: DOM Simple
- 发布时间:2010-04-15 13:49:07
建议继续学习
近3天十大热文
-
[928] WordPress插件开发 -- 在插件使用 -
[134] 解决 nginx 反向代理网页首尾出现神秘字 -
[52] 整理了一份招PHP高级工程师的面试题 -
[52] 如何保证一个程序在单台服务器上只有唯一实例( -
[51] 用 Jquery 模拟 select -
[50] 海量小文件存储 -
[50] Innodb分表太多或者表分区太多,会导致内 -
[50] 全站换域名时利用nginx和javascri -
[49] CloudSMS:免费匿名的云短信 -
[47] jQuery性能优化指南
