网页分析处理的极品模块Web::Scraper

扶凯 2010-11-29 20:55:12 累计浏览 2,239 次

本机暂存

内容概览

作者从自动化处理中智能提取网页元素的实际痛点出发，推荐了他眼中最为顺手的模块——Web::Scraper。

在处理爬虫或数据抓取任务时，直接基于CSS选择器或HTML结构定位目标信息，通常比依赖不稳定的XPath或正则表达式要高效得多。Web::Scraper 正是为此设计，它允许你用类似写CSS的方式，清晰、直观地从网页中“剥离”出所需的数据块。

作者强调了在众多类似工具中，这个模块的“极品”体验。它不仅语法简洁，而且在处理嵌套结构和复杂提取规则时表现得尤为稳定和灵活。对于需要经常与网页打交道，尤其是希望代码能更贴近页面原始结构、降低维护成本的开发者来说，它提供了一种优雅的解决方案。

这篇文章详细介绍了如何利用它来简化从网页结构到数据的映射过程，让自动化信息获取变得更智能、更可控。

我们在做各种自动化处理时，常常会希望能更加智能的得到网页中自己想要的元素，最好是象 css 和 div 中的信息来取得，就会更加方便，这个 Web::Scraper 是我用过的几个模块中最方便的，还包括了一

在使用 Web::Scraper 的时候，我们需要先有 Xpath 的路程，这个是网页结构解析出来的结构的路径。
如果对 XPath 不了解，看我以前的文章： XPath 的简单语法介绍. 这个中有 XPath 的简单语法介绍.

怎么样取得 XPath

建议使用Firefox 的 firebug 和这个软件配合是极品。直接使用 firebug 选择要取出的文件的相关的部分点右键，选择"查看元素"，在深色选中的部分在次点右键，选择 "复制 XPath". 选择内容->查看元素-> 复制 XPath .

如下，直接在要处理的元素上点右键，选择查看元素。

原图已失效

接着，要 Firebug 出现的界面的元素中选择复制 XPath。

原图已失效

会得到 XPath 的地址，’/html/body/div/div/div[2]/div[3]/div[4]/ul/li[6]/a’ 象这种。这样不用我们自己来写网页的 Xpath 的地方了 ,相当的方便。不过有个小细节，好象 scraper 不支持多个 tbody .所以记的要删除。

使用 Web::Scraper 的方法

使用 Web::Scraper 前，我们可以直接使用 scraper 的命令行模式，这个超级方便我们来调试，直到我们取出所有我们要的文件内容。

(1. 使用 scraper 进入命令行模式
#scraper Filename or Url‘

下面我直接打开一个在线的网页

#scraper http://icp.valu.cn/piliang/chaxun?domains=php-oa.com
scraper>

(2. 显示当前正在处理的 HTML 本身.
进入后，有几个常用的命令可以使用，比如下面的命令，它会显示下载 or 打开的整个网页的内容,显示 HTML 本身

scraper> s
 
.....

(3. 显示一个 XPath 中的详细内容
在这个命行中，有个 WARN 的方法可以调用。用来显示当前 XPath 中的内容

scraper> process '/html/body/div/div[8]/table/tr[2]/td',WARN;
<td >1</td>
<td >扶凯</td>
<td >个人</td>
<td >渝ICP备10001691号-1</a></td>
<td >扶凯</td>
<td><div><a href="/go/?domain=www.php-oa.com" target="_blank">www.php-oa.com</a></div></td>
<td >2010-01-07</td>
<td ><a href="/details/%d3%e5ICP%b1%b810001691%ba%c5-1" target="_blank">详情</a></td>

(4. 给标签中的内容存到一个变量 key 中
下面的显示，是给内容直接转成 Yaml 的格式显示出来。另外还可以存成一个数组，
主要语法是
process <CSS式 or XPath式>, ‘保存的变量的名字’ => ‘保存方式’;
接着看下面吧

scraper> process '/html/body/div/div[8]/table/tr[2]/td[6]','key' => 'TEXT'
scraper> y
---
key: www.php-oa.com

(5. 给标签中的内容存到一个数组中
以数组的方法来取得多个文件直接在变量名后加 [] 就行了，这是这的 td 一定要是在这个下面有多个。本来值是 td[1],td[2] 这种，数组的话，给 XPath 替换成 td.

scraper> process '/html/body/div/div[8]/table/tr[2]/td','key[]' => 'TEXT'
scraper> y
---
key:
- 1
- 扶凯
- 个人
- 渝ICP备10001691号-1
- 扶凯
- www.php-oa.com
- 2010-01-07
- 详情

(6. 输出刚才测试的内容成 Perl 文件
这个命令执行最后一个输入成 Perl 文件的形式，c all 会输出所有测试过的内容成一个 Perl 文件

scraper> c
#!/usr/bin/perl
use strict;
use Web::Scraper;
use URI;
 
my $uri = URI->new("http://icp.valu.cn/piliang/chaxun?domains=php-oa.com");
my $scraper = scraper {
process '/html/body/div/div[8]/table/tr[2]/td[6]','key' => 'TEXT';
};
my $result = $scraper->scrape($uri);

Web::Scraper 备注

上面的例子中，都有个 TEXT 是指的保存方式’ 。
process <CSS式 or XPath式>, ‘保存的变量的名字’ => ‘保存方式’;
保存方式的详细方法有如下几种：

TEXT
只有普通的文字，才会放进来，如下所示

'<a href="/go/?domain=www.php-oa.com" target="_blank">www.php-oa.com</a>'

HTML
整个 html 的内容都会包含进来，象下面这样的输出，会包含有 html 本身的标签。如下所示

www.php-oa.com

@ 列表
给内容的部分，以列表的方法来存。

同分类推荐文章

等了十年的 Go 链式管道，终于来了：seq 让你像写 Scala 一样写 Go （2026-06-25 18:38:18）
Go 实验特性详解（2026-06-21 10:05:27）
amd64 微架构级别对 Go 程序性能提升多少？（2026-06-21 09:38:49）

查看更多后端文章 →

建议继续学习

用Hyer来进行网站的抓取（累计阅读 158,251）
抓取网页内容生成Kindle电子书（累计阅读 9,485）
PHP Simple HTML DOM Parser 是一个不错的html/xml分析类（累计阅读 7,088）
定向抓取漫谈（累计阅读 5,578）
Kindle 电子书生成工具（累计阅读 5,125）
Ruby 解析 HTML (Nokogiri) （累计阅读 4,948）
使用Perl的HTML::TreeBuilder::XPath来解析网页内容（累计阅读 4,802）
新浪博客抓取程序(php) （累计阅读 4,712）
其实你不懂wget的心-01 （累计阅读 4,545）
新闻站抓取神器:正文抽取接口（累计阅读 4,119）