新闻站抓取神器:正文抽取接口

互联网，请记住我 2010-07-21 09:40:52 累计浏览 4,123 次

本机暂存

内容概览

目前新闻站内容抓取的痛点在于，传统采集器严重依赖人工编写正则规则来定位正文，这不仅效率低下，而且网站结构一变就容易失效。作者从实际工程需求出发，介绍了一种基于正文抽取接口的解决方案。

该方案的核心是绕过复杂的前端标签匹配，直接对HTML文档进行语义分析。它能够智能识别内容块，自动过滤掉导航栏、广告、版权声明等干扰元素，精准提取出纯净的文章正文。与传统需要针对每个网站写模块的方式相比，这个接口提供了一种更通用、更稳定的自动化提取能力。

这意味着，开发者不再需要为成百上千个新闻网站分别维护采集规则。通过调用统一的接口，就能高效获得结构化的正文内容，极大降低了数据采集和清洗的成本。对于需要大规模获取网络文本数据的应用场景，这提供了一个非常实用的技术思路。

目前市面上的采集器,主要是通过用户通过写模块实现;一般是用正则,有的采集器也能稍微把正则弄得傻瓜一点点.

另外一些高级一点的采集工具,则通过IE扩展或是firefox的扩展,通过手工选取要抽取的DOM节点的Xpath,实现正文抓取;

这些,都需要一个共同的过程:每新处理一个要抓取的站点,都需要手工设置一翻,写正则或是写DOM节点的路径;要抓取的网站一改版,这个所有的过程就必须重新来一遍.

经过很久很久的琢磨,一米六二开发了正文抽取的神器(虽然这么说有点夸张),针对主流新闻类网站的正文抓取,不再需要做模板或是特别针对某个站点的设置,统统都能正确返回正文!绝对是神器~

废话不多说,直接上代码:

以下是代码片段：
<?php
/* vim: set shiftwidth=4: */
/* vim: set fdm=marker: */
/**
* 进行pserver相关接口的测试;
*
* @author renlu <xurenlu@gmail.com>
* @version $Id$
* @copyright renlu <xurenlu@gmail.com>, 02 三月, 2010
* @package default
**/
include dirname(__FILE__).’/phprpc/phprpc_client.php’;

/*** {{{  test_remote */
function test_remote()
{
    $url="http://www.cloudapi.info/b8_api.py?code=HW4MlGesu5RJUcMZmfWSXd8vdrz3uXWs";
    $rpc= new PHPRPC_Client();
    $rpc->setProxy(NULL);
    $rpc->useService($url);
    print_r($rpc->api_grab_text(file_get_contents("http://news.cn.yahoo.com/10-07-/1037/2kl6e.html"),"GBK"));
}
/** }}} */
test_remote();
?>

您可以先点击查看一下原文:http://news.cn.yahoo.com/10-07-/1037/2kl6e.html;

代码运行的结果是:

以下是引用片段：
Array
(
    [content] => <DIV><div class="text fixclear" score="24.2628817646">
<p><a style="color: #ff0000" href="http://new.rd.cn.yahoo.com/homepage/ads/article/news/daorudianji/SIG=20344beb7/**http%3A%2F%2Fnews.cn.yahoo.com%2F" target="_blank"><strong>>>>点击进入雅虎新版资讯首页体验更多精彩</strong></a></p><p>新华网北京7月1日电(记者熊争艳)中国人民解放军副总参谋长马晓天1日表示,只要中美一致认为时机合适,中方欢迎美国国防部长盖茨访华。</p><p>马晓天当日出席“粮食安全:中国与世界”国际学术研讨会间隙,回答记者提问时说:“我们的立场还是,在(中美)双方都认为合适的时候,欢迎他的来访。”</p><p>据去年美国总统奥巴马访华期间双方发表的《中美联合声明》,盖茨定于今年访问中国。今年初美对台出售总额达63.92亿美元的武器后,考虑到美售台武器的严重危害性及对中美两军关系带来的恶劣影响,中方决定,暂停两军计划内的有关互访安排。</p><p>马晓天多次表示,中美两军关系能否克服当前困难,回到健康稳定发展的轨道,关键取决于美方能否切实尊重中方的核心利益和重大关切,在解决美售台武器、舰机侦察等两军关系重大敏感问题上体现诚意,为两军关系的恢复与健康发展创造条件。</p></div></DIV>
    [msg] => -
    [code] => 200
    [uuid] => 569ad633-75d2-4251-b9ce-6aea88bdb0f9
    [title] => 解放军高官:欢迎美国防长在合适时机访华
- 雅虎资讯
)

嗯,我没有提供源代码,也没有要提代源代码的打算;这个抓取服务通过cloudapi.info这个云接口平台提供.至此,我想做的一些服务都已经完成鸟,下一步就开始完善cloudapi.info的功能,让它更好地为大众服务!

同分类推荐文章

等了十年的 Go 链式管道，终于来了：seq 让你像写 Scala 一样写 Go （2026-06-25 18:38:18）
Go 实验特性详解（2026-06-21 10:05:27）
amd64 微架构级别对 Go 程序性能提升多少？（2026-06-21 09:38:49）

查看更多后端文章 →

建议继续学习

用Hyer来进行网站的抓取（累计阅读 158,253）
抓取网页内容生成Kindle电子书（累计阅读 9,487）
POST与GET的区别及RESTful （累计阅读 7,864）
PHP Simple HTML DOM Parser 是一个不错的html/xml分析类（累计阅读 7,091）
Google短网址的API （累计阅读 6,522）
理解JSON：3分钟课程（累计阅读 5,793）
5分钟搞定你的Rest Server （累计阅读 5,744）
定向抓取漫谈（累计阅读 5,579）
Kindle 电子书生成工具（累计阅读 5,127）
SteveY对Amazon和Google平台的长篇大论（累计阅读 5,060）