新闻站抓取神器:正文抽取接口 -- PHP -- IT技术博客大学习 -- 共学习共进步！

您现在的位置：首页 --> PHP --> 新闻站抓取神器:正文抽取接口

新闻站抓取神器:正文抽取接口

浏览:3759次出处信息

目前市面上的采集器,主要是通过用户通过写模块实现;一般是用正则,有的采集器也能稍微把正则弄得傻瓜一点点.

另外一些高级一点的采集工具,则通过IE扩展或是firefox的扩展,通过手工选取要抽取的DOM节点的Xpath,实现正文抓取;

这些,都需要一个共同的过程:每新处理一个要抓取的站点,都需要手工设置一翻,写正则或是写DOM节点的路径;要抓取的网站一改版,这个所有的过程就必须重新来一遍.

经过很久很久的琢磨,一米六二开发了正文抽取的神器(虽然这么说有点夸张),针对主流新闻类网站的正文抓取,不再需要做模板或是特别针对某个站点的设置,统统都能正确返回正文!绝对是神器~

废话不多说,直接上代码:

以下是代码片段：
<?php
/* vim: set shiftwidth=4: */
/* vim: set fdm=marker: */
/**
* 进行pserver相关接口的测试;
*
* @author renlu <xurenlu@gmail.com>
* @version $Id$
* @copyright renlu <xurenlu@gmail.com>, 02 三月, 2010
* @package default
**/
include dirname(__FILE__).’/phprpc/phprpc_client.php’;

/*** {{{  test_remote */
function test_remote()
{
    $url="http://www.cloudapi.info/b8_api.py?code=HW4MlGesu5RJUcMZmfWSXd8vdrz3uXWs";
    $rpc= new PHPRPC_Client();
    $rpc->setProxy(NULL);
    $rpc->useService($url);
    print_r($rpc->api_grab_text(file_get_contents("http://news.cn.yahoo.com/10-07-/1037/2kl6e.html"),"GBK"));
}
/** }}} */
test_remote();
?>

您可以先点击查看一下原文:http://news.cn.yahoo.com/10-07-/1037/2kl6e.html;

代码运行的结果是:

以下是引用片段：
Array
(
    [content] => <DIV><div class="text fixclear" score="24.2628817646">
<p><a style="color: #ff0000" href="http://new.rd.cn.yahoo.com/homepage/ads/article/news/daorudianji/SIG=20344beb7/**http%3A%2F%2Fnews.cn.yahoo.com%2F" target="_blank"><strong>>>>点击进入雅虎新版资讯首页体验更多精彩</strong></a></p><p>新华网北京7月1日电(记者熊争艳)中国人民解放军副总参谋长马晓天1日表示,只要中美一致认为时机合适,中方欢迎美国国防部长盖茨访华。</p><p>马晓天当日出席“粮食安全:中国与世界”国际学术研讨会间隙,回答记者提问时说:“我们的立场还是,在(中美)双方都认为合适的时候,欢迎他的来访。”</p><p>据去年美国总统奥巴马访华期间双方发表的《中美联合声明》,盖茨定于今年访问中国。今年初美对台出售总额达63.92亿美元的武器后,考虑到美售台武器的严重危害性及对中美两军关系带来的恶劣影响,中方决定,暂停两军计划内的有关互访安排。</p><p>马晓天多次表示,中美两军关系能否克服当前困难,回到健康稳定发展的轨道,关键取决于美方能否切实尊重中方的核心利益和重大关切,在解决美售台武器、舰机侦察等两军关系重大敏感问题上体现诚意,为两军关系的恢复与健康发展创造条件。</p></div></DIV>
    [msg] => -
    [code] => 200
    [uuid] => 569ad633-75d2-4251-b9ce-6aea88bdb0f9
    [title] => 解放军高官:欢迎美国防长在合适时机访华
- 雅虎资讯
)

嗯,我没有提供源代码,也没有要提代源代码的打算;这个抓取服务通过cloudapi.info这个云接口平台提供.至此,我想做的一些服务都已经完成鸟,下一步就开始完善cloudapi.info的功能,让它更好地为大众服务!

建议继续学习：

QQ技术交流群：445447336，欢迎加入！
扫一扫订阅我的微信号：IT技术博客大学习

<< 前一篇：在编译php-fpm0.6的时候需要注意的一些问题

后一篇：简单工厂模式：计算器类 >>

文章信息

作者：一米六二来源：互联网，请记住我
标签：抓站
发布时间：2010-07-21 09:40:52

建议继续学习

近3天十大热文