技术头条 - 一个快速在微博传播文章的方式     搜索本站
您现在的位置首页 --> PHP --> 新闻站抓取神器:正文抽取接口

新闻站抓取神器:正文抽取接口

浏览:3192次  出处信息

    目前市面上的采集器,主要是通过用户通过写模块实现;一般是用正则,有的采集器也能稍微把正则弄得傻瓜一点点.

    另外一些高级一点的采集工具,则通过IE扩展或是firefox的扩展,通过手工选取要抽取的DOM节点的Xpath,实现正文抓取;

    这些,都需要一个共同的过程:每新处理一个要抓取的站点,都需要手工设置一翻,写正则或是写DOM节点的路径;要抓取的网站一改版,这个所有的过程就必须重新来一遍.

    经过很久很久的琢磨,一米六二开发了正文抽取的神器(虽然这么说有点夸张),针对主流新闻类网站的正文抓取,不再需要做模板或是特别针对某个站点的设置,统统都能正确返回正文!绝对是神器~

    废话不多说,直接上代码:

以下是代码片段:
<?php 
/* vim: set shiftwidth=4: */  
/* vim: set fdm=marker: */ 
/** 
* 进行pserver相关接口的测试; 

* @author renlu <xurenlu@gmail.com> 
* @version $Id$ 
* @copyright renlu <xurenlu@gmail.com>, 02 三月, 2010 
* @package default 
**/ 
include dirname(__FILE__).’/phprpc/phprpc_client.php’; 
  
/*** {{{  test_remote */  
function test_remote() 

    $url="http://www.cloudapi.info/b8_api.py?code=HW4MlGesu5RJUcMZmfWSXd8vdrz3uXWs"; 
    $rpc= new PHPRPC_Client(); 
    $rpc->setProxy(NULL); 
    $rpc->useService($url); 
    print_r($rpc->api_grab_text(file_get_contents("http://news.cn.yahoo.com/10-07-/1037/2kl6e.html"),"GBK")); 

/** }}} */ 
test_remote(); 
?>

    您可以先点击查看一下原文:http://news.cn.yahoo.com/10-07-/1037/2kl6e.html;

    代码运行的结果是:

以下是引用片段:
Array 

    [content] => <DIV><div class="text fixclear" score="24.2628817646"> 
<p><a style="color: #ff0000" href="http://new.rd.cn.yahoo.com/homepage/ads/article/news/daorudianji/SIG=20344beb7/**http%3A%2F%2Fnews.cn.yahoo.com%2F" target="_blank"><strong>&gt;&gt;&gt;点击进入雅虎新版资讯首页 体验更多精彩</strong></a></p><p>新华网北京7月1日电(记者熊争艳)中国人民解放军副总参谋长马晓天1日表示,只要中美一致认为时机合适,中方欢迎美国国防部长盖茨访华。</p><p>马晓天当日出席“粮食安全:中国与世界”国际学术研讨会间隙,回答记者提问时说:“我们的立场还是,在(中美)双方都认为合适的时候,欢迎他的来访。”</p><p>据去年美国总统奥巴马访华期间双方发表的《中美联合声明》,盖茨定于今年访问中国。今年初美对台出售总额达63.92亿美元的武器后,考虑到美售台武器的严重危害性及对中美两军关系带来的恶劣影响,中方决定,暂停两军计划内的有关互访安排。</p><p>马晓天多次表示,中美两军关系能否克服当前困难,回到健康稳定发展的轨道,关键取决于美方能否切实尊重中方的核心利益和重大关切,在解决美售台武器、舰机侦察等两军关系重大敏感问题上体现诚意,为两军关系的恢复与健康发展创造条件。</p></div></DIV> 
    [msg] => - 
    [code] => 200 
    [uuid] => 569ad633-75d2-4251-b9ce-6aea88bdb0f9 
    [title] => 解放军高官:欢迎美国防长在合适时机访华 
 - 雅虎资讯 
)

    嗯,我没有提供源代码,也没有要提代源代码的打算;这个抓取服务通过cloudapi.info这个云接口平台提供.至此,我想做的一些服务都已经完成鸟,下一步就开始完善cloudapi.info的功能,让它更好地为大众服务!

建议继续学习:

  1. 使用python爬虫抓站的一些技巧总结:进阶篇    (阅读:6310)
  2. 使用Perl的HTML::TreeBuilder::XPath来解析网页内容    (阅读:3866)
  3. php抓取页面与代码解析    (阅读:2865)
  4. 关于新闻网页正文抽取的一些思路    (阅读:2581)
QQ技术交流群:445447336,欢迎加入!
扫一扫订阅我的微信号:IT技术博客大学习
© 2009 - 2024 by blogread.cn 微博:@IT技术博客大学习

京ICP备15002552号-1