新闻站抓取神器:正文抽取接口
浏览:3207次 出处信息
目前市面上的采集器,主要是通过用户通过写模块实现;一般是用正则,有的采集器也能稍微把正则弄得傻瓜一点点.
另外一些高级一点的采集工具,则通过IE扩展或是firefox的扩展,通过手工选取要抽取的DOM节点的Xpath,实现正文抓取;
这些,都需要一个共同的过程:每新处理一个要抓取的站点,都需要手工设置一翻,写正则或是写DOM节点的路径;要抓取的网站一改版,这个所有的过程就必须重新来一遍.
经过很久很久的琢磨,一米六二开发了正文抽取的神器(虽然这么说有点夸张),针对主流新闻类网站的正文抓取,不再需要做模板或是特别针对某个站点的设置,统统都能正确返回正文!绝对是神器~
废话不多说,直接上代码:
以下是代码片段: <?php /* vim: set shiftwidth=4: */ /* vim: set fdm=marker: */ /** * 进行pserver相关接口的测试; * * @author renlu <xurenlu@gmail.com> * @version $Id$ * @copyright renlu <xurenlu@gmail.com>, 02 三月, 2010 * @package default **/ include dirname(__FILE__).’/phprpc/phprpc_client.php’; /*** {{{ test_remote */ function test_remote() { $url="http://www.cloudapi.info/b8_api.py?code=HW4MlGesu5RJUcMZmfWSXd8vdrz3uXWs"; $rpc= new PHPRPC_Client(); $rpc->setProxy(NULL); $rpc->useService($url); print_r($rpc->api_grab_text(file_get_contents("http://news.cn.yahoo.com/10-07-/1037/2kl6e.html"),"GBK")); } /** }}} */ test_remote(); ?> |
您可以先点击查看一下原文:http://news.cn.yahoo.com/10-07-/1037/2kl6e.html;
代码运行的结果是:
以下是引用片段: Array ( [content] => <DIV><div class="text fixclear" score="24.2628817646"> <p><a style="color: #ff0000" href="http://new.rd.cn.yahoo.com/homepage/ads/article/news/daorudianji/SIG=20344beb7/**http%3A%2F%2Fnews.cn.yahoo.com%2F" target="_blank"><strong>>>>点击进入雅虎新版资讯首页 体验更多精彩</strong></a></p><p>新华网北京7月1日电(记者熊争艳)中国人民解放军副总参谋长马晓天1日表示,只要中美一致认为时机合适,中方欢迎美国国防部长盖茨访华。</p><p>马晓天当日出席“粮食安全:中国与世界”国际学术研讨会间隙,回答记者提问时说:“我们的立场还是,在(中美)双方都认为合适的时候,欢迎他的来访。”</p><p>据去年美国总统奥巴马访华期间双方发表的《中美联合声明》,盖茨定于今年访问中国。今年初美对台出售总额达63.92亿美元的武器后,考虑到美售台武器的严重危害性及对中美两军关系带来的恶劣影响,中方决定,暂停两军计划内的有关互访安排。</p><p>马晓天多次表示,中美两军关系能否克服当前困难,回到健康稳定发展的轨道,关键取决于美方能否切实尊重中方的核心利益和重大关切,在解决美售台武器、舰机侦察等两军关系重大敏感问题上体现诚意,为两军关系的恢复与健康发展创造条件。</p></div></DIV> [msg] => - [code] => 200 [uuid] => 569ad633-75d2-4251-b9ce-6aea88bdb0f9 [title] => 解放军高官:欢迎美国防长在合适时机访华 - 雅虎资讯 ) |
嗯,我没有提供源代码,也没有要提代源代码的打算;这个抓取服务通过cloudapi.info这个云接口平台提供.至此,我想做的一些服务都已经完成鸟,下一步就开始完善cloudapi.info的功能,让它更好地为大众服务!
建议继续学习:
- 使用python爬虫抓站的一些技巧总结:进阶篇 (阅读:6400)
- 使用Perl的HTML::TreeBuilder::XPath来解析网页内容 (阅读:3890)
- php抓取页面与代码解析 (阅读:2967)
- 关于新闻网页正文抽取的一些思路 (阅读:2609)
QQ技术交流群:445447336,欢迎加入!
扫一扫订阅我的微信号:IT技术博客大学习
扫一扫订阅我的微信号:IT技术博客大学习
<< 前一篇:在编译php-fpm0.6的时候需要注意的一些问题
后一篇:简单工厂模式:计算器类 >>
文章信息
- 作者:一米六二 来源: 互联网,请记住我
- 标签: 抓站
- 发布时间:2010-07-21 09:40:52
近3天十大热文
- [68] Go Reflect 性能
- [68] 如何拿下简短的域名
- [67] Oracle MTS模式下 进程地址与会话信
- [62] IOS安全–浅谈关于IOS加固的几种方法
- [61] 图书馆的世界纪录
- [60] 【社会化设计】自我(self)部分――欢迎区
- [58] android 开发入门
- [56] 视觉调整-设计师 vs. 逻辑
- [49] 给自己的字体课(一)——英文字体基础
- [48] 读书笔记-壹百度:百度十年千倍的29条法则