新浪博客抓取程序(php)
浏览:4307次 出处信息
很多社区论坛或者博客在初期上线时候会遇到没有内容的尴尬,索性他们就会去把别人的优质的内容整理放到自己的平台上,这个时候就会请技术人员写采集程序程序来完成这件事情,以前我在一家公司做产品,同事说做一个可以换点米,所以就写了好几个,后来没有了消息,想程序放着也放着,不如拿出来分享,下载地址:sina blog 采集程序 ,这是借用专业采集类snoopy写的,因为很多博客会禁止采集,所以用snoopy伪装客户端很方便。
数据采集过来要交给编辑去整理发布,采集这么多的数据如何做好分类就是一件很有意义的事情了,编辑可以用这些内容分类汇总,把没有价值的内容去掉,所以数据仅仅采集过来是不够的,接下来就会涉及到数据的分类汇总,对内容进行过滤识别。最近我也一直在做这方面的开发,会在下篇文章重点介绍这方面的内容。
建议继续学习:
- 用Hyer来进行网站的抓取 (阅读:157819)
- 抓取网页内容生成Kindle电子书 (阅读:8973)
- 淘宝搜索:定向抓取网页技术漫谈 (阅读:8940)
- Python抓取框架:Scrapy的架构 (阅读:8486)
- 快速构建实时抓取集群 (阅读:4802)
- cURL基础教程 (阅读:4533)
QQ技术交流群:445447336,欢迎加入!
扫一扫订阅我的微信号:IT技术博客大学习
扫一扫订阅我的微信号:IT技术博客大学习
<< 前一篇:无递归实现无限级嵌套评论
后一篇:PHP的优势 >>
文章信息
- 作者:数据抓取/数据分析 来源: 数据抓取/数据分析
- 标签: 抓取
- 发布时间:2012-03-12 23:28:22
近3天十大热文
-
[899] WordPress插件开发 -- 在插件使用 -
[135] 解决 nginx 反向代理网页首尾出现神秘字 -
[56] 整理了一份招PHP高级工程师的面试题 -
[55] Innodb分表太多或者表分区太多,会导致内 -
[53] 如何保证一个程序在单台服务器上只有唯一实例( -
[52] 全站换域名时利用nginx和javascri -
[52] CloudSMS:免费匿名的云短信 -
[52] 海量小文件存储 -
[52] 用 Jquery 模拟 select -
[51] 分享一个JQUERY颜色选择插件
