其实你不懂wget的心-02
浏览:3347次 出处信息
上次提到了wget可以避免robots.txt的事情。这篇文章就做个试验,让大家亲身体验。跟着我的思路来走。
1 我们搭建了一个临时的apache-1.3.41服务器,端口号设置成了61212。网页文件所在路径为/home/rocrocket/program/apache-1.3.41-all/htdocs,我们简称为htdocs目录。
2 在htdocs目录中,我们建立一个index.html文件,内容大致如下:
$ cat -n index.html
| 以下是引用片段: 1 <html> 2 <head> 3 <title>rocrocket</title> 4 </head> 5 <body> 6 <ul> 7 <li><a href=rocrocket-1.html>rocrocket-1</li> 8 <li><a href=rocrocket-2.html>rocrocket-2</li> 9 </ul> 10 </body> 11 </html> |
通过网页方式访问的话,效果是这样的:
3 类似的建立如下文件:
$ ls -1 index.html robots.txt roc.html rocrocket-1-1.html rocrocket-1-2.html rocrocket-1.html rocrocket-2-1.html rocrocket-2-2.html rocrocket-2.html
根据文件编号,你应该能看出他们之间的调用关系。
4 建立简单的robots.txt文件:
$ cat robots.txt User-agent: * Disallow: rocrocket-2.html
这个文件的内容就是要屏蔽rocrocket-2文件的下载和spider。
5 我们用wget来下载这个测试站点:
wget -r http://my-test.cn:61212/ $ ls -1 index.html robots.txt rocrocket-1-1.html rocrocket-1-2.html rocrocket-1.html
看!下载到的包含了robots.txt文件,但没有包含rocrocket-2及其相关的文件。
可见,robots.txt生效了,wget遵守了robots.txt的规则!
6 我如何突破robots.txt的限制呢?
使用-execute选项就可以,这个选项的作用是将其后的参数模拟“放到.wgetrc中的执行效果”。
$ wget -r --execute robots=off http://jx-nsop-test0.jx:61212/ $ ls -1 index.html rocrocket-1-1.html rocrocket-1-2.html rocrocket-1.html rocrocket-2-1.html rocrocket-2-2.html rocrocket-2.html
看,rocrocket-2系列的文件也都顺利的下载下来了:D
建议继续学习:
- wget 的使用 (阅读:5196)
- 其实你不懂wget的心-01 (阅读:4100)
- 其实你不懂wget的心-04 (阅读:3936)
- 其实你不懂wget的心-05 (阅读:3569)
- 其实你不懂wget的心-03 (阅读:3247)
- wget 自动发送用户名密码 (阅读:3110)
- Linux下同时wget多个文件 (阅读:2917)
- wget中文使用手册 (阅读:2480)
QQ技术交流群:445447336,欢迎加入!
扫一扫订阅我的微信号:IT技术博客大学习
扫一扫订阅我的微信号:IT技术博客大学习
<< 前一篇:其实你不懂wget的心-01
后一篇:其实你不懂wget的心-03 >>
文章信息
- 作者:rocrocket 来源: linux大棚-roclinux.cn
- 标签: wget
- 发布时间:2011-02-11 22:49:04
建议继续学习
近3天十大热文
-
[882] WordPress插件开发 -- 在插件使用 -
[136] 解决 nginx 反向代理网页首尾出现神秘字 -
[57] 整理了一份招PHP高级工程师的面试题 -
[55] 用 Jquery 模拟 select -
[54] Innodb分表太多或者表分区太多,会导致内 -
[54] 分享一个JQUERY颜色选择插件 -
[54] 如何保证一个程序在单台服务器上只有唯一实例( -
[52] CloudSMS:免费匿名的云短信 -
[52] jQuery性能优化指南 -
[51] 海量小文件存储

