IT技术博客大学习 共学习 共进步

Google 网页爬虫报告无法连接站点解决办法

忘我的追寻 2014-11-19 23:20:32 浏览 2,102 次

   几次收到Google站长工具发来的Googlebot无法访问shentar.me的邮件,感觉很奇怪,空间是托管在香港的,不可能出现Google无法连接的问题。

   2014-07-19-23-02-16-1

   在网上搜索了一下,也早有同学报告类似问题,咨询了主机空间提供商,说是域名解析的问题。的确是用的国内的某大型知名免费域名解析服务提供商的免费服务。用了快3个月了,之前一直好好的,突然就开始设卡了,估计是希望我去买他们的付费服务。即使没有国外的DC,也不用全天都不让Google访问啊。只好再找另外一家类似的服务了,马上修改。

   测试了一下,是比原来那家慢了很多,但是应该不会再出现无法抓取的问题。

   只保留了news.shentar.me的域名在原来的DNS服务商那里。

   到GoDaddy修改域名托管服务器时,想了一下,何不两家的解析服务都用呢,于是将托管服务器注册为了两家的,将两家的第一域名解析服务器分别作为本站的第一和第二域名解析服务器。这样在解析速度和Google建立连接上面有一个权衡,大功告成。dig +trace验证,果然是交叉的,有时是从第一家返回的,有时是从第二家返回的。

   ns1

   ns2

   Google无法连接其中的一家,自然会去连备用的。不至于全天都无法连接而删除索引了。虽然域名服务商告诫不要混合使用,但是感觉并没有什么不妥。

建议继续学习

  1. 怎样用好Google进行搜索 (阅读 15,663)
  2. 使用python爬虫抓站的一些技巧总结:进阶篇 (阅读 13,121)
  3. 使用python/casperjs编写终极爬虫-客户端App的抓取 (阅读 12,784)
  4. Google怎么用linux (阅读 12,383)
  5. 使用python/casperjs编写终极爬虫-客户端App的抓取 (阅读 10,884)
  6. 使用python爬虫抓站的一些技巧总结:进阶篇 (阅读 7,581)
  7. 简析搜索引擎中网络爬虫的搜索策略 (阅读 7,285)
  8. Google短网址的API (阅读 6,345)
  9. PHP 性能优化技巧-google (阅读 5,905)
  10. 聚焦爬虫:定向抓取系统的实现方法 (阅读 5,902)