实例讲解如何辨别真假百度蜘蛛?

之前老魏分享了百度官方教你如何正确识别百度蜘蛛,有的粉丝感觉还是不够明白,希望实际讲解一遍。今天老魏就用实际发生过的一个例子来讲解。

百度蜘蛛来抓取

大家看下图是某网站日志显示的百度蜘蛛来抓取的记录。

其实第一眼就能看出来这是个假的蜘蛛,因为真正的百度蜘蛛只用自家服务器,不会用第三方主机

尽管我们知道是假的,为了给粉丝讲明白我们还是按照常规的办法来查询一遍。

百度蜘蛛来抓取

查看蜘蛛UA

从上图得知,蜘蛛来访UA是 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html),除了+有点多,其他的看上去没啥大问题。

UA可以伪造的,所以不能做为完整的证据。

DNS反查IP

我们在 Windows键盘按下 win+R,输入cmd,回车后看到命令行窗口,输入

nslookup 39.104.66.126

得到如下结果:

DNS反查IP

ping的结果没有 baidu主机的名称,从一个侧面说明是假蜘蛛。

蜘蛛抓取URL

我们把这个蜘蛛抓取的URL列出来看一看,发现都是不存在的URL地址,而且是从 1开始顺序+1,明显是爬虫工具按照预先设置好的规则自动爬取的。

真正的蜘蛛都是顺着页面中的超链接抓取的,即使 404页面也不会一直抓取。

蜘蛛抓取URL

搜索这个IP

在百度上搜索这个IP,真实的百度蜘蛛一般都会有网友公布的记录,而这个IP没有任何记录。

宝塔面板定期更新蜘蛛

宝塔面板定期更新各大搜索引擎的蜘蛛IP,供用户使用。

宝塔面板付费防火墙提供了蜘蛛池,通过手动点击“同步”的方法,定期汇总更新各大搜索引擎蜘蛛,放行真实的蜘蛛IP,屏蔽假蜘蛛,避免给网站SEO带来影响。

长期运行网站,老魏建议购买宝塔付费防火墙使用,保障服务器及网站安全、平稳运行。

购买方式有三种:

  • 单独购买宝塔付费防火墙,按月付费
  • 宝塔专业版免费使用付费防火墙
  • 宝塔企业版免费使用付费防火墙
老魏建议:宝塔面板适合新手、小白建站,支持Linux、Windows系统,点击直达宝塔官网注册账号并免费领取¥3188元专业版大礼包(专业版永久授权仅需1188元),新用户可享受0.99元体验7天专业版。
宝塔面板建议选择阿里云腾讯云服务器

更多内容请看宝塔面板专题
点击查看网易云课堂《宝塔Linux面板新手入门教程》

总结

综合以上的步骤综合判断,这是一个虚假的百度蜘蛛IP,实则是一个爬虫工具通过阿里云主机,冒充百度蜘蛛来抓取我们的网站内容,可以把 IP 地址拉黑屏蔽,必要时可以举报到阿里云官方网站,附上网站日志记录,一般 72小时内会有正式答复,如果官方证实无误,会封主机,惩罚账号所有人。

温馨提示: 本文最后更新于2024-06-16 18:10:07,某些文章具有时效性,若有错误或已失效,请在下方 留言或联系 Ferry资源网
© 版权声明
THE END
喜欢就支持一下吧
点赞0赞赏 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容