之前老魏分享了百度官方教你如何正确识别百度蜘蛛,有的粉丝感觉还是不够明白,希望实际讲解一遍。今天老魏就用实际发生过的一个例子来讲解。
百度蜘蛛来抓取
大家看下图是某网站日志显示的百度蜘蛛来抓取的记录。
其实第一眼就能看出来这是个假的蜘蛛,因为真正的百度蜘蛛只用自家服务器,不会用第三方主机。
尽管我们知道是假的,为了给粉丝讲明白我们还是按照常规的办法来查询一遍。
查看蜘蛛UA
从上图得知,蜘蛛来访UA是 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html),除了+有点多,其他的看上去没啥大问题。
UA可以伪造的,所以不能做为完整的证据。
DNS反查IP
我们在 Windows键盘按下 win+R,输入cmd,回车后看到命令行窗口,输入
nslookup 39.104.66.126
得到如下结果:
ping的结果没有 baidu主机的名称,从一个侧面说明是假蜘蛛。
蜘蛛抓取URL
我们把这个蜘蛛抓取的URL列出来看一看,发现都是不存在的URL地址,而且是从 1开始顺序+1,明显是爬虫工具按照预先设置好的规则自动爬取的。
真正的蜘蛛都是顺着页面中的超链接抓取的,即使 404页面也不会一直抓取。
搜索这个IP
在百度上搜索这个IP,真实的百度蜘蛛一般都会有网友公布的记录,而这个IP没有任何记录。
宝塔面板定期更新蜘蛛
宝塔面板定期更新各大搜索引擎的蜘蛛IP,供用户使用。
宝塔面板付费防火墙提供了蜘蛛池,通过手动点击“同步”的方法,定期汇总更新各大搜索引擎蜘蛛,放行真实的蜘蛛IP,屏蔽假蜘蛛,避免给网站SEO带来影响。
长期运行网站,老魏建议购买宝塔付费防火墙使用,保障服务器及网站安全、平稳运行。
购买方式有三种:
- 单独购买宝塔付费防火墙,按月付费
- 宝塔专业版免费使用付费防火墙
- 宝塔企业版免费使用付费防火墙
宝塔面板建议选择阿里云、腾讯云服务器
更多内容请看宝塔面板专题
点击查看网易云课堂《宝塔Linux面板新手入门教程》
总结
综合以上的步骤综合判断,这是一个虚假的百度蜘蛛IP,实则是一个爬虫工具通过阿里云主机,冒充百度蜘蛛来抓取我们的网站内容,可以把 IP 地址拉黑屏蔽,必要时可以举报到阿里云官方网站,附上网站日志记录,一般 72小时内会有正式答复,如果官方证实无误,会封主机,惩罚账号所有人。
暂无评论内容