造成Baiduspider抓取异常的原因( 二 )


8 , 其他异常:
? ? ? ? 1)针对百度refer的异常:网页针对来自百度的refer返回不同于正常内容的行为 。
? ? ? ? 2)针对百度ua的异常:网页对百度UA返回不同于页面原内容的行为 。
? ? ? ? 3)JS跳转异常:网页加载了百度无法识别的JS跳转代码 , 使得用户通过搜索结果进入页面后发生了跳转的情况 。
? ? ? ? 4)压力过大引起的偶然封禁:百度会根据站点的规模、访问量等信息 , 自动设定一个合理的抓取压力 。 但是在异常情况下 , 如压力控制失常时 , 服务器会根据自身负荷进行保护性的偶然封禁 。 这种情况下 , 请在返回码中返回503(其含义是“Service Unavailable”) , 这样Baiduspider会过段时间再来尝试抓取这个链接 , 如果网站已空闲 , 则会被成功抓取 。

相关经验推荐