HTTP 404或Not Found错误信息是HTTP的其中一种“标准回应信息”(HTTP状态码),此信息代表客户端在浏览网页时,服务器无法正常提供信息,或是服务器无法回应且不知原因。
大量死链对搜索引擎来讲,有什么影响?
编辑失误或者程序员大意让页面产生了不存在的页面。
3、外部链接错误
用户或者站长在站外发布了错误URL,蜘蛛爬取后产生错误页面;别的网站复制或采集了你们含有错误链接的页面;有些垃圾网站自动生成的静态搜索结果页,如 www。8875。org/desc/3715714444.html 这个页面中出现的很多链接在html前面有“...”。
4、爬虫提取了不完整的URL
个别爬虫在提取页面URL的时候,只提取部分URL或者把正常的URL后面的文字或字符也提取进去了。
5、网站改版
网站改版过程中老页面直接删除并没有301跳转到对应页面,或者实行301跳转后依然部分老页面无法访问。
6、管理员删除页面
网站管理员删除被黑、广告、过时、被灌水页面导致很多死链接。
7、过时或交易完毕页面
下架商品、过期信息
出现了了上述情况,我们该如何去解决
1、修复错误页面
抓取异常中的很多错误页面是因为程序员大意或者我们程序问题导致的,本应该是正常页面,因为失误导致无法访问,对于此类页面,第一时间进行修复。
2、提交死链接
但必定很多错误页面是本不应该存在的,那么我们要想办法获取此类页面URL,获取方式主要有三种:
3、在robots中屏蔽抓取
若大量的错误URL存在一定的规律,可以在robots文件中写一个规则禁止蜘蛛抓取此类链接,但前提一定要照顾好正常页面,避免屏蔽规则误伤正常页面,比如你的网站全部是静态URL,那么如果错误链接中含有?的话,规则写成Disallow:/*?*,如果错误链接中有/id...html 的话,规则写成Disallow:/*...* 。1、在百度站长工具中提交死链前,一定要确保提交的死链数据不存在活链接。一旦存在活链,会显示提交失败导致无法删除。
2、由于很多网站程序问题,很多打不开的页面返回码并非404,这是一个大问题,比如明明是打不开的页面返回码是301、200、500,如果是200的话,会导致网站中出现不同URL获取相同内容。
3、把所有的错误页面找到后,一定要寻找此类页面URL相同特征,并且和正常页面的特征有区分,写对应规则到robots文件中,禁止蜘蛛抓取,就算你已经在站长工具中提交了死链,也建议robots封禁抓取。