百度搜索建议的死链类型及设置方案
一、死链介绍
什么是死链
几乎所有的智能小程序或网站都会遇到内容故障和过期,页面不需要显示。这些页面不能向用户提供任何有价值的信息,包括协议和内容。
为什么要及时处理死链?
当网站/applet当死链数据积累过多并显示在搜索结果页面上时,会影响百度搜索/网站/applet的评价,对网站/applet访问体验和用户转换产生负面影响。另一方面,百度检查死链的过程也会给网站//applet对其他正常页面的捕获和索引产生额外负担。
二、百度搜索建议的死链类型及设置方案
常见的死链包括协议死链(百度搜索推荐的死链类型)和内容死链,以及一些对百度不友好的个性化死链。
协议死链:页面TCP协议状态/HTTP协议状态明确表示了404、410等常见死链。
内容链:如果不存在、删除或需要权限,服务器返回状态正常,但内容已变更为与原始内容无关的信息页面。
百度搜索建议的死链设置方案如下:
第一步是将返回代码设置为404或410:如果网站/小程序已经永久删除了相应的内容,并且不打算更改内容,建议开发者将返回代码设置为404或410。当百度爬虫试图抓取网页时,如果返回代码是404或410,它将是URL判断为死链,然后从搜索中删除
第二步,设置返回码后,修改页面标题,明确表示页面为死链,页面内容可个性化设置。
对百度搜索不友好的死链类型和不推荐的死链方案:
1.个性化死链
一些开发者追求个性化和用户体验。页面内容失败后,他们没有处理协议死链。换句话说,返回状态代码仍然是200,只是制作一张有趣的个性化图片,告诉用户页面上没有价值的内容。百度搜索不提倡这个死链。
2.页面内容为死链,返回码为200
3.页面重定向到主页,页面错误,登录页面
例如,页面A内容失效,用户点击页面后,页面跳转到网站主页。
不推荐的死链设置方案可能会混淆搜索引擎,在搜索结果中显示网站的无效内容,最终影响网站的排名和评价。
三、如何处理死链
【站点】
第一步是筛选网站上的死链,制作死链文件,将这些死链页面设置为404页,即百度访问时的返回码为404页。
第二步是在网站根目录下放置死链文件
例如,你的网站是example.com,你做了一个silian_example.xml将死链文件silian_example.xml上传到网站根目录example.com/silian_example.xml。
第三步是登录百度搜索资源平台-死链提交工具提交死链数据
(1)通过搜索资源平台-搜索服务-资源提交-死链提交到达操作页面;
(2)填写死链文件更新周期,可选每隔一段时间xx每小时/天更新一次;
(3)填写死链文件地址,请注意提交框右侧的配额提示;
(4)管理已提交的死链列表,可查看死链文件状态和死链处理状态。
特别提醒:
1.提交死链时,请确保所有页面处于404状态。请不要包括活链URL,活链会导致活链URL移除搜索。
2.索引死链Sitemap不处理文件工具,请勿提交索引死链Sitemap文件。
【小程序】
整理需要删除的资源path路径,通过智能小程序开发者平台-自然搜索-资源删除工具进行提交。
特别提醒:
1.每个死链文件path支持路径、零件txt每个文件最多允许1000个格式path且路径小于10MB;
2.避免误删影响小程序现有流量,每天最多提交一次死链文件。
附录:
常见的死链返回码:
404 Not Found,服务器未找到任何匹配请求URL这并不意味着这种情况是暂时的还是永久的。
410 Gone,所需内容不再用于服务器,也没有已知的转发地址。410通常表示资源永久性失效。
正常页面返回码:
200 OK,表示请求成功。
如删除或移动相关内容,不建议返回成功状态码(200 OK)回到404、410状态码。
204 No Content,说明这个请求没有发送内容,但是报头可能有用。用户代理可以使用新的报头来更新资源的缓存头。
如页面已删除,请返回404/410,返回204可能会混淆搜索引擎。
其它返回码:
如果正常页面长期返回非2xx、3xx错误代码可能会影响相应内容的收集和搜索显示。常见的错误代码如下:
403Forbidden,表示客户无权获取内容。
429 Too Many Requests,这意味着用户在给定的时间内发送了太多的请求。
500 Internal Server Error,这意味着服务器不知道如何处理。
503 Service Unavailable,表示服务器还没有准备好处理请求。通常,服务器超载或正在维护。
如果抓取频率过高,429和5xx错了,开发者可以在百度搜索资源-抓取频率-抓取频率上限调整页面设置百度爬虫抓取频率。