威尔源码网

【官方说法】网页不收录?都是邀请制惹的祸

前方高能——本篇文章是攻城狮们根据日常收到的case整理而来,亲自编写,希望站长亲们给个好评哦!

平台攻城狮近日接到了百度内部用户的反馈,说lvshi.baidu.com站点的收录情况比较差,希望协助追查原因。

攻城狮追查的过程如下:

首先通过site语法检索,发现收录量确实比较少,只有11条,而且还发现一部分是死链数据。

然后根据用户反馈的部分url,检测发现这批链接在2016年12月26日当天已经就已经抓取回来了,首次抓取上是没有问题;

紧接着发现这批网页都被百度爬虫判定为空短页面,从网页库中获取当时的抓取页面,检查发现这些页面抓取回来的内容是一样的,都是提示让输入邀请码。

被百度爬虫判断为空短页面,肯定是不能被百度搜索收录的。

有站长可能会问,那等网站全部开放后,是不是就可以收录了呢?对于百度爬虫来说,当对一个网站抓取后发现大面积都是低值的空短页面时,爬虫会认为这个站点的整体价值比较低,那么在后面的抓取流量分布上会降低,导致针对该站点的页面更新会比较慢,进而收录也会比较慢。这里学院君再次强调一下,不要让爬虫给站点画上不优质的标签哦,后果很严重!

那么该如何避免呢?方法其实比较简单,网站在邀请测试阶段使用robots封禁就可以。

本文链接:http://www.wller.cn/post/4006.html

版权声明:
1、本站大部分下载资源收集于网络,只做学习和交流使用,版权归原作者所有!
2、若您需要使用非免费的软件、源码或服务,请购买正版授权并合法使用!
3、本站发布的内容若侵犯到您的权益,请联系站长删除,我们将及时处理!
4、本站所有资源均是收集而来,资源均不包含安装服务和技术支持!且不知道能不能用,请谨慎下载
5、免费源码均来自网络收集,不保证完整性和可用性
6、本站不提供任何技术支持,源码搬运其他网络站点,站长不会这种技术,请自行测试
7、免费源码适合有基础的用者,需要创建数据及修改模板标签、调试修改路径等调试工作
8、欢迎前往http://www.wller.cn 购买虚拟主机,本站所有源码及模板均支持。
9、注意:本站不提供任何技术,资源收集网络,如有侵权,联系我删除。

发表评论

还没有评论,快来说点什么吧~