博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[交流]百度在从六月开始的收录清零行动中的新算法
阅读量:5009 次
发布时间:2019-06-12

本文共 1423 字,大约阅读时间需要 4 分钟。

这是我的一个在百度工作的工程师朋友告诉我的百度在从六月开始的收录清零行动中的新算法,以下内容只是主要的方法,具体的详细算法就是根据以下内容来的,至于具体的算法是百度机密,我也获得不了。

1.百度对买卖链接进行了严厉的处罚,对导出链接超过40个(一些知名站点不受影响),链接工厂,垃圾站,半年以内的站所导出的链接全部没有权重。对于不相关友链全部降权,大约有相关网站友链的十分之一左右。
2.百度增加了对隐藏链接的识别,隐藏链接一律没有权重。
3.百度针对购买GVM,教育机构,事业单位链接的行为进行了打击,百度已经建设了GVM,教育机构,事业单位数据库,对此类网站给予专门的关键词排行,同时此类网站导出链接一律无效。
4,对于针对百度产品进行优化的行为进行打击,百度产品所导出的Outer chain一律没有权重。
5.百度对在友链平台出售友链的网站所导出链接全部不给予权重,百度已经建设了一个友链平台的特征库,比如在chinaz通过了验证的网站,阿里微微验证的网站,阿里微微自动挂链的网站,百度的系统都能自动监控到,发现了以后将这些网站加入出售链接的网站数据库,这个数据库内的网站导出的链接都是没有用的。
6,百度实现了对论坛发帖和回帖用户的识别,被系统认为是垃圾贴和垃圾回复的(百度根据一些自动顶 贴 机的顶贴原理和一些万能回复(就是很常见的回复)搞了一个特征库,符合这个特征的就会被认为是垃圾内容)不给予权重,非原创(识别原理和识别原创文章的原理一样)的回复,同一用户重复发表的同样内容的帖子或回复不给予权重。
7.百度会对国外空间和未备-案网站加大查看力度。
8,百度又根据了常见的采集软件的伪原创方法增强了查看伪原创的算法,像打乱段落,keywords替换,截取一部分等方法百度现在都能检测到,百度会针对网站伪原创和垃圾内容所占内容的比例进行解决(具体数额我不知道)而且会把伪原创的内容全部剔除。
9.百度对采集的内容收录有一个数量限制(具体不知,但是大站没有影响),达到数量以后就不收录了。
10.百度对导出链接基本没有但导入链接很多的网站加入疑似购买链接的数据库,进行重点监控和人工排查,对于该网站的导入链接加入疑似出售链接的数据库进行监控和排查。
10,百度降低了Outer chain对网站关键词排行的影响,但降到了多大不知道。
11,百度对长时间原创的网站给予高权重。
12.百度分享的权重大大减少(很有可能直接没了),因为刷百度分享的太多,百度没有一个有效的解决方法,所以百度分享权重 被大大减少,不过等到百度有了一个好的防作弊方法以后,百度分享权重一定很大。
13,仅对高质量博文给予高权重
ps:高质量认定标准:字数,原创性,非垃圾内容,评论量(同用户多次发布评论现在百度已经能识别了)。
14,除高质量博文导出链接外,其他全部不给予权重。
15.对于堆积字符,词语等所生成无意义内容百度已经能识别,百度会认为这些内容是垃圾内容,进行惩罚
16,一些在知名网站发Outer chain的方法已经失效(比如通过书签等等)
17. 百度将以上不给予权重的Outer chain行为,视为作弊行为,百度会将这些Outer chain加入到以疑似作弊网站数据库,进行重点监控和人工排查。

转载于:https://www.cnblogs.com/binaryworms/archive/2012/08/10/2631329.html

你可能感兴趣的文章
【Dart】生成固定长度随机数
查看>>
.NET 使用 RabbitMQ 图文简介
查看>>
php中的namespace 命名空间
查看>>
python数据写入Excel表格
查看>>
linux shell 发送email 附件
查看>>
人群密度估计 CrowdCount
查看>>
京东为什么不会死
查看>>
JSON.parse()和JSON.stringify()
查看>>
.net 常用正则表达式
查看>>
JAVA动态代理机制解析
查看>>
浏览器样式(css)兼容
查看>>
Java泛型中的标记符含义:
查看>>
初遇GitHub
查看>>
[C# 网络编程系列]专题八:P2P编程
查看>>
Jsの练习-数组常用方法 -forEach()
查看>>
动态绑定treeview的方法
查看>>
jvm参数
查看>>
3-1 案例环境初始化
查看>>
读《构建之法》第四章和十七章有感
查看>>
01背包
查看>>