这几篇SEO文章能提升你的SEO技能值60%(一)

近两个月没有更新,陈年SEO已经解决1000W内容的建库、清洗、处理、上线,陆续有部分站点内容上线处理。文末附有机器伪原创思路和操作脑图,这张图可以帮你部分解决过飓风内容处理的思路,大量内容批量处理的方法(~一杯奶茶就能换精华技能树~)。

我们经常听到这样的说法:搜索引擎喜欢原创。

谈谈搜索引擎喜欢的原创:

谈原创首先,我们应当理解搜索引擎如何使用技术手段计算、判别页面价值

检索价值:搜索引擎建立这些页面的索引能够满足用户检索的需求。只要能够解决一类用户的检索价值即能满足用户的检索价值。

一个页面的检索价值,大致受以下四个要素的影响:

1、感兴趣的受众群大小              (通过周边词库指数、新老访客比例计算)

2、该页面的稀缺程度(内容增益)  (通过TF-IDF等算法计算)

3、该页面的质量高低                 (通过链接算法和用户浏览参数)

4、该页面的时效性特征强弱        (通过内容的时间戳、建立初次索引的时间)

概念解释1:这里强调一下内容增益:什么是内容增益?

稀缺是否等同于无重复,搜索引擎如何看待稀缺度【内容增益】

某人发表了一篇针对某新闻事件的原创博客,随后被新浪转载到了新闻频道。从描述的内容上讲,这是一种重复。但这种重复仅仅是主体内容上的重复,一方面它的转载带来了访问速度、稳定性等方面的增益,并且之后的检索用户还有可能用“新闻事件+新浪”来检索此新闻。这样新浪转载的这篇文章往往排名比个人博客要好,除了权重影响,新浪网给这个内容带来了内容增益

反过来说,如果转载的网站相当不知名,则其无法带来站点名/稳定性/速度的增益。更有甚者,转载之后在页面上加入大量广告妨碍阅读,或者只转载了内容中不完整的一部分,这样的转载,或者说采集,就是纯重复的,与采集源相比,就是没有检索价值。

综上所述,对于主体内容重复的页面,我们应该评价其是否存在站点增益和内容增益,只有对于大量完全无增益的重复页面,我们才应该认为其稀缺度较低。

概念解释2:什么是高质量页面?

典型的高质量页面存在以下一些特征:

1、访问速度快(页面加载快/资源下载速度快)

2、页面整洁干净,主体内容在显著位置。

3、页面信息完整。

4、页面元素丰富(文字、图片、评论、相关推荐、音频、视频等)

综上可以理解:搜索引擎喜欢的其实不是原创(个人原创也可能存在大量飘红、废话连篇、主题漂移、短内容等内容),而是稀缺内容(稀缺性)、用户需求度和高质量页面。

这就为什么我们要不断的拓词库,拓展用户潜在需求词,周期词、品牌词等一系列用户需求内容。

百度原创算法的识别

百度原创算法经过很多次迭代,简单了解一下其中重要的几个时期情况:

百度原创识别手段

根据《CN201110031636-一种网页重复的判断系统及其判断方法》专利,这是2011年左右的老专利了,可以说是百度第一代伪原创识别系统。

主要手段是通过对网页结构化数据做simhash。

提取出一个最长句子,根据提取出的最长句子的签名进行分组,同组内根据title的皮尔逊距离(计算网页内容的相似度)和链接发现时间进行原创性网页的识别,即判断同组内谁是真正的原创。

 

 

 

通过最长句子作为依据,误判率相当高。需要辅助其他更多的算法:

基本思想是对句子使用simhash算法做签名,然后用海明距离做原创度检测。(其主要思想是降维,将高维的特征向量映射成低维的特征向量,通过两个向量的Hamming Distance来确定文章是否重复或者高度近似。)

 

simhash算法分为5个步骤:分词、hash、加权、合并、降维,具体过程如下所述:

 

分词

给定一段语句,进行分词,得到有效的特征向量,然后为每一个特征向量设置1-5等5个级别的权重(如果是给定一个文本,那么特征向量可以是文本中的词,其权重可以是这个词出现的次数)。例如给定一段语句:“CSDN博客结构之法算法之道的作者July”,分词后为:“CSDN 博客 结构 之 法 算法 之 道 的 作者 July”,然后为每个特征向量赋予权值:CSDN(4) 博客(5) 结构(3) 之(1) 法(2) 算法(3) 之(1) 道(2) 的(1) 作者(5) July(5),其中括号里的数字代表这个单词在整条语句中的重要程度,数字越大代表越重要。

hash

通过hash函数计算各个特征向量的hash值,hash值为二进制数01组成的n-bit签名。比如“CSDN”的hash值Hash(CSDN)为100101,“博客”的hash值Hash(博客)为“101011”。就这样,字符串就变成了一系列数字。

加权

在hash值的基础上,给所有特征向量进行加权,即W = Hash * weight,且遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘。例如给“CSDN”的hash值“100101”加权得到:W(CSDN) = 100101 4 = 4 -4 -4 4 -4 4,给“博客”的hash值“101011”加权得到:W(博客)=101011 5 = 5 -5 5 -5 5 5,其余特征向量类似此般操作。

合并

将上述各个特征向量的加权结果累加,变成只有一个序列串。拿前两个特征向量举例,例如“CSDN”的“4 -4 -4 4 -4 4”和“博客”的“5 -5 5 -5 5 5”进行累加,得到“4+5 -4+-5 -4+5 4+-5 -4+5 4+5”,得到“9 -9 1 -1 1”。

降维

对于n-bit签名的累加结果,如果大于0则置1,否则置0,从而得到该语句的simhash值,最后我们便可以根据不同语句simhash的海明距离来判断它们的相似度。例如把上面计算出来的“9 -9 1 -1 1 9”降维(某位大于0记为1,小于0记为0),得到的01串为:“1 0 1 0 1 1”,从而形成它们的simhash签名。

 

海明距离概念:

在信息编码中,两个合法代码对应位上编码不同的位数称为码距,又称海明距离。举例如下:10101和00110从第一位开始依次有第一位、第四、第五位不同,则海明距离为3。

计算海明距离的一种方法,就是对两个位串进行异或(xor)运算,并计算出异或运算结果中1的个数。例如110和011这两个位串,对它们进行异或运算,其结果是: 

110⊕011=101

异或结果中含有两个1,因此110和011之间的海明距离就等于2。 

 

已经失效的伪原创手段

《SEO实战密码》 中总结了几种内容作弊手段,这些都已经被百度识别了。

无论是同义词替换还是简单在原来文章上做更改,都已经没有收录的几率。

其中已经没有用的伪原创手段包括如下:

  • 1 更改(完全重写)标题。

  • 2 颠倒段落次序。

  • 3 加一段原创,如在最前面加一段内容摘要。

  • 4 文字简单增减,如感叹词、修饰词。

  • 5 同义词近义词替换。

  • 6 强行插入关键词,如在一篇小说中强行插入关键词。

另外目前市场上的AI伪原创基本都是多次翻译、来回翻译,还有一些是近义词库替换,效果呢,相信大家都懂的。

相信大家能从中读懂搜索引擎喜欢的内容的本质,从而投其所好,更好的做好长期SEO。

下一篇谈谈《百度快速排名和百度快排的本质》。更多精彩内容欢迎关注陈年seo公众号!



  除非注明,否则均为SEO优化培训服务_零基础SEO培训指导【力力SEO】原创文章,转载必须以链接形式标明本文链接。
  本文由【力力SEO培训】整理链接:http://www.liliseo.com/article/2443.html
发表评论

相关文章