2020年seo算法:词频位置加权排序算法

  2020年SEO算法:词频位置加权排序算法。词频对于SEO的价值显而易见,早期seo主要通过堆砌关键词操作关键词优化,后期随着搜索引擎的算法指导越来越多,也越来越科学。下面力力SEO培训和大家讲一下词频位置加权排序算法:

  词频位置加权排序算法:是一种通过关键词出现的位置和频率进行排序的方法,它是搜索引擎最基础的排序算法之一。当用户通过关键词进行搜索时,当某一个网页中该关键词出现的次数越多,位置越重要,则认为该网页更加符合用户的需求。早期大量的搜索引擎(如:Infoseek,Nutch,Excite,Lycos等)都基于该算法进行网页检索排序,当然在不同的搜索引擎中具体的排序方法有所不同。

  词频位置排序原理

  该算法以一个搜索词与网页的相关度大小当作排序标准,而搜索词在网页中的相关度则由它在网页中出现的次数和位置两方面加权计算得到。在这种算法当中,词对网页的关联性与词在该网页中的权值成正比。

  通过词频和位置加权,可以得出关键词对网页的权值。当用户搜索该关键词,搜索引擎按照检索词在不同网页的相关度排序,这就是词频位置加权排序算法。

  词频加权的方法

  词频加权的方法有绝对词频加权、相对词频加权、反词频加权、基于词分辨值加权等等。

  对于单一词搜索引擎、简单检索需求,只用单纯地计算一个词在网页中的出现频率就可给定权值;而对于具有进行多重逻辑功能的搜索引擎,则必须综合其它的加权排序方法。因为用多重逻辑检索式检索时,检索结果跟检索式中的每个搜索词相关,而每个搜索词在所有的网页中出现的总频率是不一样的,如果按照总的权值来排序,就会导致结果的不相关。这时候就可以利用相对词频加权原理来解决:通过对大量网页的统计,把越是在所有网页中出现频率高的词给予一个较低的初始值;相对地,在所有网页中出现频率低的词,给一个较高的权值。

  位置加权方法

  位置加权主要是通过对词在网页中不同位置和版式,给予不同的权值,从而根据权值来确定所搜索的结果和搜索词的相关程度。

  词的位置包括:网页标题、网页描述,关键字、正文标题、正文内容、文本链接、alt标识等。

  版式包括:字体、字号、有无加粗强调等。和传统文献一样,一般在较重要的位置如标题、正文的结尾句等出现的词给较大的权值。在理想状态下,这些不同的标签对应的内容在表达网页主题的能力上有所差异。通常字符较大、加粗强调的地方,一般也会给予更大的权值。

  实现步骤

  该排序算法的实现基本步骤是:采集网页,解析网页,过滤停用词,获取关键词(中文自动切词),根据关键词的位置和频次加权得出词对网页的相关度,用户检索时按照关键词在网页中的权值大小对该网页进行排序。

  词频位置算法评价

  优点

  利用词频和位置加权算法是在传统的文档检索理论和技术基础上发展而来的,具有简单、易实现的优点,是搜索引擎早期排序的主要思想,技术发展最成熟。

  缺点

  词频统计比较适用于结构化文档数据,然而网络时代的主要文献是以网页的形式存在的。算法仅仅根据词频和位置信息排序,根本没有利用网络中超文本的新特性,可以说是前网络时代的技术。

  现在几乎每个人都可以随心所欲地在网上发表各种内容,词频相同的两个网页,质量相差可以很远,很难保证文档的结构和文档的质量。

  许多SEO网页内容的制作者绞尽脑汁,在其页面上堆砌关键词,特别是在重要的位置(特别是<meta>)中放置主题无关的关键字。当用户在浏览网页时完全看不到,而在搜索引擎抓取时,却能发现。对此搜索引擎也研究出各种方法来,发现和惩罚(黑帽SEO)这种作弊行为。

  总结:现在的搜索引擎开发了更加合理的链接分析算法,但是如果单纯依靠链接分析,可能会发生主题漂移的问题。导致即使网页的质量再高,再权威,如果搜索词和网页的相关度不高,对于用户来说也是没有用的。所以需要将链接分析与词频信息相结合,进行综合的分析获得更好地排序效果。目前词频位置加权排序算法仍是许多搜索引擎的核心排序技术。

  延伸阅读:搜索引擎如何识别原创内容?SEO指纹算法是什么

  简单来说搜索引擎指纹算法与人的指纹相同。看起来这个手指很相似,但事实上每个人的手指都有一个独特的指纹,我们看到的网页也是一样的。许多网页在内容上是相似的,但是每个网页搜索引擎都会在抓取后保存它们,然后创建一个指纹,这个指纹可以被理解为一个唯一的标识符。这种方法的最大优点是网页的重复可以通过这个唯一的标识符来计算。

  指纹算法的作用和意义

  搜索引擎指纹算法和一般的算法不一样的地方在于它是针对网页集合来进行判断的,不像网页去重这种算法是页面与页面之间判断。而指纹是通过大数据进行集合判断,比如我们搜索一个词叫做苹果手机型号有哪些,所出现的结果可能包括了A站里面的多个页面。而这些页面的内容又不是一样的,但是标题可能一样,最后得到的结果就是唯一标识,而这个标识符号正好就是判断网页内容是否原创。

  上面这张图已经告诉大家如何来生成指纹算法了,除了符号、数字、英文这些。只要是中文就会有拼音,而这个拼音最佳的方式就是可以首字符生成,最后得到一串指纹。虽然我们知道有分词技术,但是实际上搜索引擎去识别网页内容原创根本不需要是分词,否则需要先分词在识别内容一个个比对对于服务器资源来说消耗巨大,而把一个句子的首字母提取,和其他网页去进行对比效果是最为简单和方便的一种方法。

  所以大家再去思考有些网站内容读都读不通,都是胡乱写的,反倒自己写的原创内容还不如别人采集正是因为在做内容处理的时候形成了唯一的一篇内容标识符。

  如何利用指纹算法运用

  关于指纹算法的运用本文不做过多的讲解的,因为我也不懂。该算法主要运用于黑帽站群、泛目录操作流量站,对于正规企业站只需要有一定的了解就足够了,毕竟我们需要为用户提供真实有价值的内容。而不是像黑帽一味的追求过原创获得收录、排名和流量,去更新一些完全读不通顺的文章。

  当然这里只是一个简单的介绍,搜索引擎判断网页是否重复还有很多其他算法。不论搜索引擎算法如何变化,其核心目标都是为了给用户提供高质量、新鲜原创内容!我们只要围绕这一原则,脚踏实地坚持产出高质量的原创内容,搜索引擎肯定会喜欢我们的网站,为我们带来源源不断的流量!

 



  除非注明,否则均为SEO优化培训服务_零基础SEO培训指导【力力SEO】添加微信cnseo1原创文章,转载必须以链接形式标明本文链接。
  本文由【力力SEO培训】整理链接:http://www.liliseo.com/article/35.html
发表评论