黄聪:6.2、相关排序-网页词项权重的计算

4,218 次浏览 @ 2011年12月05日

在上一节的《6.1、相关排序–网页权重的计算》中我们知道了天网搜索引擎的网页权重计算公式为天网搜索引擎网页权重=网页中词项基本权重+链接权重+用户评价权重。那么第一项“网页中词项基本权重”是如何计算的呢?本节黄聪会和大家一起学习。

首先搜索引擎针对计算的对象是网页,而每个网页都是由HTML代码组成的,无论是标题还是正文都是在HTML标签中的,而经验发现很多站长在文章中会用一些特定的HTML标签来对关键性词语或者语句进行标注。

因此搜索引擎将HTML标签分为2类,一类是对网页词项权重有贡献的HTML标签,一类是没有贡献的,下图就是天网搜索引擎认为对于词项权重有贡献的HTML标签,以及相应的权重权值:

网页中词项基本权重

1、例如某个关键词”搜索引擎”在<h1><b>搜索引擎</b></h1>的环境下,权重应该为:

2、关键词“搜索引擎”可能还在文档中其他地方出现n次,每次出现都可以计算一个WBT1、WBT2、WBT3…WBTn,那么可以计算出整个文档“搜索引擎”这个关键词的权重为:

3、虽然上述对每个关键词的权重计算是公平的,但是考虑到相同的关键词可能出现在不同的网页,网页长度越长,关键词获得的权重可能越高,因此还要考虑到网页长度的影响。另外,还要区分高频词和低频词的影响,因此可以优化算法为:

其中,Smax表示最大的网页大小,S(网页)表示当前网页大小。N表示被索引网页总数。T(关键词)表示包含该关键词的索引网页数。

4、最后,对WB(关键词,网页)进行归一化处理。其中WBmax表示所有的该关键词相对于所有网页的WB‘(关键词,网页)的最大值。

小结

这一节以及接下来几节的内容都需要一定的编程基础以及数学基础才好学习,如果对这部分不感兴趣的朋友可以直接跳过第六章的内容。我们下一节继续学习天网搜索引擎网页权重计算的链接权值计算教程:《6.3、相关排序–链接权值的计算》黄聪SEO建站交流人脉群:261240447聪崽SEO建站交流(未满)

Leave a Reply