黄聪:3.2、搜集信息的预处理-网页净化和消重

7,050 次浏览 @ 2011年12月01日

在上一节的《3.1.3、搜集信息的预处理–分析页面和建立倒排文件》中我们说过,搜索引擎在预处理的第一步就是要先进行网页的分析,本节将对这部分的内容进行展开。

网页净化与消重

网页净化与消重

  • 1、网页净化:识别和消除网页内的噪声内容(如广告、版权信息等),并提取出网页的主题和主题相关的内容。
  • 2、消重:去除所搜集网页集合中主题内容重复的内容。

建立索引是在消重后的网页集上进行的,这样才可以保证用户在查询时不会出现大量内容重复的网页。

小结

下一节黄聪和大家一起学习《3.2.1、搜集信息的预处理–净化与数据提取》黄聪SEO建站交流人脉群:261240447聪崽SEO建站交流(未满)

One Response to “黄聪:3.2、搜集信息的预处理-网页净化和消重”

  1. […] 在搜索引擎原理上一节的《3.2、搜集信息的预处理–网页净化和消重》我们知道搜索引擎第一步要做的是网页分析,网页分析中又包括正文提取以及分词,中文分词技术已经在之前的课程中讲解过,就不再重复,本节主要是讲搜索引擎是如何进行正文提取的。 […]

Leave a Reply