黄聪:3.1.3、搜集信息的预处理-分析页面和建立倒排文件

在上一节的《3.1.2、搜集信息的预处理–中文分词技术》中我们说过,要对网页进行关键词到网页的索引就必须先对网页进行中文分词,然后建立倒排文件,那么具体的流程是什么样子呢?黄聪将在本文给大家做个介绍。

查看全文|视频教程|阅读(6,256)|2011年12月01日

黄聪:3.1.2、搜集信息的预处理-中文分词技术

在上一节的《3.1.1、搜集信息的预处理–索引网页库》中我们介绍了索引网页库的组成部分,当然那是为了搜索引擎通过URL快速定位网页所设计的,而在实际应用中,搜索引擎还需要实现关键词到网页的索引,那么搜索引擎就得先对每个网页的关键词都进行分析,本文就讲讲搜索引擎的中文分词技术。

查看全文|视频教程|阅读(5,226)|2011年12月01日

黄聪:3.1.1、搜集信息的预处理-索引网页库

搜索引擎原理中,给网页建立索引是一个很重要的工作,它预示着该网页已经得到搜索引擎的认可,有可能出现在搜索结果页面中,任何没有进入索引网页库的网页,都不可能出现在基于关键词查询的搜索结果页面中,而我们常说的索引网页库又是由网页索引文件和URL索引文件组成的。

索引网页库的组成

索引网页库的组成

索引网页库和网页数据库一样要存储海量的信息,因此在实际应用中,索引网页库也需要选择合理的数据结构,确保有紧凑的数据结构和高效的检索能力。

查看全文|视频教程|阅读(5,007)|2011年11月30日

黄聪:3.1、搜集信息的预处理-系统结构

在第二章我们介绍了搜索引擎原理中的网页搜集模块,本文接着讲搜索引擎下一个模块:预处理模块。在这个模块中,搜索引擎完成的主要任务是索引网页库的建立、中文分词的实现、分析网页和建立倒排文件网页净化和消重等工作。

为什么要做预处理?

天网格式保存网页信息(网页数据库),容错性好,及时有数据损坏,也是局部的,不会导致扩散或者其他数据无法存取。缺点是不能按照网页URL随机存取其指向的网页。因此,网页预处理的第一步就是为原始网页建立索引

查看全文|视频教程|阅读(4,180)|2011年11月30日

黄聪:2.6.2、可扩展搜索子系统-系统的动态可配置性设计

可扩展搜索子系统需要解决2大问题,第一是节点间URL的划分策略,第二是系统的动态可配置性设计。黄聪已经在上一节《2.6.1、可扩展搜索子系统–节点间URL的划分策略》分析了第一个问题的解决方法,本文主要是针对第二个问题做讲解。

我们假设一开始有节点1、2,他们分别负责处理的URL数目为N1和N2,某时刻搜索引擎新增了一个节点3,那么如何将节点1和节点2的工作平均的分担给节点3呢?如果单纯的是将N1、N2的1/3的URL分担给节点3,那么必定存在网页重复抓取的问题。因此,我们需要一个合理的搜索子系统动态可配置性设计。

查看全文|视频教程|阅读(4,075)|2011年11月30日

 < 1 2 3 ... 6 ... 9 >