黄聪:2.6.1、可扩展搜索子系统-节点间URL的划分策略

《2.6、页面搜集原理、技术和系统–可扩展搜索子系统》中我们知道一个好的搜索子系统需要解决2大问题,第一是节点间URL的划分策略,第二是系统的动态可配置性设计。本文主要是针对第一个问题做讲解。

查看全文|视频教程|阅读(3,541)|2011年11月29日

黄聪:2.6、页面搜集原理、技术和系统-可扩展搜索子系统

《2.2、页面搜集原理、技术和系统–搜集过程》中我们知道调度器需要分配蜘蛛去抓取网络上的网页,但是网络上的页面数量是百亿级别的,如果调度器只是简单的一个服务器,那么抓取的速度是远远不足的。因此,搜索引擎需要一个可扩展的搜索子系统,允许多台服务器同时进行网页的抓取工作。

查看全文|视频教程|阅读(3,701)|2011年11月29日

黄聪:2.5、页面搜集原理、技术和系统-如何首先搜集重要的网页

《2.4、页面搜集原理、技术和系统–如何避免网页重复搜集》中我们知道调度器通过未访问URL表和已访问URL表来实现避免网页重复搜集,但是因为网络上的URL很多,如果调度器不对URL进行排序,都是依次搜集,那么可能重要的网页会被排在很后面,这样重要的内容可能很长时间都不会被抓取到,一个好的策略就是先抓取重要的网页,那么如何实现呢?本文黄聪就和大家分析一下。

查看全文|视频教程|阅读(3,336)|2011年11月29日

黄聪:2.4、页面搜集原理、技术和系统-如何避免网页重复搜集

《2.2、页面搜集原理、技术和系统–搜集过程》中我们知道调度器会派发URL给各个蜘蛛进行网页的抓取,但是怎样才能避免同一个URL会被重复的抓取呢?调度器是如何确保分配给每个蜘蛛都是最合理的呢?本文黄聪就和大家分析一下。

查看全文|视频教程|阅读(4,397)|2011年11月28日

黄聪:2.3、页面搜集原理、技术和系统-天网存储结构定义

在上一节《2.2、页面搜集原理、技术和系统–搜集过程》中,讲解了调度器对抓取回来的网页保存到网页数据库中,那么网页数据库是如何对网页信息进行保存的呢?什么样的存储方式才能更好的给其他功能模块调用呢?这就是本节要探讨的问题: 天网搜索引擎的网页数据库是以天网存储结构来进行保存的,我们就以该存储结构进行讲解,要注意的是:该存储结构仅仅适用于天网搜索引擎,并不代表其他搜索引擎使用该存储方式进行网页保存。

查看全文|视频教程|阅读(4,229)|2011年11月28日

 < 1 2 3 ... 7 ... 9 >