黄聪:1.1.2、搜索引擎工作原理-网页搜索基础简介

今天的课程主要讲的是搜索引擎原理中网页搜索的基础简介,在上一节《1.1.1、搜索引擎的工作原理》中我们已经知道了,网页搜集是搜索引擎三段式工作的第一阶段的工作,在这个阶段搜索引擎完成原始网页的搜集,这些网页将作为下一个阶段的数据基础。那么搜索引擎在这个阶段会碰上哪些问题呢?本节将做一个简单的介绍。

网页搜集时机

第一个问题就是,搜索引擎是什么时候搜集网页的呢?是用户搜索的时候立刻去网络上搜集呢?还是事先搜集好的呢?下面就来分析一下两种方式的可行性。

1、即时搜集

即时搜集是指搜索引擎当用户查询的时候,即时的去网上搜集所有的网页,然后一个个的分析处理,最后返回相应的结果。我们可以用下图来表示这种搜集方式:

搜索引擎即时搜集

假设网络上有网页A、B、C…当搜索引擎接收到用户的查询时,搜索引擎立刻去互联网搜集所有的网页,然后处理排序后,返回结果列表T、C、A、B…

虽然完成了任务,但是我们都知道搜索引擎下载和处理一个网页起码都需要1秒钟,而对于每一个查询搜索引擎都要处理上百亿的网页,那么我们通过这个方式想得到一个结果页面,起码要花上几年的时间,这显然是不现实的。

查看全文|视频教程|阅读(4,914)|2011年11月26日

黄聪:1.1.1、搜索引擎的工作原理-基础要求

什么是搜索引擎

搜索引擎是一个Web上的软件程序,它以一定的策略在Web上进行搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。在国内主流的搜索引擎有百度、谷歌、搜搜等。

国内常用中文搜索引擎

搜索引擎基本要求

搜索引擎的基本要求是要求搜索引擎在接受到用户查询词或者短语(记住q),在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表(记作L)

搜索引擎的基本要求

可以接受的时间:是指搜索引擎响应一个查询的时间要足够的短,没有人愿意使用一个查询响应时间要几分钟甚至几小时的搜索引擎。比如:谷歌在搜索“搜索引擎”这个关键词的时候,只用了0.09秒就返回了结果。

谷歌响应查询的时间

匹配:是指网页中以某种形式包含有q的内容。如下图就是百度搜索“搜索引擎原理”出现的文章中,都在正文中包含有“搜索引擎”或者“原理”的内容。

百度结果页面

列表:是指返回的结果列表,并且这是一个有顺序的列表,搜索引擎需要以合理的顺序排列结果列表,尽量让用户感兴趣的内容排在前面。

查看全文|视频教程|阅读(6,957)|2011年11月25日

黄聪:如何在ubuntu下搭建自己的TSE搜索引擎

 1、激活root帐号。

为了省去一些不必要的身份验证,我们可以直接激活root帐号,使用root帐号来进行后续的操作,节省时间。

1)激活root:

1.1.1、 打开终端

1.1.2、 输入sudo passwd root

1.1.3、 输入root帐号的密码

1.1.4、 重新输入一次

查看全文|视频教程|阅读(4,705)|2011年11月07日

 < 1 2 3 ... 7 8 9