搜索引擎的工作原理
搜索引擎是一套放在几十几百万台服务器上运行的、基于各种程序算法的、复杂的检索系统,基本工作原理(以中文搜索引擎百度为例说明)如下。
(1)正向工作:从种子URL(网络定位资源符)出发沿着超链接对全网Web资源进行爬行、抓取或更新(链接存储系统、链接选取系统、DNS解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统多系统通力合作)→重复度初筛→原始数据存储→预处理、页面分析(提取文字、中文切词分词、去停止词、消除噪声、正向索引、倒排索引、链接关系计算、特殊文件处理、其他权重数据计算)→建库(文档映射部件基于网页的等级将数据库中的网页映射到多个分层中,通常分为重要索引库、普通库及低级库)→等待查询。
(2)逆向工作:用户输入查询词→中文分词→分词结果对应的文档集合(倒排索引)→求交→敏感词过滤→排序输出。对于普通用户而言,他们并不用了解搜索引擎的工作原理,而作为SEO人员,了解搜索引擎的原理是做好SEO的基础,了解其原理能有针对性地对网站进行优化,让网站优化工作更为科学合理。虽然各个搜索引擎的工作细节有所不同,但是总的原理是大致相同的。
本节介绍的搜索引擎工作原理就是搜索引擎共同的特点,其中包括3个部分。
(1)利用漫游机器人在互联网中发现、搜集网页信息,即爬取Web资源。
(2)对信息进行提取和组织,建立索引库,并对排名进行预处理。
(3)根据用户输入的查询关键字,检索器在索引库中快速检出文档,进行文档与查询的相关度评价,以获得最终排序,并将查询结果返回给用户。搜索引擎的主要工作原理,而在每个部分又含有多个流程。
例如,用户搜索“搜索引擎实战解析”,过滤器检查是否含有敏感词汇,若有则屏蔽词汇,显示其他内容,“搜索引擎实战解析”没有敏感词汇,然后输入检索器。检索器对该词进行分词处理,通常分为“搜索引擎”“实战”“解析”这三个词。然后通过索引器调用信息数据库中与这三个词全部相关或分别相关的网页数据,利用排序器中预处理的排序进行求交,并利用网页加权算法获得关键词“搜索引擎实战解析”的最终排名输出给用户。另外,存储于信息数据库中的网页数据是通过Crawler(漫游器)进行网络信息的爬行和抓取,然后利用分析器对网页质量进行评估,如果网络信息与已有信息高度重复或者质量不高,都不能被搜索引擎存入信息数据库中,也就是常说的未被收录。
|