索引
搜索引擎以网页中的词语为关键词,建立的便于查询的有序文件条目存储于搜索引掌索引库中,索引通常分为正排索引和倒排索引两种。
正排索引是搜索引擎将抓取的网页经过分词、去噪等操作后以网页文件为单位,对网页文件中关键词的映射。简单地说就是,正排索引是将网页文件的各个关键词信息存为一个项,包括关键词的次数、频率、加粗加黑、出现的位置等信息,并按照重要程度对关键词进行有序排列。为搜索引擎索引库正排索引的简化表,其中每个网页的所有关键词都进行了排序,更重要的关键词被排在更靠前的位置。需要注意的是网页文件和关键词都有各自的编号,在检索时速度就更快,这与倒排索引中是相同的。
倒排索引是搜索引擎以关键词为单位对不同网页文件的映射。也就是搜索引擎以关键词为条目名,内容是含有相同关键词的网页文件排序,用户常用的关键词搜索就是调用倒排索引。因为正排索引并不能直接获得搜索结果排名,所以倒排索引是对正排索引的补充也是用户搜索调用的关键索引。当用户搜索某个具体关键词时,如“SEO”,搜索引擎调用以“SEO”为条目名的索引项,然后将其中按相关度排列的网页文件经过处理的结果返回给查询用户。
所示为搜索引擎索引库倒排索引的简化表,从中可以看到每个关键词对应了很多含有这个关键词的网页,这些网页都是经过排序的,极大地提高了搜索引擎搜索引擎索引库是整个搜索过程的基础,没有索引搜索引擎很难查找到相应的内容。
倒排索引则更好地降低了关键词搜索网页的难度,使搜索引擎返回结果的速度大大提升。
|