超链分析
搜索引擎通过对网页链接的分析,得出网页相关度的计算。就像卖东西一样,所有卖东西的都会夸自己的东西好,网页也是一样,如果只通过网页自身表现的情况来判断网页排名,肯定不能十分准确。
因此搜索引擎希望通过网页以外的标准来衡量网页,而网页以外的标准中,最利于搜索引擎掌握的就是超链接,每个网页的外部超链接数量质量以及网页导出链接情况都反应网页的质量和关键词的相关度。
这样的链接分析技术在所有的搜索引擎中都存在,其中最为知名的超链分析就是谷歌的PR技术,国内的百度李彦宏提出的超链分析技术,其他搜索引擎也都有自己的超链分析技术,只是在具体侧重方向有些许差别。
具体的超链分析技术是十分复杂的,但是最主要的原则有导入链接数量、导入链接网页质量、导入链接锚文本等。例如,网页A有导人链接40个,其中以“SEO”为锚文本的链接30个;而网页B有导入链接30个,以“SEO”为锚文本的链接20个,一般情况下,网页A在关键词“SEO”的排名结果中更理想。
由于超链分析的计算量非常庞大、计算时间很长,因此在建立倒排索引时,超链分析已经完成,并对索引结果的排名产生影响,这样也可以提高搜索引擎返回结果的速度。
数据整合搜索引擎经过处理网页文件将各种格式的文件数据进行整理,然后进行分类存储。由于网络文件的类型有很多种、如html、PPT、Word、Txt、Jpg、Bmp、Swf、Mp3等格式,其中文字格式的网页文件能很好地被搜索引整识别处理。但其他富媒体格式的文件,如视频、音乐、图片等往往只能通过其说明性文字进行处理,然后整合各种类型的数据,存于搜索引擎的数据库中。
不同的数据格式被分别存储,但是在建立索引以及排序时,往往又会联系到与数据相关的内容,以判断其相关性与重要性,然后形成最终的一个有利于搜索排名的数据库。
|