降噪去重
去除影响网页主要信息的无意义以及重复的内容。由于网页信息中通常含有较多的重复内容,如广告、头部和底部信息等;以及文字内容中无意义的符号、字词等,这极大浪费了搜索引擎资源,所以服务器会去除网页中这些无意义的内容。
在以文字为主的网页中,很多无意义的文字,如“的”“了”“啊”“of”“a”“the”等这些字占了大量的篇幅,但是却几乎没有人会搜索这些字词。
搜索引擎为了降低无意义内容干扰,会去除这些内容,就是这些内容不会作为网页关键词建立索引。
互联网资源庞大,网站之间相互转载内容,所以会产生很多重复内容;在相同网站中相同的模板,让很多网页中含有相同的内容,有的甚至占据了大量的篇幅。所以搜索引象在爬行网页后,会检测是否是重复网页,如果是通常不会收录;而相同网站中也有较多网页含有重复的内容,如相同的列表、广告、版权说明等。搜索引擎对于这些网页的做法就是筛选,将抓取的内容与数据库中的内容进行对比,如果相似度太高会不予收录,或去除相同的部分进行收录。
但是由于互联网中的网页数量十分庞大,搜索引擎并不能对每个网页进行全面的检测,另外很多内容是允许转载的,因此用户仍能搜索到很多相同的结果。但是对网页的降噪是必须的流程,不仅可以减少资源浪费,还可以提高排名的准确性。
|