你要找的是湖南网站优化哪家好?中外商贸为你提供服务:湖南网站优化价格、湖南网站优化公司,欢迎浏览:湖南网站优化
湖南网站优化 |
服务器处理网页 服务器处理是对蜘蛛抓取的网页进行处理,是提高搜索准确度和用户体验的重要节,和爬行抓取相同,都是搜索引擎后台处理的一部分。搜索引擎蜘蛛抓取的网页数据是不能直接参与排名的。因为数据过于庞大,如果直利用检索器检索,大量相关网页的排名计算量非常大,根本不能在一两秒内提供给用户案,所以搜索引擎会对抓取的网页进行预处理,得出关键词的索引,相当于对网页上各关键词进行一个预排名,用户检索时就能更快地获得搜索结果。服务器处理网页的工作通常包括网页结构化、分词、去噪去重、索引、超链分析、 据整合等,下面分别来介绍这些内容。 1.网页结构优化 提取网页有用信息,去除HTML代码及脚本,剩下的文字信息就是服务器需要分析处理的数据。 搜索引擎蜘蛛抓取到的网页是整个网页所有的信息都包含在其中,导航、分类列表友情链接,甚至广告都会被抓取到搜索引擎,这样的内容并不能直接用来进行预排名处理所以搜索引擎会去除网页的HTML代码,剩下的文字内容,如正文文字、Meta标签文字锚文本、图片视频注释等,都可以进行排名的处理,这样对排名的干扰也就更小了。 <div class="headlinetop"> <a href="http://www.chinaz.com/news/2013/0312/295377.shtml"target=" blank"> <h3>苹果全球十四大最著名零售店</h3> <p>腾讯科技讯(云松)北京时间3月12日消息,据国外媒体报道,近日,全球著名杂志《福布斯》发布了苹果公司在……</p></a></dlv> 以上代码经过服务器网页结构化后就剩下:“苹果全球十四大最著名零售店 腾讯科技讯(云松)北京时间3月12日消息,据国外媒体报道,近日,全球著名杂志《福布斯》发布了苹果公司在……”。 2.分词 通常在中文搜索引擎中使用,由于中文和英文语系的意义表达不同,中文的意思表达一般是词汇,有的一个字为一个词汇,也可以多个字组成一个词汇,而且中文词汇之间是没有间隔做区分的。因此在中文搜索引擎中,需要根据词典或者日常使用习惯对语句按词汇进行划分,以建立以词汇为索引的信息数据库。 例如,上面的网页“苹果全球十四大最著名零售店”,搜索引擎调用词典分词为“苹果”“全球”“十四”“大”“最”“著名”“零售店”,然后根据一定的条件,建立由这些词为索引的网页数据,再进行一系列的排名程序。但在实际应用中,不只会用词典为依据,还会加入日常搜索的统计数据和该网页自身词汇组成来分词。
因为中文词汇非常多,所以搜索引擎在判断网页词汇的时候需要借用词典进行分词,而搜索引擎分词的准确性取决于词典的准确性和完整性。主要搜索引擎都会建立独立的词典,这个词典不是一成不变的,会不断加人新词汇,也会将常用的词汇进行靠前排列,在调用时也就更快捷。调用的过程就是将抓取到的网页文字逐一按词到词典中去匹配,也就相当于我们查词典的过程。 需要注意的是服务器分词的时候,用正向和逆向两种顺序扫描网页中的文字,以词典中含有的长短词对网页文字进行多次分词。例如,“中国地图”在按词典分词时,服务器正向扫描分为“中国”“地图”,这是最短的词汇,如果按照最大匹配可以分为“中国地图”,然后建立与词对应索引项。图2.8和图2.9所示为“中国地图”百度分词的两种结果。 依据统计数据的分词是对词典分词的一种补充和优化。由于词典对新词的匹配度很低,搜索引擎不能很好地对新关键词的网页进行分词并建立索引,这就大大降低了搜索引擎搜索新关键词的能力。作为对词典分词的补充,服务器能根据网页中每个字的前后字出现频率(频率越高说明这几个字成词)形成词汇的统计数据库,分词时调用并进行匹配。例如,搜索“鞋子理论是什么”,由于习近平主席提出的“鞋子理论”近日受到广泛关注,网页中“鞋子理论”四个字出现在一起的频率非常高,因此在统计数据库中就形成了一个词条,用以网页分词的匹配。图2.10所示为“鞋子理论是什么”的百度分词结果。 Baid百度快照 您查词的关建词是:鞋子理论是什么,如果打开速度馁,司以雪试快过题,如需想保存快现,(伍读和问面1信p/gock 591rx.c0m/ar1ce/2013-03-25/0000678650s 3mbrg0作通无关,下时元内可 图2.10“鞋子理论是什么”百度分词结果 值得注意的是每种搜索引擎分词的结果并不完全相同,满足用户需求的能力也有所不同,这主要取决于搜索引擎的词典的丰富程度与准确度。因此网页在不同搜索引擎的分词结果并不完全相同,也是影响搜索结果的一个因素。SEO人员在针对分词上所能做的就是尽量使常用搜索词组合在一起,这样在搜索引擎分词时就可以将常用词化为同一个词建索引,也就能获得更高的匹配度。
|
![]() |