网站优化套餐
SEO资讯
  • 没有资料
SEO培训
  • 没有资料
网站优化前的“预处理”
作者:admin 日期:2012-10-27 21:16:26 文章来源:互联网

拿到一个需要进行百度优化的网站,先要做些什么呢?今天优易网就要跟大家说说什么是网站优化前的“预处理”。

搜索引擎数据库中的页面都是在数万亿级别以上,用户输入搜索词之后,靠排名程序时时对这么多页面分析相关性,计算量太大,不可能在一二秒内返回排名结果。因此抓取来的页面必需经由预处理,为最后的查询排名做好预备。


1.提取文字
现在搜索引擎仍是以文字内容为基础。蜘蛛抓取到的页面中的代码HTML代码、除了用户在浏览器上可以看到的可见文字外,还包含了额大量的HTML格局标签。Javascript程序等无法用于排名的内容。搜索引擎预处理就是从HTML文件中去除标签程序提掏出可以用于排名处理的网页文字内容。


2.中文分词
分词是中文搜索引擎独占的步骤,搜索引擎存储和处理页面及用户搜索都是词为基础的。英文等语言单词与单词之间没有任何分隔符,一个句子中的所有词和字都是联系在一起的。搜索引擎必需首先分辨哪几个字组成一个词,那些字本身就是一个词。
中文分词基本上有两种方法:一种是基于词典匹配,一种是基于统计。
基于词典匹配的方法是指:将待分析的一段汉字与一个是先造好的词典中的词条进行匹配。在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切除一个单词。按照扫描方向,基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同,又可以分为最大匹配和最小匹配。将扫描放方向和长度优先混合,又可以产生正向的最大匹配和逆向的最大匹配等不同方法。
词典匹配法计算简朴,其正确度在很大程度上取决于词典的完整性和更新情况。
基于统计的分词方法指的是分析大量文字样本,计算出字与字相邻泛起的统计概率,几个字相邻泛起越多,就越有可能形成一个单词。基于统计的方法的上风是对新泛起的词反应更快速,也有利于消除歧义。


基于词典匹配和基于统计的分词方法各有优劣,实际使用中的分词系统都是混合使用两种方法的。
3.去休止词
不管是英文仍是中文,页面内容找那个都会有一些泛起频率很高,却对内容没有任何影响的词,如“的”,“地”,“得”之类的助词。“啊”、“哈”、“呀”之类的感叹词还有“从而”、“以”、“却”之类的副词或介词。这些词被称为休止词,由于他们对页面的主要意思没什么影响。
4.消除噪音
绝大部门页面上还有一部门内容对页面主题也没有什么贡献的,好比版权声名文字,导航条,广告等。以常见的博客导航为例,几乎每个博客页面上都会泛起文章分类,历史存档等导航内容,但是这些页面本身与“分类”、“历史”这些词都没有任何的关系。用户搜索“历史”、“分类”这些枢纽词时仅仅由于页面上有些词泛起而返回博客帖子是毫无意义的,完全不相关。所以这些词都属于噪音。对页面主题只能起到分散作用。
搜索引擎需要识别并消除这些噪音,排名时不使用噪音内容。消除噪音的基本方法是根据HTML标签对页面分块,区分出页头,导航、正文、页脚、广告等区域,在网站上大量重复泛起的区块往往属于噪音。剩下的才是页面主题内容。
5.去重
搜索引擎还需要对页面进行去重处理。


统一篇文章常常会重复泛起在不同网站及统一个网站的不同网址上,搜索引擎并不喜欢这种重复性的内容。用户搜索时,假如在前两页看到的都是来自不同网站的统一篇文章,用户的体验就太差了,固然都是内容相关。搜索引擎但愿只返回相同文章中的一篇,所以在进行索引钱还需要识别和删除重复内容,这个过程就称为去重。
去重的基本方法是对页面特征枢纽词计算指纹,也就是说,从页面主题内容中选取最有代表性的一部门枢纽词,然后计算这些枢纽词的数字指纹。这里的枢纽词选取是在分词、去休止词、消噪之后。实验表明,通常选取10个特征枢纽词就可以达到一个比较高的计算正确性,在选取更多词对去重正确性进步的贡献也就不大了。
6.正向索引
正向索引也可以简称为索引。
经由文字提取、分词、消噪、去重后,搜索引擎得到的就是独特的,能反映页面主题内容的、以词为单位的内容。接下来搜索引擎索引程序就是可以提取枢纽词,按照分词程序划分好的词,把页面转换为一个枢纽词组成的集合,同事记实每一个枢纽词在页面上的泛起频率、泛起次数、格局、位置。这样每一个页面都可以记实为一串枢纽词集合,其中每个枢纽词的词频、格局、位置等权重信息也记其实案。
7.倒排索引
在倒排索引中枢纽词是主键,每个枢纽词都对应着一系列文件,这些文件中都泛起了这个枢纽词。这样当用户搜素某个枢纽词时,排序程序在倒排索引中定位到这个枢纽词。就可以马上找到所有包含这个枢纽词的文件。
8.链接关系计算
链接关系计算也是预处理中很重要的一部门,现在所有的主流搜索引擎排名因素中都包含网页之间的链接活动信息。搜索引擎在抓取页面的内容后,必需实现计算出:页面上有哪些链接指向哪些其他页面,每个页面都有哪些导入链接,链接使用了什么描文本,这些复杂的链接指向关系形成了网站和页面的链接权重。
9.特殊文件处理
除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础多种文件类型,如PDF,WORD,WPS,XLS等,我们在搜素结果中也常常会看到这些文件类型,但目前搜索引擎还不能识别处理图片、视频、Flash这类懂得非文字内容,也不能执行脚本和程序。
固然百度排名在识别图片及从Flash中提取文章内容方面有些提高,不外间隔直接靠读去图片、视频、Flash内容返回结果的目标还很远。

设为首页| 加入收藏 | 关于我们 | 联系我们
客服热线:0571-8888888 电子邮箱:youyi8@126.com 传 真:88888888 优易网版权所有
地址:杭州下沙经济开发区 浙ICP备11013247号 Copyright 2012 youyi8.net Rights Reserved.
友情链接: 重庆seo  
Powered by VIPCMS.Net