搜索引擎算法与网络蜘蛛原理大揭密(转)

   1、搜索指纹技术

 
  搜索引擎依靠搜索指纹来判断文章内容的原创性。
 
  信息指纹提取的方法:
 
  信息按照其表征特性可以分为:文字信息、图形信息、图像信息、语音信息。按照其来源可以分为:文档信息(正式编写的信息,有标题、作者、摘要、关键字等辅助信息,如正式发表的文章、论文等)、自然信息(随意记录或编写的信息,只有信息的内容,没有或部分有辅助信息,如八卦新闻、聊天的帖子、博客的文章等)、再生信息(对各种信息的统计信息,或通过对别人信息的重新编写,总结、联想出来的新信息,一般再生信息也都属于文档信息,有辅助说明信息)
 
  统计信息表明:对一个文本信息提取指纹,当选取8个关键词及其词频作为其指纹时,准确度在98%以上,查全率在30%左右。这说明要能“概括”该信息,找出其8个使用频率最高的词汇,基本可以代表这个信息。
 
  因此文字信息提取指纹的要素一般为下面信息:
 
  n标题
 
  n作者
 
  n发布时期、修改日期
 
  n主要关键词
 
  其中关键词的选取可以有几种方法:
 
  ★作者提供的关键词
 
  ★作者提供的摘要,或整理人员编写的摘要
 
  ★提取信息中出现频率高的8个关键词
 
  ★文章开头或结尾一段话
 
  ★文章中固定位置的一段话(如第5行的第一句话)
 
  有了这些代表信息后,便可以形成指纹信息,若再对这些信息进行Hash运算、MD5等方式加密、变化,生成一段定长(如256字节)的信息,就可以作为该信息的“指纹”,经过加密主要是防止对信息内容的篡改和对指纹的替换。这种方法有些象数字签名技术,但要相对简单,并且不进行加密运算时的标题等信息可以直接作为检索的关键字使用,这里提取信息中的高频率关键词是一个技术的难点,其原因有两个:
 
  1、信息中的非特征信息关键词的剔除:如我、你、他等称谓,而且、但是等连接词,对信息标识是没有帮助的。比较“通俗”的词,如管理、学习等可以出现在任何类型的信息中,让用户搜索的信息五花八门;比较“流行”的词,如姚明、时尚等可能出现频率极高,造成搜索信息非常多。总之,若关键字搜索的信息多得难以阅读,并且杂乱无序,对于查询者就失去了意义。
 
  2、词汇的提取本身就是问题:对于英文来说,词汇是空格隔离的,比较好提取,而对于中文来说,一句话中可以多种断句,得到的词汇会很多,识别结果有很大的差异。目前搜索公司大多采用巨大的词汇库方式,最长匹配也好,通俗词汇管理也好,说白了就是还没有一个模型或算法可以最好地识别词汇。这也正是Google也好,百度也好对中文的搜索结果都不尽如人意的原因。
 
  MD5签名函数是一个散列函数,可以将任意长度的数据流转化为一个固定长的数字4个整型数128位的数据。而这个数据流就是搜索引擎指纹。搜索引擎在爬取页面的时候就会产生一个数据流,并把这个暂时的数据流储存在临时的索引库里,因为每个数据都会生成一个唯一的指纹密钥,这样搜索引擎就可以通过抓取时生成的指纹密钥在临时索引库进行匹配对比,这就是我们经常说的更新。通过临时索引库储存的指纹密钥与即有的索引库的指纹密钥进行对比碰撞,从而计算出相同指纹密钥的信息。进而剔除相同密钥的临时索引库里的指纹密钥,也就是我们经常常说的拔毛。
 
  2、HITS算法
 
  HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。Hits算法由乔恩·克莱因伯格(JonKleinberg)于1998年设计提出,该算法的研究工作启发了PageRank算法的诞生。
 
  HITS算法的主要思想是:网页的重要程度是与所查询的主题相关的。
 
  HITS算法使用了两个重要的概念:权威网页(authority)和中心网页(hub)。
 
  HITS算法发现,在很多情况下,同一主题下的权威网页(authority)之间并不存在相互的链接。所以,权威网页(authority)通常都是通过中心网页(hub)发生关联的。
 
  HITS算法描述了权威网页(authority)和中心网页(hub)之间的一种依赖关系:一个好的中心网页(hub)应该指向很多好的权威性网页(authority),而一个好的权威性网页(authority)应该被很多好的中心性网页(hub)所指向。
 
  同时产生的两个问题是:
 
  HITS算法将链接与内容分开来考虑,仅考虑网页之间的链接结构来分析页面的权威性一个页面与另一页面的引用有多种情况,如为了导航或为了付费广告。
 
  第一个问题提出的解决方法是:利用超链文字及其周围文字与关键字相匹配而计算超链权值,并引入系数对周围文字和超链文字进行权值的相对控制。
 
  第二个问题的解决方法是:HITS算法引入了时间参数,即利用对一链接引用的时问长短来评价是否为正常引用。
 
  3、TrustRank(信任指数)
 
  信任指数算法是近年来比较受关注的基于链接关系的排名算法。
 
  TrustRank(信任指数)算法基于一个基本假设:好的网站很少会链接到坏的网站。反之则不成立,也就是说,坏的网站很少链接到好网站这句话并不成立。正相反,很多垃圾网站会链接到高权威、高信任指数的网站,意图提高自己的信任指数。
 
  基于这个假设,如果能挑选出可以百分之百信任的网站,这些网站的TrustRank(信任指数)评为最高,这些TrustRank(信任指数)最高的网站所链接到的网站信任指数稍微降低,但也会很高。与此类似,第二层被信任的网站链接出去的第三层网站,信任度继续下降。由于种种原因,好的网站也不可避免地会链接到一些垃圾网站,不过离第一层网站点击距离越近,所传递的信任指数越高,离第一级网站点击距离越远,信任指数将依次下降。这样,通过TrustRank(信任指数)算法,就能给所有网站计算出相应的信任指数,离第一层网站越远,成为垃圾网站的可能性就越大。
 
  计算TrustRank(信任指数)值首先要选择一批种子网站,然后人工查看网站,设定一个初始TrustRank值。挑选种子网站有两种方式,一是选择导出链接最多的网站,因为TrustRank算法就是计算指数随着导出链接的衰减。导出链接多的网站,在某种意义上可以理解为“逆向PR值”比较高。
 
  另一种挑选种子网站的方法是选PR。值高的网站,因为PR值越高,在搜索结果页面出现的概率就越大。这些网站才正是TrustRank(信任指数)算法最关注的、需要调整排名的网站。那些PR值很低的页面,在没有TrustRank(信任指数)算法时排名也很靠后,计算TrustRank(信任指数)意义就不大了。
 
  根据测算,挑选出两百个左右网站作为种子,就可以比较精确地计算出所有网站的TrustRank(信任指数)值。
 
  计算TrustRank(信任指数)随链接关系减少的公式有两种方式。一是随链接次数衰减,也就是说第一层页面TrustRank(信任指数)指数是一百的话,第二层页面衰减为90,第三层衰减为80。第二种计算方法是按导出链接数目分配TrustRank(信任指数)值,也就是说一个页面的TrustRank(信任指数)值是一百,页面上有5个导出链接的话,每个链接将传递20%的TrustRank(信任指数)值。衰减和分配两种计算方法通常综合使用,整体效果都是随着链接层次的增加,TrustRank(信任指数)值逐步降低。
 
  得出网站和页面的TrustRank(信任指数)值后,可以通过两种方式影响排名。一是把传统排名算法挑选出的多个页面,根据TrustRank(信任指数)值比较,重新做排名调整。二是设定一个最低TrustRank(信任指数)值门槛,只有超过这个门槛TrustRank(信任指数)值的页面,才被认为有足够的质量进入排名,低于门槛的页面将被认为是垃圾页面,从搜索结果中过滤出去。
 
  虽然TrustRank(信任指数)算法最初是作为检测垃圾的方法,但在现在的搜索引擎排名算法中,TrustRank(信任指数)概念使用更为广泛,常常影响大部分网站的整体排名。TrustRank(信任指数)算法最初是针对页面级别,现在在搜索引擎算法中,TrustRank(信任指数)值也通常表现在域名级别,整个域名的信任指数越高,整体排名能力就越强。
 
  4、Hilltop(相关性)算法
 
  Hilltop算法可以简单理解为与主题相关的PR值。传统PR值与特定关键词或主题没有关联,只计算链接关系。这就有可能出现某种漏洞。比如一个PR值极高的关于环保内容的大学页面,上面有一个链接连向一个儿童用品网站,这个链接出现的原因可能仅仅是因为这个大学页面维护人是个教授,他太太在那个卖儿童用品的公司工作。这种与主题无关,却有着极高PR值的链接,有可能使一些网站获得很好排名,但其实相关性并不高。
 
  Hilltop算法就尝试矫正这种可能出现的疏漏。Hilltop算法同样是计算链接关系,不过它更关注来自主题相关页面的链接权重。在Hilltop算法中把这种主题相关页面称为专家文件。显然,针对不同主题或搜索词有不同的专家文件。
 
  根据Hilltop算法,用户搜索关键词后,Google先按正常排名算法找到一系列相关页面并排名,然后计算这些页面有多少来自专家文件的、与主题相关的链接,来自专家文件的链接越多,页面的排名分值越高。按Hilltop算法的最初构想,一个页面至少要有两个来自专家文件的链接,才能返回一定的Hilltop值,不然返回的Hilltop值将为零。
 
  根据专家文件链接计算的分值被称为LocalRank。排名程序根据LocalRank值,对原本传统排名算法计算的排名做重新调整,给出最后排名。这就是前面讨论的搜索引擎排名阶段最后的过滤和调整步骤。
 
  Hilltop算法最初论文和申请专利时对专家文件的选择有不同描述。在最初的研究中,KrishnaBaharat把专家文件定义为包含特定主题内容,并且有比较多导出链接到第三方网站的页面,这有点类似于HlTS算法中的枢纽页面。专家文件链接指向的页面与专家文件本身应该没有关联,这种关联指的是来自同一个主域名下的子域名,来自相同或相似IP地址的页面等。最常见的专家文件经常来自于学校、政府以及行业组织网站。
 
  在最初的Hilltop算法中,专家文件是预先挑选的。搜索引擎可以根据最常见的搜索词,预先计算出一套专家文件,用户搜索时,排名算法从事先计算的专家文件集合中选出与搜索词相关的专家文件子集,再从这个子集中的链接计算LocalRank值。
 
  不过在2001年所申请的专利中,KrishnaBaharat描述了另外一个挑选专家文件的方法,专家文件并不预先选择,用户搜索特定查询词后,搜索引擎按传统算法挑出一系列初始相关页面,这些页面就是专家文件。Hilltop算法在这个页面集合中再次计算哪些网页有来自于集合中其他页面的链接,赋予比较高的LcocalRank值。由于传统算法得到的页面集合已经具备了相关性,这些页面再提供链接给某一个特定页面,这些链接的权重自然应该很高。这种挑选专家文件的方法是实时进行的。
 
  通常认为Hilltop算法对2003年底的佛罗里达更新有重大影响,不过Hilltop算法是否真的已经被融入进Google排名算法中,没有人能够确定。Google从来没有承认,也没有否认自己的排名算法中是否使用了某项专利。不过从排名结果观察以及招揽KrishnaBaharat至麾下等迹象看,Hilltop算法的思想得到了Google的极大重视。
 
  Hilltop算法提示SEO,建设外部链接时更应该关注主题相关的网站。最简单的方法是搜索某个关键词,目前排在前面的页面就是最好的链接来源,甚至可能一个来自竞争对手网站的链接效果是最好的。当然,获得这样的链接难度最大。
 
  5、GooglePR
 
  PR是PageRank的缩写。GooglePR理论是所有基于链接的搜索引擎理论中最有名的。PR是Google创始人之一拉里佩奇发明的,用于表示页面重要性的概念。用最简单的话说就是,反向链接越多的页面就是最越重要的页面,因此PR值也越高。
 
  我们可以把互联网理解为由节点及链接组成的有向图,页面就是一个个节点,页面之间的有向链接传递着页面的重要性。一个链接传递的PR值决定于导入链接所在页面的PR值,发出链接的页面本身PR值越高,所能传递出去的PR。也越高。传递的PR数值也取决于页面上的导出链接数目。对于给定PR值的页面来说,假设能传递到下级页面100份PR,页面上有10个导出链接,每个链接能传递10份PR,页面上有20个导出链接的话,每个链接只能传递5份PR。所以一个页面的PR值取决于导入链接总数,发出链接页面的PR值,以及发出链接页面上的导出链接数目。
 
  PR值计算公式是:
 
  PR(A)=(1-d)+d(PR(t1)/C(t1)+。。。+PR(tn)/C(tn))
 
  A代表页面A
 
  PR(A)则代表页面A的PR值
 
  d为阻尼指数。通常认为d=0。85
 
  t1。。。tn代表链接向页面A的页面t1到tn
 
  C代表页面上的导出链接数目。C(t1)即为页面t1上的导出链接数目。
 
  从概念及计算公式都可以看到,计算PR值必须使用迭代计算。页面A的PR值取决于链接向A的页面t1至m页面的PR值,而t1至tn页面的PR值又取决于其他页面的PR值,其中很可能还包含页面A。所以PR需要多次迭代才能得到。计算时先给所有页面设定一个初始值,经过一定次数的迭代计算后,各个页面的PR值将趋于稳定。研究证明,无论初始值怎么选取,经过迭代计算的最终PR值不会受到影响。
 
  关于PR有两个著名的比喻。一个比喻是投票。链接就像民主投票一样,A页面链接到B页面,就意味着A页面对B页面投了一票,使得B页面的重要性提高。同时,A页面本身的PR。值决定了A所能投出去的投票力,PR值越高的页面,投出的票也更重要。在这个意义上,传统基于关键词匹配的算法是看页面自己说页面内容是什么,基于链接的PR则是看别人怎么评价一个页面。
 
  第二个比喻是随机冲浪比喻。假设一个访问者从一个页面开始,不停地随机点击链接,访问下一个页面。有时候这个用户感到无聊了,不再点击链接,就随机跳到了另外一个网址,再次开始不停地向下点击。所谓PR。值也就是一个页面在这种随机冲浪访问中被访问到的概率。一个页面导入链接越多,被访问到的概率也越高,因此PR值也越高。
 
  网络蜘蛛(WebSpider),是通过网页的链接地址来寻找网页,从网站的某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性的主要依据之一是某个网页的链接深度。
 
  在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接的跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这种方法的优点是网络蜘蛛设计起来比较容易。
 
  由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。如果网络蜘蛛设置的访问层数为2的话,那么第3层的网页是不会被访问到的。这也是有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到的原因。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取到我们更多的网页。
 
  网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问的。这样就需要给网络蜘蛛提供相应的用户名和密码,网络蜘蛛可以通过所给的权限对这些网页进行抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要提供相应的权限验证。
 
  每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User-Agent,用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiduSpider,Yahoo网络蜘蛛的标识为InktomiSlurp。如果在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的网络蜘蛛来过,什么时候来的,以及读了多少数据等。
 
  网络蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有META标识。我们可以通过这些标识告诉网络蜘蛛本网页是否需要被抓取,本网页中的链接是否需要被继续跟踪等。
 
  一般网站都希望搜索引擎能更全面的抓取自己网站的网页,因为这样可以让更多的访问者通过搜索引擎找到此网站。为了让本网站的网页能更全面的被抓取到,可以建立一个网站地图(SiteMap)。许多网络蜘蛛会把sitemap。htm文件作为一个网站网页爬取的入口,我们可以把网站内所有网页的链接放在这个文件里,那么网络蜘蛛就可以很方便的把整个网站抓取下来,避免遗漏某些网页,也会减小对网站服务器的负担。
 
  搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来的网页包括各种格式,如html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件被抓取下来后,需要把其中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网络蜘蛛正确跟踪其它链接也有一定影响。
 
  对于doc、pdf等由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口,就可以轻松的提取文档中的文本信息和文件其它相关的信息。
 
  html文档不一样,它有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式,提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。但在识别这些信息的时候,需要同步记录许多版式信息,例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面关键词等,这些信息有助于计算词在网页中的重要程度。同时,对于html网页来说,除了标题和正文以外,会有许多广告链接及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候,也需要过滤这些无用的链接。例如某个网站有“产品介绍”频道,因为导航条在网站内每个网页都有,若不过滤导航条链接,在搜索“产品介绍”的时候,则网站内每个网页都会被搜索到,这无疑会带来大量垃圾信息。过滤这些无效链接需要统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些重要而结果特殊的网站,还需要个别处理。这就需要网络蜘蛛的设计要有一定的扩展性。
 
  对于多媒体、图片等文件,一般是通过链接的锚文本和相关的文件注释来判断这些文件的内容。例如有一个链接文字为“张曼玉照片”,其链接指向一张jpg格式的图片,那么网络蜘蛛就知道这张图片的内容是“张曼玉的照片”。这样,在搜索“张曼玉”和“照片”的时候都能让搜索引擎找到这张图片。另外,许多多媒体文件中有文件属性,通过这些属性也可以更好的了解文件的内容。
 
  动态网页一直是网络蜘蛛面临的难题。所谓动态网页,是相对于静态网页而言的,是由程序自动生成的页面,这样的好处是可以快速统一更改网页风格,也可以减少网页所占服务器的空间,但同时却给网络蜘蛛的抓取带来一些麻烦。由于开发语言的不断增多,动态网页的类型也越来越多,如asp、jsp、php等。这些类型的网页对于网络蜘蛛来说,可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语言(如vbscript和javascript)生成的网页,如果要完善的处理好这些网页,网络蜘蛛需要有自己的脚本解释程序。对于许多数据是放在数据库的网站,需要通过本网站的数据库搜索才能获得信息,这些给网络蜘蛛的抓取带来很大的困难。对于这类网站,如果我们希望这些数据能被搜索引擎搜索到,则需要提供一种可以遍历整个数据库内容的方法。
 
  对于网页内容的提取,一直是网络蜘蛛的工项重要技术。整个系统一般采用插件的形式,通过一个插件管理程序,遇到不同格式的网页采用不同的插件处理。这种方式的好处在于扩充性好,以后每发现一种新的类型,就可以把其处理方式做成一个插件补充到插件管理程序中。
 
  由于网站的内容经常变化,因此网络蜘蛛也需要不断的更新其抓取网页的内容,这就需要网络蜘蛛按照一定的周期去扫描网站,查看哪些页面是需要更新的,哪些页面是新增页面,哪些页面是已经过期的死链接。
 
  搜索引擎的更新周期对搜索的查全率有很大影响。如果更新周期太长,则总会有一部分新生成的网页搜索不到;周期太短,技术实现上会有一定难度,而且会对带宽、服务器的资源都有很大消耗。搜索引擎的网络蜘蛛并不是对所有的网站都采用同一个周期进行更新,对于一些重要的更新量大的网站,更新的周期短,如有些新闻网站,几分钟就更新一次;相反对于一些不重要的网站,更新的周期就长,可能几个月才更新一次。
 
  一般来说,网络蜘蛛在更新网站内容的时候,不用把网站网页重新抓取一遍,对于大部分的网页,只需要判断网页的属性(主要是日期),把得到的属性和上次抓取的属性相比较,如果一样则不用更新。
 
  网络蜘蛛在搜索引擎中占有重要位置,对搜索引擎的查全、查准都有影响,决定了搜索引擎数据容量的大小,而且网络蜘蛛的好坏直接影响搜索结果页中的死链接(即链接所指向的网页已经不存在)的个数。目前如何发现更多的网页、如何正确提取网页内容、如果下载动态网页、如何提供抓取速度、如何识别网站里内容相同的网页等都是网络蜘蛛需要进一步改进的问题。
 
  随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度及日流量来选择是否要投放广告等;作为网民,会根据搜索引擎的性能和技术来选择自己喜欢的查找资料;作为学者,会把有代表性的搜索引擎作为研究对象。
 
  我们最关心的是如何让更多的网民知道自己的网站,进而获得更高的流量和知名度。这其中,搜索引擎已经为一个最重要的的宣传途径。一方面,搜索引擎会主动出击,寻找网络上的各种网页数据,并在后台按相关条件进行索引;另一方面,一些网站为了让自己的内容能够更多的通过搜索引擎向网民展示,开始对网站结构进行调整,其中包括扁平化结构设计、动态(网页)转静态(网页)、SiteMap等。
 
  搜索引擎一直专注于提升用户的体验度,用户体验度反映在三个方面:准、全、快,就是查准率、查全率和搜索速度(即搜索耗时)。其中最易达到的是搜索速度,因为对于搜索耗时在1秒以下的系统来说,访问者很难辨别其快慢,更何况还有网络速度的影响。因此,对搜索引擎的评价就集中在了前两者:准和全。中文搜索引擎的“准”,需要保证搜索的前几十条结果都和搜索词十分相关,这需由“分词技术”和“排序技术”来决定;中文搜索引擎的“全”则需保证不遗漏某些重要的结果,而且能找到最新的网页,这需要搜索引擎有一个强大的网页收集器,也就是我们说的“网络蜘蛛”,或叫“网络机器人”。
 
  网络蜘蛛技术并不是一项十分高深的技术,但要做成一个强大的网络蜘蛛,却非易事。在目前磁盘容量已经不是瓶颈的时候,搜索引擎一直在扩大自己的网页数量。最大的搜索引擎从2002年的10亿网页增加到现在的近40亿网页;最近雅虎搜索引擎号称收录了45亿个网页;国内的中文搜索引擎百度的中文页面从两年前的七千万页增加到了现在的两亿多。据估计,整个互联网的网页数达到了100多亿,且每年还在快速增长。因此一个优秀的搜索引擎,需要不断的优化网络蜘蛛算法,提升性能。
 
  由于效率的原因,搜索引擎不可能在搜索时实时去检查每个网页,而是需要把网页先抓取下来,按照关键词建立好索引,每次搜索的结果都会直接从搜索引擎建立好索引的数据库中查找,然后把结果返回给访问者。
 
  网络蜘蛛是搜索引擎的核心,对其工作原理的研究是我们进行搜索引擎推广的基础。

发表评论

必填

选填

选填

必填

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。