万网代理
用户名:
密 码:
验证码:
新用户注册   找回密码
   010-51661675 , 18601941675
控制面板
帮助中心
支付方式

万网首页

|

注册域名

|

万网空间

|

阿里云主机

|

万网邮箱

|

香港空间

产品购买流程
万网新闻公告
价格总览
域名基本知识
虚拟主机基本知识
万网空间如何备案
FTP软件上传
MSSQL使用帮助
MYSQL使用帮助
Foxmail收发信
Outlook收发信
域名注册服务条款
虚拟主机服务条款
独立主机服务条款
企业邮局服务条款
万网代理 服务总章
相关法律法规
您的位置:万网代理 > 新闻中心 > 帮助信息
   
   

深入探究搜索引擎抓取、索引、排名原理

发布人:雅友网络    发布时间:2010-10-11 16:48:35

SEOER的研究对象就是搜索引擎,因此深入了解搜索引擎工作原理很有必要,网上也有很多介绍这方面的文章,但能称得上详细、形象、深入地进行剖析的少之又少。当然,笔者的博文可能也完全达不到所谓的详细、形象、深入三面俱到,但笔者会尽可能详尽、深入地阐述各个原理,以便对这些原理能有更深层次的认知。

搜索引擎原理图

一、抓取:其实在抓取前面还有一个过程没有描述在内,那就是爬行,也就是搜索引擎程序发现新网址的过程,只是这个过程大多伴随着抓取,除非你的这个URL上的内容没有什么价值(垃圾内容、重复内容、文字过少内容等)而被搜索引擎抓取程序直接跳过。搜索引擎爬行程序以数据表中已存在或新提交的链接顺藤摸瓜式地进行爬行以不断发现新的URL,抓取程序在分析并确定该URL的页面内容有价值后,便将其整个页面抓取下来放入到庞大的信息数据表中。新抓取的内容在进入信息数据表时,并不是一股脑地堆积在那,而是按照信息数据库中表的字段(如:网页URL、title、描述、正文内容、抓取时间、导出链接等)分门别类地将信息存储起来,以便满足后期的数据索引操作。

二、索引:在谈这个过程前,我们首先要理清搜索引擎索引数据表与信息数据表之间的关系,其实搜索引擎底层的数据存储本身就是一个关系数据库,索引数据表和信息数据表是两个独立的表,只是索引数据表和信息数据表是一对多的关系,这样或许更好理解。那么搜索引擎为什么需要索引数据表呢?我们不妨从信息量这个角度分析一下,就目前来看,搜索引擎的信息量在百亿级,而用户搜索某个关键字时响应速度在短短的2、3秒内,在这短短的2、3内不仅仅要完成数据的查询,而且还要完成数据的排序(关键词排名)。如果每次都要从这百亿级的数据中查询用户请求并处理排序,不仅减慢响应速度,而且还浪费了大量的计算资源,对服务器的压力也会更大。这个时候,搜索引擎就迫切希望将用户查询的信息锁定在一个范围,这个范围的信息量或许只有几千条、几百条,计算处理起来,效率要高很多,而索引数据表就是为解决这一问题出现的。

根据统计,汉语词语大约有9万多个,听起来很庞大,但对于计算机来讲处理起来恐怕会很轻松,而中文用户的搜索无外乎就是这几万个词语的组合(英文就更简单了,26个字母的组合)。如果用户搜索的是一连串儿的句子,那么要先经过搜索引擎的分词处理,比如 搜索:华普笔记本电脑,分词技术首先会按照汉语习惯进行划分,划分为:华普、笔记本、电脑,那么这三个常见词语在搜索引擎索引数据库表中都有对应的词条,此时搜索引擎将从信息数据表中筛选出关联索引数据表中3个词语的全部词条并取其交集词条展现给用户,如果用户单一搜索一个词语,那搜索引擎处理起来就更为简单,直接从信息数据表中筛选出索引数据表中该词所对应的词条即可。

三、排名:阐述这一原理,不得不说下搜索引擎爬行、抓取过程,影响关键词排名的因素很多,如:站内优化情况、外链质量及数量、pr等,那么这些排名因素搜索引擎也必须抓入数据库,纳入数据表作为特定URL的排名依据,其实影响网页排名指标的获取过程就是搜索引擎爬行、抓取的过程。最难理解的可能就是外链这一块儿,因为在抓取网页时,搜索引擎是捕捉不到他的导入链接的,其实搜索引擎在抓取一个页面时,已经将该页面的导出链接投票计算到了相应的页面,并将这一有效投票写入到了所指向的URL字段中(比如:votes字段),便于排名程序加以计算。当然,影响排名的因素很多,排名计算的具体方式我们也无从得知,因此这些不在我们的讨论之列。关于排名,大家可能还有一个问题,就是每个词语的排名是事先排序好了,还是当用户搜索时才进行排序,笔者给出的答案是后者,或许这一个现象可以揭秘笔者的答案:每一天甚至每一小时关键字排名都会出现波动。

笔者带病写博文,因此语言上可能有点儿费解,最后笔者PS张图给大家看下,作为宏观了解搜索引擎的三大原理示意图,如文中图所示。

本文来源网络:万网代理 www.yayb.com


现在时间:2024-12-6 0:47:32
 相关资讯:  
阿里云windows共享虚拟主机到期期限内免费升级为5G空间 2024-6-18 10:14:04
【重要】域名暂代实名认证通知 2017-5-17 10:48:04
【重要】域名实名认证通知 2017-5-17 10:47:29
域名实名认证公告 2017-3-20 13:24:28
万网8月25日凌晨官网系统升级 2012-8-24 20:13:41
哪款万网企业邮箱更适合我? 2011-1-20 19:17:26
不加www的域名,网站为什么不能访问? 2011-1-20 19:15:52
新手选购虚拟主机必须做的事情 2011-1-20 19:15:21
什么是万网智能双线虚拟主机? 2011-1-10 22:37:52
访问网站出现Directory Listing Denied 是什么原因? 2011-1-10 22:37:20
万网空间与免费空间区别 2011-1-9 21:58:14
万网个人做网站需注意的三大网站建设事项 2011-1-6 23:40:41
万网空间网站中木马了怎么处理 2011-1-6 23:40:17
怎样方便的管理我的万网邮箱? 2011-1-5 23:55:25
万网主机Service Unavailable出现原因及解决方法 2011-1-5 23:54:47
万网空间404错误页面设置办法 2011-1-5 23:54:08
万网空间IIS连接数和在线人数的关系 2011-1-5 23:53:40
关于元旦假期期间暂停国内域名资料审核通知 2011-1-3 1:20:19
网站更换域名万网空间的注意事项 2011-1-3 1:18:37
万网空间使用unix虚拟主机有哪些优点? 2011-1-3 1:17:36
万网空间如何选择数据库? 2011-1-3 1:17:11
如何解决万网空间unauthorised 2011-1-3 1:16:51
万网空间常见的四个错误及解决方法 2010-12-30 0:29:15
中文.香港域名即将推出通告 2010-12-28 22:03:16
万网国内空间和国外空间如何选择 2010-12-26 19:10:29
万网服务器云平台升级维护通知 2010-12-23 20:07:05
如何预防万网邮箱中毒? 2010-12-23 20:02:36
万网空间数据库MSSQL和MYSQL有什么区别? 2010-12-23 20:02:03
万网空间支持JMAIL组件么? 2010-12-23 20:01:37
互联网热潮微博团购网购 2010-12-23 20:00:24
服务器的稳定性对百度优化的影响 2010-12-21 23:50:50
关注CN域名注册的减少与未来 2010-12-21 23:50:14
万网空间IIS链接人数过多是什么原因 2010-12-20 22:39:52
网站为什么会出现“Service Unavailable”的提示? 2010-12-20 22:37:32
购买美国空间常见的四大误区 2010-12-20 22:36:57
网站访问很慢一般是什么原因 2010-12-20 22:33:39
选择万网虚拟空间个人网站成败之关键 2010-12-18 2:09:11
网站迁移万网虚拟主机的正确操作方法 2010-12-16 20:27:29
市面上最好的企业邮箱:万网绿色G邮箱 2010-12-16 20:26:03
选择虚拟主机的20个注意 2010-12-16 20:24:36
万网虚拟主机服务的分类 2010-12-16 0:17:58
为什么外贸网站要使用万网企业邮箱 2010-12-14 21:31:07
万网代理及分销合作伙伴合作协议 2010-12-13 19:48:37
万网国际域名注册信息更新提醒通知 2010-12-13 19:46:43
万网企业邮箱1G变3G,免费加邮 2010-12-13 19:46:09
万网G主机已经支持fsockopen函数 2010-12-13 1:46:01
万网标准建站加速智能建站成熟 2010-12-13 1:44:59
当前虚拟主机的三种流量限制 2010-12-12 0:49:20
万网空间为何要使用独立IP? 2010-12-12 0:48:49
万网主机万网空间机房介绍 2010-12-11 0:46:24
站点地图 | 关于我们 | 工作机会 | 联系方式 | 帮助中心 | 设为首页 | 加入收藏
Copyright 2013 All Rights Reserved
咨询电话:010-51661675 , 18601941675 Email:postmaster@yayb.com 赣ICP备17015591号-1
客服QQ:[客服01] [客服02] [客服03]