当前位置:首页百度蜘蛛是如何收录一个网站的|搜索引擎工作全过程揭秘 举报文章

百度蜘蛛是如何收录一个网站的|搜索引擎工作全过程揭秘

作者:admin    来源:用户投稿    时间:2015.8.25   

  搜索引擎工作过程非常复杂,今天和大家分享一下我所了解的百度蜘蛛是怎么实现网页收录的。

  搜索引擎工作大致可以分为四个过程。

  1、蜘蛛爬行抓取。

  2、信息过滤。

  3、建立网页关键词索引。

  4、用户搜索出结果。

  蜘蛛爬行抓取

  当百度蜘蛛来到一个页面时,它会跟踪页面上的链接,从这个页面爬行到下一个页面,就好像一个递归过程,这样常年累月,不止疲倦的工作。比如蜘蛛来到了我的博客首页http://blog.sina.com.cn/netseoer,它会先读取根目录下的robots.txt文件,如果没有禁止搜索引擎抓取,那么蜘蛛就开始针对网页上的链接,进行逐一跟踪爬行。比如我的置顶文章“SEO概述|什么是SEO SEO到底是干嘛的”,引擎就会多进程式的来到这篇文章所在的网页抓取信息,如此循坏,没有终结。

  信息过滤

  为了避免重复爬行和抓取网址,搜索引擎会有一个记录已爬行和未被爬行的地址库,如果你有一个新网站时,你可以去百度官网提交网站的网址,引擎就会记录它,并把它归类到未爬行的网址,然后蜘蛛就会根据这个表格,从数据库中提取URL,访问并抓取页面。

  蜘蛛并不会收录所有的页面,它要经过严格检测。当蜘蛛在爬行和抓取一个网页的内容时,会进行一定程度的复制内容检测,如果网页所在的网站权重低,而且大部分文章都是抄袭来的话,蜘蛛就很可能不喜欢你的网站了,不在继续爬行,也就不收录你的网站。

  建立网页关键词索引

  当蜘蛛抓取了一个页面之后,首先会对页面文字内容进行分析。通过分词技术,将网页的内容简化到关键词,并把关键词和对应的网址制成表格建立索引。

  索引又有正向索引和反向索引,正向索引是把网页内容对应的关键词,反向是关键词对应的网页信息。

  出结果

  当用户搜索了某个关键词之后,就会通过前面建立的索引表进行关键词匹配,通过反向索引表找到关键词对应的页面,通过引擎对网页综合评分计算以后,根据网页的评分来决定网页的先后顺序排名。那蜘蛛是如何对网页进行综合评分的呢?这里我们不多做分析,欢迎关注我的博客,在今后的文章里我会为大家分析揭秘搜索引擎的更多秘密。

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:百度  蜘蛛  如何  收录  一个  网站  搜索  搜索引擎  索引  引擎  
  • 相关搜索
图片推荐
    引以为鉴 SEO失败的优化案例

    引以为鉴 SEO失败的优化案例

    【导读】大家好了,好久没有和大家唠叨下了,这十几天的文章,都是在别人书本上摘要下来,分享给大家的。好像失去了妮子博客的价值了,其实妮子希望大家看完能去实践!而且优化越来越难了,做为专汽行业中,是否慢慢
    运营主管教你如何3分钟分析竞争对手的网站

    运营主管教你如何3分钟分析竞争对手的网站

    做网站运营主管这么多年一直负责各个企业的网站运营,经手的网站也不在少数,从小型企业站到大型门户,以及商城网站等等都离不开分析,其中最重要的也是最关键的就是分析竞争对手的网站,兵法有云知已知彼,百战不殆
    竞价推广如何屏蔽无效关键词

    竞价推广如何屏蔽无效关键词

    对于很多开通竞价的企业来说,造成广告成本浪费最严重的一个问题就是关键词的问题,如果你只是每天关注下重点关键词排名,每天看下账户消费了多少钱,如果是这样的话,那么每天因为关键词问题会浪费你至少20%的广
    用户体验设计人员的“体验专利”如何保护?

    用户体验设计人员的“体验专利”如何保护?

    最近身边很多同行问我如何写专利,正好借着这个机会分享一下我写专利的一些经验,纯粹浅谈,希望能解决用户体验人在写专利上的一些问题。  在常人看来,专利申请是非常神秘的,因为每一个专利技术都需要有十分丰富
    手游创业 需靠谱的5种特质

    手游创业 需靠谱的5种特质

    手游行业火,月收入过千万的曝出一大堆,必然吸引了大批有为青年抛家舍业。茶叔见过各式各样的手游创业团队,也亲眼目睹团队一飞冲天月入千万,也见证过团队解散重新找工作。在此,总结出几条自认为靠谱的手游创业过
    国家网信办官网发文警示微信标题党

    国家网信办官网发文警示微信标题党

    昨日,国家网信办官网发文严厉警示标题党、图片党,以下是全文:  移动互联网技术的快速发展以及微博、微信等社交平台的普遍应用,使得碎片化阅读逐渐成为人们阅读的主要方式。移动端的内容制作与PC端有着很大区
    百度站长平台:开放适配工具pattern提交效果佳

    百度站长平台:开放适配工具pattern提交效果佳

    上周负责开放适配工具的工程师找到站长学院,希望学院跟广大站长呼吁一下:使用平台开放适配工具提交PC-移动页面对应关系时,能用pattern方式就尽量别用URL方式,这样你好他好大家好。  原来是这样的
    教你苹果安卓手机微信聊天记录保存在哪个文件夹

    教你苹果安卓手机微信聊天记录保存在哪个文件夹

    很多人以为微信聊天记录是保存在腾讯服务器中的,其实事实并非如此,微信聊天记录就储存在我们的手机中,但是并非以明文进行保存,而是经过了严格加密(不同微信号使用不同的密钥进行加密)。但今天小编将教大家微信
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面