当前位置:首页百度蜘蛛是如何收录一个网站的|搜索引擎工作全过程揭秘 举报文章

百度蜘蛛是如何收录一个网站的|搜索引擎工作全过程揭秘

作者:admin    来源:用户投稿    时间:2015.8.25   

  搜索引擎工作过程非常复杂,今天和大家分享一下我所了解的百度蜘蛛是怎么实现网页收录的。

  搜索引擎工作大致可以分为四个过程。

  1、蜘蛛爬行抓取。

  2、信息过滤。

  3、建立网页关键词索引。

  4、用户搜索出结果。

  蜘蛛爬行抓取

  当百度蜘蛛来到一个页面时,它会跟踪页面上的链接,从这个页面爬行到下一个页面,就好像一个递归过程,这样常年累月,不止疲倦的工作。比如蜘蛛来到了我的博客首页http://blog.sina.com.cn/netseoer,它会先读取根目录下的robots.txt文件,如果没有禁止搜索引擎抓取,那么蜘蛛就开始针对网页上的链接,进行逐一跟踪爬行。比如我的置顶文章“SEO概述|什么是SEO SEO到底是干嘛的”,引擎就会多进程式的来到这篇文章所在的网页抓取信息,如此循坏,没有终结。

  信息过滤

  为了避免重复爬行和抓取网址,搜索引擎会有一个记录已爬行和未被爬行的地址库,如果你有一个新网站时,你可以去百度官网提交网站的网址,引擎就会记录它,并把它归类到未爬行的网址,然后蜘蛛就会根据这个表格,从数据库中提取URL,访问并抓取页面。

  蜘蛛并不会收录所有的页面,它要经过严格检测。当蜘蛛在爬行和抓取一个网页的内容时,会进行一定程度的复制内容检测,如果网页所在的网站权重低,而且大部分文章都是抄袭来的话,蜘蛛就很可能不喜欢你的网站了,不在继续爬行,也就不收录你的网站。

  建立网页关键词索引

  当蜘蛛抓取了一个页面之后,首先会对页面文字内容进行分析。通过分词技术,将网页的内容简化到关键词,并把关键词和对应的网址制成表格建立索引。

  索引又有正向索引和反向索引,正向索引是把网页内容对应的关键词,反向是关键词对应的网页信息。

  出结果

  当用户搜索了某个关键词之后,就会通过前面建立的索引表进行关键词匹配,通过反向索引表找到关键词对应的页面,通过引擎对网页综合评分计算以后,根据网页的评分来决定网页的先后顺序排名。那蜘蛛是如何对网页进行综合评分的呢?这里我们不多做分析,欢迎关注我的博客,在今后的文章里我会为大家分析揭秘搜索引擎的更多秘密。

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:百度  蜘蛛  如何  收录  一个  网站  搜索  搜索引擎  索引  引擎  
  • 相关搜索
图片推荐
    三星S6 edge Plus售价曝光 约合5432元

    三星S6 edge Plus售价曝光 约合5432元

    【手机中国 新闻】三星即将于8月13日举行新品发布会,传闻中三星S6 edge Plus将最终现身。而这样一款要同三星Note 5同台亮相,并将与下代iPhone一较高下的旗舰机型售价几何?相信不少网
    我为什么要关注你的号?请给我一个理由

    我为什么要关注你的号?请给我一个理由

    很多人都在思考同一个问题,我该如何推广我的公众号?这个想法没错,是每个建号的人都想知道的答案,可是在你绞尽脑汁想知道这个答案之前,请先回答我一个问题:我为什么要关注你的号?  有人说,因为关注我的号有
    关于创业合伙人的4个恐怖故事

    关于创业合伙人的4个恐怖故事

    导读:知名科技博客pandodaily的startups anonymous专栏中,创业者和投资人以匿名的身份,分享他们关于创业的体会。  当你第一次创业的时候,你必须要干很多的事情,结果往往没有一个
    浅析:百度竞价之着陆页效果分析

    浅析:百度竞价之着陆页效果分析

    前几天写了《百度竞价之单元成本核算》,《图解百度竞价分析之时段分析》两篇文章,被网络转载了多次,这也鼓励我今天接着写这篇文章-《百度竞价之着陆页效果分析》。做SEOer的朋友听起来可能有些糊涂,但是做
    靠卖萌打造出两款现象级产品 这群90后又创业成功了

    靠卖萌打造出两款现象级产品 这群90后又创业成功了

    摘要:这也是迄今为止,创业成功率最高的团队之一。推出的脸萌和Faceu,都在短时间内成为现象级产品。  那个被认为是昙花一现的90后创业团队,历时1年半,带着一款图聊软件杀回来,一周时间,就冲到了Ap
    QQ空间运营之如何快速增加用户粘度

    QQ空间运营之如何快速增加用户粘度

    无论是哪个平台,对于我们来说,我们所需要的不仅仅是我们粉丝的数量,更加重要的就是我们粉丝的质量。我们可以看到,现在很多的号基本是属于半残的状态,也就是说,你的号虽然有很多的粉丝,而且你的粉丝都是通过正
    被改造的面目全非的安卓系统闷声赚了310亿

    被改造的面目全非的安卓系统闷声赚了310亿

    文/康斯坦丁 (微信公众号:科技新发现)免费的产品、服务就不赚钱?看到这句话,奇虎360就偷偷地笑了。因为以免费杀毒软件及其他应用等为核心的奇虎360市值高达80亿美元,就这周鸿(微博)还不满意,吵着
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面