当前位置:首页百度蜘蛛是如何收录一个网站的|搜索引擎工作全过程揭秘 举报文章

百度蜘蛛是如何收录一个网站的|搜索引擎工作全过程揭秘

作者:admin    来源:用户投稿    时间:2015.8.25   

  搜索引擎工作过程非常复杂,今天和大家分享一下我所了解的百度蜘蛛是怎么实现网页收录的。

  搜索引擎工作大致可以分为四个过程。

  1、蜘蛛爬行抓取。

  2、信息过滤。

  3、建立网页关键词索引。

  4、用户搜索出结果。

  蜘蛛爬行抓取

  当百度蜘蛛来到一个页面时,它会跟踪页面上的链接,从这个页面爬行到下一个页面,就好像一个递归过程,这样常年累月,不止疲倦的工作。比如蜘蛛来到了我的博客首页http://blog.sina.com.cn/netseoer,它会先读取根目录下的robots.txt文件,如果没有禁止搜索引擎抓取,那么蜘蛛就开始针对网页上的链接,进行逐一跟踪爬行。比如我的置顶文章“SEO概述|什么是SEO SEO到底是干嘛的”,引擎就会多进程式的来到这篇文章所在的网页抓取信息,如此循坏,没有终结。

  信息过滤

  为了避免重复爬行和抓取网址,搜索引擎会有一个记录已爬行和未被爬行的地址库,如果你有一个新网站时,你可以去百度官网提交网站的网址,引擎就会记录它,并把它归类到未爬行的网址,然后蜘蛛就会根据这个表格,从数据库中提取URL,访问并抓取页面。

  蜘蛛并不会收录所有的页面,它要经过严格检测。当蜘蛛在爬行和抓取一个网页的内容时,会进行一定程度的复制内容检测,如果网页所在的网站权重低,而且大部分文章都是抄袭来的话,蜘蛛就很可能不喜欢你的网站了,不在继续爬行,也就不收录你的网站。

  建立网页关键词索引

  当蜘蛛抓取了一个页面之后,首先会对页面文字内容进行分析。通过分词技术,将网页的内容简化到关键词,并把关键词和对应的网址制成表格建立索引。

  索引又有正向索引和反向索引,正向索引是把网页内容对应的关键词,反向是关键词对应的网页信息。

  出结果

  当用户搜索了某个关键词之后,就会通过前面建立的索引表进行关键词匹配,通过反向索引表找到关键词对应的页面,通过引擎对网页综合评分计算以后,根据网页的评分来决定网页的先后顺序排名。那蜘蛛是如何对网页进行综合评分的呢?这里我们不多做分析,欢迎关注我的博客,在今后的文章里我会为大家分析揭秘搜索引擎的更多秘密。

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:百度  蜘蛛  如何  收录  一个  网站  搜索  搜索引擎  索引  引擎  
  • 相关搜索
图片推荐
    三星辉煌已成过去 为保留市场份额苦苦争斗

    三星辉煌已成过去 为保留市场份额苦苦争斗

    [摘要]三星未来无力在硬件上与苹果在高端市场竞争,且将继续落后于苹果。  腾讯科技讯 8月4日,凭借着Galaxy系列智能手机在市场中的巨大成功,三星电子过去四年通过与苹果争夺高端智能手机市场收获了数
    红海沸腾 法则改变:移动互联网创业潮再袭来

    红海沸腾 法则改变:移动互联网创业潮再袭来

    导读:尽管参与者众多但幸运儿寥寥,尽管陷阱密布却又机遇无限,吸引了一批批的创业者前仆后继。  在移动互联网大会上,台下创业者与行业人士等待嘉宾演讲  5月5日开幕的全球移动互联网大会点燃了北京的初夏,
    瑞丽算法cn域名降权事件分析

    瑞丽算法cn域名降权事件分析

    元旦过后君羊SEO上班的第一天,刚打开QQ,发现好几个QQ群都在讨论这次的百度元旦期间推出的瑞丽算法,根据大家的聊天内容来看,这次百度出现大面积的集体降权事件,导致了大约5%的网站出现排名降低,收录减
    借助热点事件来炒作:玩坏朋友圈真的好吗

    借助热点事件来炒作:玩坏朋友圈真的好吗

    前段时间优衣库事件火了,于是许多微信账号都在转发关于优衣库的新闻内容。而这种借助于热点事件来增加访问量的行为被称为借势营销,互联网上的热点新闻太多了。当然这些热点新闻都会吸引大批网友围观和点击,微信公
    上榜啦倾情推出 2015十佳美国VPS/云主机

    上榜啦倾情推出 2015十佳美国VPS/云主机

    上榜啦(www.shangbang.la)继推出十佳美国主机后,再次倾情推出2015十佳美国VPS/云主机排行榜,不仅详细介绍上榜的美国VPS/云主机性能配置、价格,还综合比较各主机产品,为用户选择V
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面