当前位置:首页百度关于网站的抓取和索引解析 举报文章

百度关于网站的抓取和索引解析

作者:admin    来源:用户投稿    时间:2015.6.10   

  28号百度官方发布了《搜索引擎索引系统概述》,对搜索引擎如何抓取页面、如何索引、如何排序,给了一个大致的阐述。那么对于网站管理者,如何利用这些规则,使网站上优秀的内容,更好的展现给用户呢?在Q猪看来,需要解决以下几个问题:

  第一个问题、如何充分抓取网站数据

  分析:从网站的结构层面来解释这个问题,要使百度充分收录网站页面,就需要尽可能的让搜索引擎蜘蛛最大化的爬行网站,这就需要一个简单明了、层次分明的网站结构。对于什么是合理的网站结构,百度的很多文件都有提及,就是网状扁平树形结构。

  1、网状保证每个页面都至少有一个文本链接指向,可以使网站尽可能全面的被抓取收录,内链建设同样对排序能够产生积极作用。

  2、扁平保证从首页到内页的层次尽量少,既对抓取友好又可以很好的传递权重。

  3、典型的树形结构是:首页-频道页-内容页

  为了加强搜索引擎对每个页面在整个网站中的位置感,我们增加了导航,包括顶部、面包屑、底部导航等,需要说明的是,导航的最主要目的只是为了确定页面在网站中的位置,导航才是这些链接最主要的属性,所以尽量做到自然,不要堆积关键词。

  和导航类似的一个功能就是URL的规范化,一个简洁美观的URL,不仅可以使用户和搜索引擎很自然的明白页面的主要内容,并可以兼具网站位置导航功能。同样,Q猪需要强调的是,URL尽量的简短,在中文搜索优化中,URL是否包含关键词对页面的排名作用不大,类如Q猪的这篇文章:百度关于搜索原理的阐述,URL1是/seo/baiduguanyusousyuanlidechanshu.html,URL2是/seo/123.html,Q猪的选择是URL2。

  在搜索引擎抓取页面时,有两个问题是需要特别注意的:就是内容不要重复,页面观点不要重复,前者为了确定页面内容的唯一性,保护内容的原创性,增加搜索引擎对网站的评分,后者是为了避免不必要的内部竞争。

  第二个问题、搜索引擎如何索引

  分析:用户在搜索框中入关键词、句,搜索引擎在出结果之前,是需要对网络上亿级的页面进行分析整理后存入数据库中,并建立索引,在用户入关键词时,再按照重要性,从高到低排序呈现给用户,也解释了,为什么搜索引擎可以在用户入关键词后,短短几毫秒间就可以出结果。

  那么,搜索引擎是如何分析网站页面,并建立索引的呢?

  目前所有的引擎对页面内容的分析都是通过不断的识别、标记,每一个URL都带上不同的标签,存入数据库,再根据原创性、页面权重等因素进行排序。还是以Q猪的这篇“百度关于搜索原理的阐述”为例,通过识别可以将这段文字,分成:百度、关于、搜索、原理、的、阐述。具体关于搜索引擎如何分词,可以看下Q猪的另一篇文章:搜索引擎如何理解文件。

  需要指出的是,搜索引擎页面分析的过程实际上是将原始页面的不同部分进行识别并标记,例如:title、keywords、content、link、anchor、评论、其他非重要区域等等,所以在页面优化时,需要特别注意标题、关键词布局、主体内容、内外链的描述、评论。

  第三个问题、搜索引擎如何出结果

  分析:对内容进行标记并索引以后,在用户检索关键词时,搜索引擎就可以按照不同的组合,结合各种排名算法因素,按重要性倒序出各种结果。

  举例:

  百度-0x123abc

  关于-0x13445d

  搜索-0x234d

  原理-0x145cf

  阐述-0x354df

  每一个分词下,都有不同的页面:

  0x123abc-1,3,4,7,8,11。。

  0x13445d-2,5,8,9,11

  如果要检索的关键词为:0x123abc+0x13445d,那么8和11将符合结果。

  需要指出的是,对于符合要求的结果还要经过层层的过滤,包括过滤掉死链、重复数据、色情、垃圾结果以及你懂的。。。将最能满足用户需求的结果排序在最前,可能包括的有用信息如:网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等等,详细内容可以看看Q猪的哪些因素可以提升网站的排名。

  本文由桐乡SEO(http://www.seozoro.com/)原创发布,尊重作者版权,转载请注明出处。

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:百度  关于  网站  抓取  索引  解析  
  • 相关搜索
图片推荐
    你还在为网站外链而发愁吗?手把手教去规划网站外链

    你还在为网站外链而发愁吗?手把手教去规划网站外链

    虽然说在这个以户体验为王的时代,网站的外链在关键词排名当中已经起不到很大的作用了,但是不得不说网站的外链对于一个刚刚上线的新网站来说,不管是在增加网站权重以及引流的的方面上还是具有一定的价值的,所以说
    周鸿祎:地在人失,人地皆失。地失人在,人地皆得

    周鸿祎:地在人失,人地皆失。地失人在,人地皆得

    毛泽东曾经有句著名的话从群众中来,到群众中去。《毛泽东选集》第一卷开首就提出:谁是我们的朋友,谁是我们的敌人,这个问题是革命的首要问题。2010年的夏天,我写了一篇博文,题目是《从用户中来,到用户中去
    打工仔:如何来做微创业

    打工仔:如何来做微创业

    1.  微创业指的是:用微小的成本进行创业,或者在细微的领域进行创业。  这事如何放在十五年前,那是肯定行不通的。  但是现在不一样,网络时代嘛,人力,资源,信息都无缝衔接在这张网中,  而创业,做生
    84 寸的微软平板来了,一台卖 2 万美元

    84 寸的微软平板来了,一台卖 2 万美元

    在中国还买不到  把办公室的电视换成平板?这是微软想要的。但是你想要的吗?  微软做了个超大屏的平板,但进展有点慢。换了一拨儿 CEO,从鲍尔默到纳德拉,84 寸的 Surface Hub 终于定价了
    独家:窝窝上市会引发O2O连锁效应

    独家:窝窝上市会引发O2O连锁效应

    速途网4月9日特评(速途研究院院长 丁道师)北京时间2015年4月8日晚上10点,大部分人开始准备入睡的时候,窝窝没有经过任何宣布忽然就成功的赴美上市,开盘后股价涨涨跌跌,揪住了所有人脆弱的心脏。  
    论乏味的资本主导的互联网创业 不但乏味 而且丑陋

    论乏味的资本主导的互联网创业 不但乏味 而且丑陋

    摘要:但这才是互联网创业,不是吗?研究用户,钻研技术,打磨产品,把握这个行业带给你的机会,不断创造奇迹,而不是融资,融资,融资,然后跟另一个资本恐龙合并,终结竞争。  2012年,程维创办滴滴出行的前
    俏十岁“打脸”央视:否认面膜检测超标

    俏十岁“打脸”央视:否认面膜检测超标

    【亿邦动力网讯】4月11日消息,昨日,央视新闻频道《新闻直播间》栏目对微商面膜的揭露报道引起广泛关注,其中更是直接对思埠、俏十岁两大微商品牌点名。昨晚,俏十岁正式发布了对该报道的回应,称俏十岁是无故躺
    百度网页搜索结果网址分享--SEO人岂能不知

    百度网页搜索结果网址分享--SEO人岂能不知

    废话靠边,先说什么是百度网页搜索结果网址分享?有图有真相    说明:百度自身的产品不能分享、竞价推广的不能分享  大家了解这个的基础上,百度还有一个分享是2012.1.11上线的分享(也叫大拇指),
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面