当前位置:首页百度关于网站的抓取和索引解析 举报文章

百度关于网站的抓取和索引解析

作者:admin    来源:用户投稿    时间:2015.6.10   

  28号百度官方发布了《搜索引擎索引系统概述》,对搜索引擎如何抓取页面、如何索引、如何排序,给了一个大致的阐述。那么对于网站管理者,如何利用这些规则,使网站上优秀的内容,更好的展现给用户呢?在Q猪看来,需要解决以下几个问题:

  第一个问题、如何充分抓取网站数据

  分析:从网站的结构层面来解释这个问题,要使百度充分收录网站页面,就需要尽可能的让搜索引擎蜘蛛最大化的爬行网站,这就需要一个简单明了、层次分明的网站结构。对于什么是合理的网站结构,百度的很多文件都有提及,就是网状扁平树形结构。

  1、网状保证每个页面都至少有一个文本链接指向,可以使网站尽可能全面的被抓取收录,内链建设同样对排序能够产生积极作用。

  2、扁平保证从首页到内页的层次尽量少,既对抓取友好又可以很好的传递权重。

  3、典型的树形结构是:首页-频道页-内容页

  为了加强搜索引擎对每个页面在整个网站中的位置感,我们增加了导航,包括顶部、面包屑、底部导航等,需要说明的是,导航的最主要目的只是为了确定页面在网站中的位置,导航才是这些链接最主要的属性,所以尽量做到自然,不要堆积关键词。

  和导航类似的一个功能就是URL的规范化,一个简洁美观的URL,不仅可以使用户和搜索引擎很自然的明白页面的主要内容,并可以兼具网站位置导航功能。同样,Q猪需要强调的是,URL尽量的简短,在中文搜索优化中,URL是否包含关键词对页面的排名作用不大,类如Q猪的这篇文章:百度关于搜索原理的阐述,URL1是/seo/baiduguanyusousyuanlidechanshu.html,URL2是/seo/123.html,Q猪的选择是URL2。

  在搜索引擎抓取页面时,有两个问题是需要特别注意的:就是内容不要重复,页面观点不要重复,前者为了确定页面内容的唯一性,保护内容的原创性,增加搜索引擎对网站的评分,后者是为了避免不必要的内部竞争。

  第二个问题、搜索引擎如何索引

  分析:用户在搜索框中入关键词、句,搜索引擎在出结果之前,是需要对网络上亿级的页面进行分析整理后存入数据库中,并建立索引,在用户入关键词时,再按照重要性,从高到低排序呈现给用户,也解释了,为什么搜索引擎可以在用户入关键词后,短短几毫秒间就可以出结果。

  那么,搜索引擎是如何分析网站页面,并建立索引的呢?

  目前所有的引擎对页面内容的分析都是通过不断的识别、标记,每一个URL都带上不同的标签,存入数据库,再根据原创性、页面权重等因素进行排序。还是以Q猪的这篇“百度关于搜索原理的阐述”为例,通过识别可以将这段文字,分成:百度、关于、搜索、原理、的、阐述。具体关于搜索引擎如何分词,可以看下Q猪的另一篇文章:搜索引擎如何理解文件。

  需要指出的是,搜索引擎页面分析的过程实际上是将原始页面的不同部分进行识别并标记,例如:title、keywords、content、link、anchor、评论、其他非重要区域等等,所以在页面优化时,需要特别注意标题、关键词布局、主体内容、内外链的描述、评论。

  第三个问题、搜索引擎如何出结果

  分析:对内容进行标记并索引以后,在用户检索关键词时,搜索引擎就可以按照不同的组合,结合各种排名算法因素,按重要性倒序出各种结果。

  举例:

  百度-0x123abc

  关于-0x13445d

  搜索-0x234d

  原理-0x145cf

  阐述-0x354df

  每一个分词下,都有不同的页面:

  0x123abc-1,3,4,7,8,11。。

  0x13445d-2,5,8,9,11

  如果要检索的关键词为:0x123abc+0x13445d,那么8和11将符合结果。

  需要指出的是,对于符合要求的结果还要经过层层的过滤,包括过滤掉死链、重复数据、色情、垃圾结果以及你懂的。。。将最能满足用户需求的结果排序在最前,可能包括的有用信息如:网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等等,详细内容可以看看Q猪的哪些因素可以提升网站的排名。

  本文由桐乡SEO(http://www.seozoro.com/)原创发布,尊重作者版权,转载请注明出处。

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:百度  关于  网站  抓取  索引  解析  
  • 相关搜索
图片推荐
    浅析:网站优化之负面排名的因素有哪些

    浅析:网站优化之负面排名的因素有哪些

    每一位站长都希望自己的网站建成之后,能在几个月内冲到百度首页,然后开始赚钱,这是每一位站长的梦想,但是我们有这个目标后,我们也应该多了解一下,如何让一个网站能够健康发展,做到让蜘蛛喜欢,让用户喜欢,这
    古华京:六大做微商的误区

    古华京:六大做微商的误区

    同学们,近来,关于微商售假、微商传销、微商透支信任关系等评论此起彼伏,随着央视等媒体的连篇累牍的报道追踪,微商的负面形象在用户的心目中越积越深,对微商的误解也与日剧增。下面笔者就纠正一下对微商的误解都
    李开复:台湾创业环境需下重药医治

    李开复:台湾创业环境需下重药医治

    李开复:台湾创业环境需下重药医治  新浪科技讯 10月29日中午消息,据台湾《联合报》报道,创新工场CEO李开复近日表示,台湾的创业环境充满困难与危机,台湾创业者不能再以台湾小市场为目标,而是要放眼全
    百度策略对网页质量的压迫,命运堪忧的B2B该何去何从

    百度策略对网页质量的压迫,命运堪忧的B2B该何去何从

    五月将尽,在这个充满黑暗的五月份,百度发布了《百度网页搜索质量白皮书》,虽然白皮书还只是大纲,但已经让很多站长的小心脏承受不住,而且有不少站长因网站索引量大跌和网站权重被降而处于精神崩溃的边缘,尤其是
    只有坚持还不够 为什么你的网站上不了百度首页

    只有坚持还不够 为什么你的网站上不了百度首页

    想上百度首页吗?想,谁不想我也想!可是,有时候你觉得自己明明已经很努力了,每天坚持做的优化也很多,文章外链也发了很多,但是排名却一直上不去。这是为什么呢?其实想让百度排名上去,坚持固然重要,一些细节同
    帮黄瓜贴二维码 千米网杀入农产品市场

    帮黄瓜贴二维码 千米网杀入农产品市场

    3月3日消息,据获悉,国内电商系统及服务提供商千米网日前推出了以二维码为核心的农产品电商解决方案,借此杀入农产品电商市场。    据了解,该二维码可作为农产品的唯一标识,贯穿从生产、采购、流通到销售的
    全球互联网上十大访问量最大的网站

    全球互联网上十大访问量最大的网站

    1.Facebook.com - 8.367亿独立访问者:Facebook创始人兼CEO马克·扎克伯格(Mark Zuckerberg),在哈佛二年级的时候,发布了这一网站。起初这一网站仅向哈佛学生开
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面