当前位置:首页翻页式网页搜索引擎是如何抓取的 举报文章

翻页式网页搜索引擎是如何抓取的

作者:admin    来源:用户投稿    时间:2015.6.10   

  Spider系统的目标就是发现并抓取互联网中一切有价值的网页,百度官方也明确表示蜘蛛只可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,也就是说蜘蛛不会抓取所有网站的所有页面,对此蜘蛛有很多的抓取策略来尽量快而全的发现资源链接,提高抓取效率。只有这样蜘蛛才能尽量满足绝大部分网站,这也是为什么我们要做好网站的链接结构,接下来木木SEO就只针对一种蜘蛛对翻页式网页的抓住机制来发表一点看法。(本文暂不考率其它抓取机制,单从一个点分析)

  为什么需要这个抓取机制?

  当前大多数网站都用翻页的形式来有序分布网站资源,当有新文章增加时,老资源往后推移到翻页系列中。对蜘蛛来说,这种特定类型的索引页是爬行的有效渠道,但是蜘蛛爬行频率和网站文章更新频率不尽相同,文章链接很有可能就被推到翻页条中,这样蜘蛛不可能每天从第1个翻页条爬到第80个,然后一个文章一个文章的抓取,到数据库对比,这样太浪费蜘蛛时间,也浪费你网站的收录时间,所以蜘蛛需要对这种特殊类型的翻页式网页来一个额外的抓取机制,从而保证收录资源的完全。

  如何判断是否是有序翻页式页面?

  判断文章是否按发布时间有序排布是这类页面的一个必要条件,下面会说到。那么如何判断资源是否按发布时间有序排布呢?有些页面中每个文章链接后面跟随着对应的发布时间,通过文章链接对应的时间集合,判断时间集合是否按大到小或小到大排序,如果是的话,则说明网页中的资源是按发布时间有序排布,反之亦然。就算没写发布时间,蜘蛛写可以根据文章本身的实际发布时间进行判断。

  该抓取机制原理?

  针对这种翻页式页面,蜘蛛主要是通过记录每次抓取网页发现的文章链接,然后将此次发现的文章链接与历史上发现的链接作比较,如果有交集,说明该次抓取发现了所有的新增文章,可以停止对后面翻页条的抓取了;否则,说明该次抓取并未发现所有的新增文章,需要继续抓取下一页甚至下几页来发现所有的新增文章。

  听起来可能有点不大懂,木木seo来举个很简单的例子,比如在网站翻页目录新添加了29篇文章,也就是说上次最新一篇是第30篇,而蜘蛛是一次性抓取10篇文章链接,这样蜘蛛第一次进行抓取时抓了10篇,与上次并没有交集,继续抓取,第二次又抓10篇,也就是一共抓20篇了,还是与上一次没有交集,然后继续抓取,这一次就抓到了第30篇,也就是和上次的有交集了,这就说明蜘蛛已经抓取了从上次抓取到这次网站更新的全部29篇文章。

  建议

  当前百度蜘蛛对网页的类型,网页中翻页条的位置,翻页条对应的链接,以及列表是否按照时间排序都会做相应的判断,并根据实际的情况进行处理,但是蜘蛛毕竟不能做到100%的识别准确率,所以如果站长在做翻页条时不要用JS,更不要用FALSH,同时要有频率的进行文章更新,配合蜘蛛的抓取,这样就可以极大地提高蜘蛛识别的准确率,从而提高蜘蛛在你网站的抓取效率。

  再次提醒大家本文只是从蜘蛛一个抓取机制进行的解说,不代表蜘蛛就此一种抓取机制,在实际情况中是很多机制同时进行的。作者:木木SEO http://blog.sina.com.cn/mumuhouzi

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:翻页  网页  搜索  搜索引擎  索引  引擎  如何  抓取  
  • 相关搜索
图片推荐
    谈谈企业如何做好邮箱推广 充分利用好大数据

    谈谈企业如何做好邮箱推广 充分利用好大数据

    在互联网时代,如何利用好大数据,是企业网络营销最重要的法宝,可以说,数据就是用户,用户给企业带来利润,在众多的推广方式中,移动端的微信公众号似乎成了炙手可热的热门推广,而传统的一些互联网推广方式,好像
    细数企业微信营销中存在的问题

    细数企业微信营销中存在的问题

    微信是日常交流和沟通的必要介质,同时是移动终端最具代表性的点对点式营销平台,给更多的个人和企业带来了新的市场机遇和发展前景,但诸多优点的背后也会存在诸多问题,再好的产品运营不好只会不断造就问题,这对于
    芒果TV的市场化桎梏:难摆脱对湖南台依赖?

    芒果TV的市场化桎梏:难摆脱对湖南台依赖?

    在高度市场化竞争的网络视频行业,从传统电视台走出的芒果TV无疑是一个陌生的闯入者,在以70亿元估值完成A轮5亿融资后,外界关心的是,芒果TV未来能否威胁现有视频行业市场格局?先看一下芒果TV的发展现状
    探讨百度微博搜索排序影响因素

    探讨百度微博搜索排序影响因素

    如今微博越来越流行,已经成为年轻网民的最爱,由此引来了微博营销,现在微博最大的竞争对手是微信,百度也推出了微博搜索。也就是可以直接搜索到微博信息,数据来源主要是:新浪微博、腾讯微博、网易微博、搜狐微博
    怒抢荣耀7风头 小米Note全网通版本6月29日发布!

    怒抢荣耀7风头 小米Note全网通版本6月29日发布!

    月16日消息,自从小米Note推出一来,有一点一直让不少用户不满,那就是缺少电信版,当初小米Note顶配版发布的时候,雷军介绍手机信息的微博被没有电信版等类似的字眼刷屏了。经过一段时间的等待,小米No
    内页收录停滞不前 你是否考虑过以下致命原因

    内页收录停滞不前 你是否考虑过以下致命原因

    网站的收录情况一直是站长们所关注的一项关键指标数据,很大程度上,收录情况影响到站点的排名流量情况。在随着百度推出的绿萝和石榴算法之后我们可以发现百度蜘蛛对于内页的爬行要求越来越高了,假如我们的内页在一
    阿里京东互进对方后院:两大电商的自由与尴尬

    阿里京东互进对方后院:两大电商的自由与尴尬

    面对这样一幕,京东创始人刘强东的心理也许很复杂吧:昨日,淘宝跑到江苏沐阳,牵手与当地政府,将帮助化解当地优势花木产业电商化进程中的诚信问题。双方为此专门成立一个1000万元的诚信保障基金,主要解决当地
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面