当前位置:首页SEO案例:浅析爬虫的不重复抓取策略 举报文章

SEO案例:浅析爬虫的不重复抓取策略

作者:admin    来源:用户投稿    时间:2015.6.10   

  不重复抓取?有很多初学者可能会觉得。爬虫不是有深度优先和广度优先两种抓取策略吗?你这怎么又多出来一个不重复抓取策略呢?其实我这几天有不止一次听到了有人说要在不同页面增加同一页面链接,才能保证收录。我想真能保证吗?涉及收录问题的不止是抓没抓吧?也从而延伸出今天的这篇文章,不重复抓取策略,以说明在一定时间内的爬虫抓取是有这样规则的,当然还有很多其他的规则策略,以后有机会再说,例如优先抓取策略、网页重访策略等等。

  回归正题,不重复抓取,就需要去判断是否重复。那么就需要记住之前的抓取行为,我们举一个简单的例子。你在我的QQ群(9060800)里看到我发了一个URL链接,然后你是先看到了我发的这个链接,然后才会点击并在浏览器打开看到具体内容。这个等于爬虫看到了后才会进行抓取。那怎么记录呢?我们下面看一张图:

  

不重复

  如上图,假设这是一个网页上所有的链接,当爬虫爬取这个页面的链接时就全部发现了。当然爬取(理解为发现链接)与抓取(理解为抓取网页)是同步进行的。一个发现了就告诉了另外一个,然后前面的继续爬,后面的继续抓。抓取完了就存起来,并标记上,如上图,我们发现第2条记录和第6条记录是重复的。那么当爬虫抓取第二条后,又爬取到了第6条就发现这条信息已经抓取过了,那么就不再抓取了。爬虫不是尽可能抓更多的东西吗?为什么还要判断重复的呢?

  其实,我们可以想一下。互联网有多少网站又有多少网页呢?赵彦刚是真没查证过,但这个量级应该大的惊人了。而本身搜索引擎的爬取和抓取都是需要执行一段代码或一个函数。执行一次就代表着要耗费一丁点资源。如果抓取的重复量级达到百亿级别又会让爬虫做多少的无用功?耗费搜索引擎多大的成本?这成本就是钱,降低成本就是减少支出。当然不重复抓取不光体现在这里,但这个是最显而易见的。你要知道的就是类似于内容详情页的热门推荐、相关文章、随机推荐、最新文章的重复度有多大?是不是所有页面都一样?如果都一样,那么可以适当调整下,在不影响网站本身的用户体验前提下,去适当做一些调整。毕竟网站是给用户看的,搜索引擎只是获取流量的一个重要入口,一种营销较为重要的途径!

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:案例  浅析  不重  重复  抓取  策略  
  • 相关搜索
图片推荐
    细节决定SEO技术的优化成败

    细节决定SEO技术的优化成败

    SEO技术说起来容易,但是做起来是十分的难的,尤其是我们在使用特定的SEO技术的时候更是如此,比如说我们使用软文进行优化,这个优化的基础就是必须有大量的软文,而这些大量的软文到底是应当在哪里找到呢?当
    淘宝客的“云图”

    淘宝客的“云图”

    《云图》(Cloud Atlas)是一部佳作,自然值得一看,再看,三看;如同一本好书,细细品味,余香不绝;这部电影是从凌晨时分开始看,影片的长度超乎想像,画面的转换更是挑战思维极限。六个故事轮番叙述铺
    安东胜:创业成功之路,人品不好者难成大事

    安东胜:创业成功之路,人品不好者难成大事

    最近我一直在思考,为何如今的成功者中品行不好的卑鄙者鲜少有呢?当然,我们生活中卑鄙的人可不是少数,尽管卑鄙的人很多,但是成功者里鲜有存在,难道说,成功和卑鄙是互斥的吗?  我的这种想法或许是因为视角的
    微信朋友圈营销:如何寻找潜在客户?

    微信朋友圈营销:如何寻找潜在客户?

    您经常玩微信吧?您经常用微信朋友圈吧?微信的广泛使用,已经让很多人嗅到了商业的气味,比方说,您是不是经常在微信朋友圈看到:如果喜欢此文请转发;或者页尾会备注,欢迎关注某某公众号之类的!这都是微信朋友圈
    傅盛:创业为什么选择北上广深?

    傅盛:创业为什么选择北上广深?

    摘要:看到知乎上的一个问题为什么现在很多年轻人愿意到北上广深打拼,即使过得异常艰苦,远离亲人,仍然义无反顾?,13年时候我也曾经就我为什么要留在北京?有类似的疑问,节选部分知友和我的观点,跟远离家乡在
    万众创业 其实是骗局

    万众创业 其实是骗局

    为什么国家会提倡万众创业?因为社会就业压力变大,只能这样号召,马云曾说:我基本不响应政府的号召,原因是什么?你必须判断这样下去,政府在十年以后一定会做这件事情,所以你现在先把它做起来,等政府一号召,没
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面