当前位置:首页什么是网页去重原理? 举报文章

什么是网页去重原理?

作者:admin    来源:用户投稿    时间:2015.6.10   

  注明:来之痞子瑞《SEO深度解析》书本知识,非常感谢作者给我们写了这么好SEO知识。

  【导读】在互联网如此发达的今天,同一个资料会在多个网站发布,同一新闻会被大部分媒体网站报道,再加上小站长和SEO人员孜孜不倦地网络采集,造成了网络上拥有大量的重复信息。然而当用户搜索某个关键词时,搜索引擎必定不想呈现给用户的搜索结果都是相同的内容。抓取这些重复的网页,在一定程度上就是对搜索引擎自身资源的浪费,因此去除重复内容的网站也成为了搜索引擎所面临的一大问题。

  在一般的搜索引擎架构中,网页去重一般在Spider抓取部分就存在了,“去重”步骤在整个搜索引擎架构中实施得越早,越可以节约后续处理系统的资源使用。搜索引擎一般会对已经抓取过的重复页面进行归类处理,比如,判断某个站点是否包含大量的重复页面,或者该站点是否完全采集其他站点的内容等,以决定以后对该站点的抓取情况或是否直接屏蔽抓取。

  去重的工作一般会在分词之后和索引之前进行(也有可能在分词之前),搜索引擎会在页面已经分出的关键词中,提取部分具有代表性的关键词,然后计算这些关键词的“指纹”。每一个网页都会有个这样的特征指纹,当新抓取的网页的关键词指纹和已索引网页的关键词指纹有重合时,那么该新网页就可能会被搜索引擎视为重复内容而放弃索引。

  实际工作中的搜索引擎,不仅仅使用分词步骤所分出的有意义的关键词,还会使用连续切割的方式提取关键词,并进行指纹计算。连续切割的方式提取关键词,并进行指纹计算,连切割就是以单个字向后移动的方式进行切割就是单个字向后移动的方式进行切词,比如,“百度开始打击买卖链接”会被切成“百度开”“度开始”“开始打”“始打击”“打击买”“击买卖”“买卖链”“卖链接”。然后从这些词中提取部分关键词进行指纹计算,参与是否重复内容的对比。这只是搜索引擎识别重复网页的基本算法,还有很多其他对付重复网页的算法。

  因此网络上流行的大部分伪原创工具,不是不能欺骗搜索引擎,就是把内容做的鬼都读不通,所以理论上使用普通伪原创工具不能得到搜索引擎的正常收录和排名。但是由于百度并不是对所有的重复页面都直接抛弃不索引,而是会根据重复网页所在网站的权重适当放宽索引标准,这样使得部分作弊者有机可乘,利用网站的高权重,大量采集其他站点的内容获取搜索流量。不过自2012年6月份以来,百度搜索多次升级算法,对采集重复信息、垃圾页面进行了多次重复级的打击。所以SEO在面对网站内容时,不应该再以伪原创的角度去建设,而需要以对用户有用的角度去建设,虽然后者的内容不一定全部是原创,一般如果网站权重没有大问题,都会得到健康的发展。关于原创问题,本书后续会在第12章进行详细讨论。

  另外,不仅仅是搜索引擎需要“网页去重”,自己做网站也需要对站内页面进行去重。比如分类信息、B2B平台等UGC类的网站,如果不加以限制,用户所发布的信息必然会有大量的重复,这样不仅在SEO方面表现不好,站内用户体验也会降低很多。有如SEO人员在设计流量产品常见的一般为以“聚合”为基础的索引页、专题页或目录页,“聚合”就必须有核心词,不加以过滤,海量核心词所扩展出来的页面就可能会有大量重复,从而导致该产品效果不佳,甚至会因此被搜索引擎降权。

  “去重”算法的大概原理一般就是如上所述,有兴趣的朋友可以了解一下I-Match、Shingle、SimHash及余弦去重具体算法。搜索引擎在做“网页去重”工作之前首先要分析网页,内容周围的“噪声”对去重结果多少会有影响,做这部分工作时只对内容部分操作就可以了,相对来说会简单很多,并且可以很有效地辅助产出高质量的“SEO产品”。作为SEO人员只要了解实现原理就可以了,具体在产品中的应用,需要技术人员来实现。此外还涉及效率、资源需求等问题,并且根据实际情况“去重”工作也可以在多个环节进行(比如对核心词的分词环节),SEO人员只要稍微了解一些原理,能够为技术人员建议几个方向就很不错了(技术人员并不是能的,也有不熟悉、不擅长的领域,在特定时刻也需要别人提供思路)。如果SEO人员能在这些方面和技术人员进行深入的交流,技术人员也会对SEO另眼相看,至少不会再认为“SEO人员就只会修改标题、改链接、改文字之类‘无聊’的需求”了。

  总结:在次感谢痞子瑞的怎么好的书本,妮子在SEO思维中,找到新的知识,去重,指纹原理。希望兄弟姐妹们可以去看看这本书,今天给大家分享一部分吧!往后的日子,看到好的知识点,会继续和大家分享了。

  可参考已经进行过去重处理网站:http://www.91suichediao.com/

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:什么  什么是  网页  原理  
  • 相关搜索
图片推荐
    全国多地网友遭亚马逊单方面取消订单

    全国多地网友遭亚马逊单方面取消订单

    双十一即将到来,相信不少网友都备足弹药准备投入血拼,然而,对于一些商家给出的不合常理的超低价建议需格外提防全球知名电子商务网站亚马逊就因以超低价吸引消费者但无法兑现而被推到了风口浪尖。近日,成都市民李
    机顶盒是家电里待机耗电最多的电器?

    机顶盒是家电里待机耗电最多的电器?

    在我们使用电器的时候,按下遥控器的待机键,电器即进入等待开机的状态,即为待机模式。有的电器虽然没有待机按钮,可如果没有切断电源,也相当于是在待机状态。在日常使用的众多电器中,机顶盒算是一个很不起眼的小
    大学生卧底2个多月 揭开淘宝卖家花钱刷单内幕

    大学生卧底2个多月 揭开淘宝卖家花钱刷单内幕

    图为:张严(化名)刷单后,于2月9日收到一个空包裹  到淘宝网上购物,很多人喜欢看卖家的成交量和买家评论。但是,如果这些成交量和好评不真实,那买家就可能被欺骗。  3个月前,家住武汉的大学生张严(化名
    《病毒式营销的载体——免费营销》

    《病毒式营销的载体——免费营销》

    互联网的最初阶段其实是一个免费性的网上冲浪接口,是并不包含任何商业性目的的,现在的很多人上网,其实也都是隐含着这种意识,那就是:互联网就是免费的。在互联网发展过一段时间后,自然而然的就有些人能够在上面
    怎样把公司卖个好价钱?人脉有时比产品更重要

    怎样把公司卖个好价钱?人脉有时比产品更重要

    移动互联网行业的并购近来层出不穷。一些创业公司以高价嫁入豪门的同时,一些拥有不错产品的新创公司,最终却关门大吉。为何这些公司的命运截然不同?据美国新闻网站BusinessInsider分析,对于希望被
    近期百度数据大幅度更新:收录和反链猛增

    近期百度数据大幅度更新:收录和反链猛增

    百度近期数据可以说一直在进行着更新,从未断过。而据了解就在12.3号,大批网站收录和反链暴涨,波及范围非常广,这肯定不是网站自身的变化,明显百度又抽了,笔者随机查看了3个站,个个命中,如下图:    
    马云:创业的机会就在有人抱怨的地方

    马云:创业的机会就在有人抱怨的地方

    马云在首尔大学演讲时,详细阐述了当今创业的机会点、如何成为一个伟大的公司。创造就业,帮助贫穷地区富起来,改变中国的环境。这是三项抱怨,也是三个机遇,任何人能解决这些问题,便可以长久活下来。在创业邦看来
    陈欧“清嗓”回归 能否重振“腹背受敌”的聚美优品?

    陈欧“清嗓”回归 能否重振“腹背受敌”的聚美优品?

    聚美优品从诞生之初就和假字一直纠缠在一起卖假货、做假账、假背景近日,继3家美国律师事务所宣布对聚美优品财务作假进行调查之后,又有两家律师事务所向聚美发起了攻击。股价连续下跌四个月后,聚美优品市值已经缩
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面