当前位置:首页看百度如何判断原创内容 谈谈原创项目那点事 举报文章

看百度如何判断原创内容 谈谈原创项目那点事

作者:admin    来源:用户投稿    时间:2015.6.10   

  一、搜索引擎为什么要重视原创

  1.1 采集泛滥化

  来自百度的一项调查显示,超过80%的新闻和资讯等都在被人工转载或机器采集,从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测,甚至高校图书馆发的催还通知都有站点在做机器采集。可以说,优质原创内容是被包围在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艰难又具有挑战性的事情。

  1.2 提高搜索用户体验

  数字化降低了传播成本,工具化降低了采集成本,机器采集行为混淆内容来源降低内容质量。采集过程中,出于无意或有意,导致采集网页内容残缺不全,格式错乱或附加垃圾等问题层出不穷,这已经严重影响了搜索结果的质量和用户体验。搜索引擎重视原创的根本原因是为了提高用户体验,这里讲的原创为优质原创内容。

  1.3 鼓励原创作者和文章

  转载和采集,分流了优质原创站点的流量,不再具属原创作者的名称,会直接影响到优质原创站长和作者的收益。长期看会影响原创者的积极性,不利于创新,不利于新的优质内容产生。鼓励优质原创,鼓励创新,给予原创站点和作者合理的流量,从而促进互联网内容的繁荣,理应是搜索引擎的一个重要任务。

  二、采集很狡诈,识别原创很艰难

  2.1 采集冒充原创,篡改关键信息

  当前,大量的网站批量采集原创内容后,用人工或机器的方法,篡改作者、发布时间和来源等关键信息,冒充原创。此类冒充原创是需要搜索引擎识别出来予以适当调整的。

  2.2 内容生成器,制造伪原创

  利用自动文章生成器等工具,“独创”一篇文章,然后安一个吸引眼球的title,现在的成本也低得很,而且一定具有独创性。然而,原创是要具有社会共识价值的,而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。内容虽然独特,但是不具社会共识价值,此类伪原创是搜索引擎需要重点识别出来并予以打击的。

  2.3 网页差异化,结构化信息提取困难

  不同的站点结构化差异比较大,html标签的含义和分布也不同,因此提取关键信息如标题、作者和时间的难易程度差别也比较大。做到既提得全,又提得准,还要最及时,在当前的中文互联网规模下实属不易,这部分将需要搜索引擎与站长配合好才会更顺畅的运行,站长们如果用更清晰的结构告知搜索引擎网页的布局,将使搜索引擎高效地提取原创相关的信息。

  三、百度识别原创之路如何走?

  3.1 成立原创项目组,打持久战

  面对挑战,为了提高搜索引擎用户体验、为了使优质原创者原创网站得到应有的收益、为了推动中文互联网的前进,我们抽调大量人员组成原创项目组:技术、产品、运营、法务等等,这不是临时组织不是1个月2个月的项目,我们做好了打持久战的准备。

  3.2 原创识别“起源”算法

  互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,千头绪。我们的原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。

  目前,通过我们的实验以及真实线上数据,“起源”算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。当然,其他领域还有更多的原创问题等待“起源”去解决,我们坚定的走着。

  3.3 原创星火计划

  我们一直致力于原创内容的识别和排序算法调整,但在当前互联网环境下,快速识别原创解决原创问题确实面临着很大的挑战,计算数据规模庞大,面对的采集方式层出不穷,不同站点的建站方式和模版差异巨大,内容提取复杂等等问题。这些因素都会影响原创算法识别,甚至导致判断出错。这时候就需要百度和站长共同努力来维护互联网的生态环境,站长推荐原创内容,搜索引擎通过一定的判断后优待原创内容,共同推进生态的改善,鼓励原创,这就是“原创星火计划”,旨在快速解决当前面临的严重问题。另外,站长对原创内容的推荐,将应用于“起源”算法,进而帮助百度发现算法的不足,不断改进,用更加智能的识别算法自动识别原创内容。

  目前,原创星火计划也取得了初步的效果,一期对部分重点原创新闻站点的原创内容在百度搜索结果中给予了原创标记、作者展示等等,并且在排序及流量上也取得了合理的提升。

  最后,原创是生态问题,需要长期的改善,我们将持续投入,与站长携手推动互联网生态的进步;原创是环境问题,需要大家来共同维护,站长们多做原创,多推荐原创,百度将持续努力改进排序算法,鼓励原创内容,为原创作者、原创站点提供合理的排序和流量。

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:谈谈  百度  如何  如何判断  判断  原创  内容  项目  那点  
  • 相关搜索
图片推荐
    如何管理团队?出色的管理者们都是如何做的?

    如何管理团队?出色的管理者们都是如何做的?

    有人说,管理是一门学科,因为它有着成套的理论和指导依据;也有人说,管理是一种为人处世的技能,因为它时时在与人打交道。但其实管理更是一种能力,它不仅要求管理者要有精明头脑还要有敢于尝试的胆识。今天,我们
    小米4i国行版将上市 超低价格或卖899元

    小米4i国行版将上市 超低价格或卖899元

    印度首发上市的小米 4i 即将登陆国内,安卓小王子售价成为大家猜测的对象,不过据最新消息爆料,小米 4i 不要 1499 元,也不要 1299 元,更不是 999 元,只要 899 元,比起国际版价格
    双十一那么嗨 暗战的生鲜电商们怎么办?

    双十一那么嗨 暗战的生鲜电商们怎么办?

    生鲜电商作为电商行业最难啃的一块骨头,也是最后一片蓝海。目前市场主要分为三大阵营。一类是以在天猫、京东等为代表的平台型电商;一类是以顺丰优选为代表综合性食品电商;还有一类就是如本来生活网这样的垂直型生
    百度指数改版之简单分析陈述

    百度指数改版之简单分析陈述

    今天习惯的去百度指数去查看词语,发现百度指数改版了,就新版百度指数,一个简单的介绍和分析。  需登录查看关键词情况  和之前老版本不一样的是新版百度指数需要用户登录,这一点和淘宝指数相同。  上面图片
    网店提高品牌价值感要从哪里着手

    网店提高品牌价值感要从哪里着手

    6月4日在去工厂搬仓库的时候,我才得知原来我们的库存量如此之大,秋冬装、春装、夏装加起来总共有将近2万件的库存,就这些成本而言,积压的资金将达到了一百万元以上,因此,在最近店铺调整的方向上,老板提出了
    邱成仪:创业之前一定要搞定域名

    邱成仪:创业之前一定要搞定域名

    近日,去拍啊创始人邱成仪在谈到创业的生死点时说:创业之前一定要搞定域名。这不禁让等等想起了小米联合创始人黎万强的霸气一吼:小米拿不下好域名就不干了!不少互联网有识之士都发出了域名之于创业的重要性的喟叹
    创新工场联合创始人汪华:2014,创新者去哪儿

    创新工场联合创始人汪华:2014,创新者去哪儿

    新浪科技讯 1月10日晚间消息,2014年极客公园创新大会今天在京举行,创新工场创始人、管理合伙人汪华先生在会上的分享主题为《2014,创新者去哪儿?》。汪华认为,创新是为了满足需求,而所有创新都来自
    自述:穷站长,富站长,的确如此!

    自述:穷站长,富站长,的确如此!

    经常写文章,经常抛头露面的人,对于喷子肯定是深有感触,你写得越多,越有一定的知名度,迎面而来的各种骂声就越多,各种攻击也越多,有很多人就是每天无所事事到处挑毛病,然后一个劲的喷,人不可能做到让每一个都
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面