当前位置:首页TF-IDF:传统IR的相关排序技术(二) 举报文章

TF-IDF:传统IR的相关排序技术(二)

作者:admin    来源:用户投稿    时间:2015.6.10   

  既然是二,就是顺着上一篇文章《TF-IDF:传统IR的相关排序技术》写下来的。所以,有兴趣的同学请先看完第一篇文章再来继续。

  好,我们继续开始二。

  关于词频,只要你的分词工具够牛逼,就很好理解和实现。关于反文档频率,各位亲们,看到时会不会初时感觉很牛叉,然后细想会很有疑惑?

  逆文档频率(idf)=log(文档总数/包含关键词的文档数量)

  对,疑惑就在怎么获得“文档总数”与“包含关键词的文档数量”上。

  在搜索引擎上,可以有一个不错的替代方式,下面听我细细道来。

  每篇文章每个网页几乎都含有“的”这个字,嗯,你想到了吧。在搜索引擎中搜这个字,出来的结果数量可以理解为所有的文档数量,然后再搜你的目标词即为包含这个词的文档数量,这一数据也就得到了解决,下面是我弄的一个例子:

  

反文档频率

  好了,有了这些数据,我们接下来看看能够做些什么出来。

  将网站中每个网页进行分词,去掉语气助词停顿词之后按照tf-idf值从大到小进行排序。

  网页A={a1,b1,c1,d1,e1……z1}

  网页B={a1,b2,c1,d5,e2……z6}

  网页C={a2,b1,c2,d1,e2……z2}

  ……

  显然从{a1,b1,c1,d1,e1……z1}中就可以了解到网页A所表达的意思,B、C亦然。

  如果通过一个方法将A、B、C中的词进行比对,那岂不是就可以算出来……,你想对了,页面之间的相似程度。

  这个方法,就是余弦值。具体操作,如下:

  我们首先从A、B、C中选出前N个可以表达页面主题的词,组成一个集合。

  {a1,c1,d1,e1,b2,d5,e2,a2,b1,c2}

  然后计算A、B、C页面针对这个集合中每个词的词频(如有必要,请使用相对词频),组成对应的向量。

  A=[2,1,3,5,0,0,0,0,1,0]

  B=[……]

  C=[……]

  请记住这个高中时就学到的公式。

  

余弦值与相似度

  OK,经过此公式的计算,不但是页面之间的相似度,同样一个页面最相关的推荐文章也即可由此产生。

  有兴趣的同学们,请试验一下吧。

  转载请注明链接地址http://www.seosos.cn/search-engine/tf-idf-application.html。

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:传统  相关  排序  技术  
  • 相关搜索
图片推荐
    网站内容如何通过seo内容进行布局优化

    网站内容如何通过seo内容进行布局优化

    seo内容优化布局,通过SEO分析研究内容的更新方向和目标,再通过内链布局优化网站的页面丰富度,来提升网站页面的整体质量和权重。    seo内容布局链接优化  在分析布局网站的链接内容布局,要结合商
    新版EasyPanel安装过程及简单使用

    新版EasyPanel安装过程及简单使用

    简介  easypanel虚拟主机控制面板是一款免费的、跨平台的集开通虚拟主机、ftp、空间、数据库等功能为一体的虚拟主机控制面板。  EasyPanel安装过程  1,连接上的你的Linux VPS
    由iphone5地图显示钓鱼岛是日本的谈起

    由iphone5地图显示钓鱼岛是日本的谈起

    近日,钓鱼岛火了,iphone5火了,本来沾不上边的两个东西,却因为一篇帖子引起了轩然大波,我最初也是在猫扑网上看到的,说道iphone5自带的地图中把中国的钓鱼岛划给了日本,而诺基亚的地图标记始终是
    教你微商怎么做,微商怎么找客源?

    教你微商怎么做,微商怎么找客源?

    客源,不是所谓的同行更不是一些僵尸,现在的微信已经限制好友5000人,所以我们一定要将好友的价值最大化,所以说我们一定要找到属于自己的精准客户,对,要的就是精准。  我教你,其实写软文不需要有特别好的
    你想抓住互联网机遇,成为风口上的猪吗?

    你想抓住互联网机遇,成为风口上的猪吗?

    根据统计目前中国的网民人数已经尝过8亿,微信的手机用户已经超过6亿,互联网已经成为众多创业者的掘金之地,每年都会吸引众多的国内外创业者进入淘金,甚至连传统行业也加入其中,更多的创业者为了成为第二个雷军
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面