当前位置:首页搜索引擎如何处理收集到的网页数据 举报文章

搜索引擎如何处理收集到的网页数据

作者:admin    来源:用户投稿    时间:2015.6.10   

  搜索引擎原理中,搜索引擎工作流程从大的方面有三点:数据采集、数据预处理、查询服务,这里和大家分享一下数据预处理,提亲说明的是,其中涉及一些专业的词汇,在我博客是加了锚文本的,这里没有,看不懂的可以去看原文。

  

  在我们所述的“数据预处理”就是主要包含四个方面:关键词提取,“镜像网页”以及“转载网页”的消除,链接分析和网页重要程度的计算。

  关键词提取:

  1)在每一章网页,包含了大量的和主题内容无关的内容,像版权说明等等,关键词提取的任务,就是要提取出网页源文件的内容部分所含的关键词。提取的方法:一般类似与切词,将内容切成多个词组成的数组,再取出“在”“的”等无意义的词组,确定最终的关键词。(博主联想:关键词密度,关键词加粗,定向锚文本就是更具这一原因出现,方便搜索引擎更加简单的判断关键词)

  在后面的章节也会提到的DocView模型中会有更加详细的讲解,在关键词提取之前还有网页净化等多个步骤,出于书籍的编辑顺序考虑,在这里不详解,感兴趣的可以点击链接跳转查看:DocView模型,网页净化;

  重复或转载网页的消除:

  1)天网的2003统计发现:网页的平均重复率为4,到目前的2015年,这个数字肯定已经破10。对于网名来说,拥有了更多访问有用信息的机会,对搜索引擎来说,浪费了大量的搜集网页的时间,以及网络宽带资源。具体实现方法,以后再讲。

  链接分析:

  1)链接分析中有提到两个概念,词频(TF):该关键词在关键词提取之后的关键词集合中的出现频率;

  2)文件频率(DF):该关键词在所有文件中的出现频率,在所有文件中,该关键词在多少文件中出现;

  3)搜索引擎可以通过HTML文本标签,来确定关键词的重要性(博主联想:

  标签的使用就是通过这个得来);指向其他文件的链接,来判断(博主联想:定向锚文本的使用)

  网页重要程度的计算:

  1)搜索引擎需要将用户索引的结果,以列表的形式,展示给客户,并且在展示中满足用户的搜索需求,因此“网页重要程度”的概念出现了。

  2)判定重要性的方法:人们通过参考文献重要性的评估方式,其核心就是–“被引用的最多的就是最重要的”。这种方式,恰好在HTML中超文本链接完美体现,谷歌的PR值(引用该页面的页面概述和引用该页面的页面重要程度)就是完美展现(博主联想:发外链就是该算法的完美体现)。(PageRank算法)

  3)和第二点出现的不同的地方在于,某些页面是被大量的指向其他页面,某些页面被其他页面大量引用,形成对偶的关系,于是HITS算法出现。(HITS算法)

  

  部分名词介绍:

  “倒排文字:利用文档(已经采集到的网页)中所包含的关键词作为索引,文档则作为索引的着陆页(目标文档),常见的,就像纸质书籍中,索引就是文章关键词,书籍的具体内容或者说页面就是索引目标页。

  镜像网页:网页内容一模一样的,未做任何的修改

  转载网页:主要内容基本相同,但是多了少量的编辑信息

  HITS算法:简单介绍,在HITS算法中,存在两种页面Authority(权威)页面和Hub(目录)页面,对于Authority页面A,指向A页面的Hub页面H页面越多,那么A页面的质量越高,同样的Hub页面H指向的Authority页面A的数量越多,质量越高,则H页面的质量也就越高。

  陈晨在最后总结一下,在搜索引擎原理这一本书,在介绍数据预处理这一块,包含的四个方面,在陈晨来看,链接分析就是用来判断网页重要程度的,所以可以划分为一类,合起来就是三个方面,一句话来说:重复或转载页面首先消除,然后提取关键词,加以DF,TF,链接,和算法来判断出网页重要程度。

  原文出处链接:http://www.simple-chen.net/ssyqyl/194.html

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:搜索  搜索引擎  索引  引擎  如何  何处  处理  收集  网页  页数  
  • 相关搜索
图片推荐
    不改变这两点 你的B2B内容营销基本被判了死刑

    不改变这两点 你的B2B内容营销基本被判了死刑

    如果你认为内容营销算不上一个足够大的挑战,( 一方面花费大量的时间创建和分发内容,另一方面又要又要衡量这些内容是否能够驱动用户进行消费从而获取回报。)那么想象一下,B2B领域针对技术的内容营销人员,又
    SEO技巧篇01:一篇文章三个标题

    SEO技巧篇01:一篇文章三个标题

    可能很多人不明白我这个标题的意思,一篇文章就一个标题,怎么有三个标题呢?其实我说的标题是站在SEO的角度来阐述的文章标题(title1、title2、title3)。    文章是一个网站流量极其重要
    最近很火的小红书,是如何创造引爆点的?

    最近很火的小红书,是如何创造引爆点的?

    购物平台小红书成立不过两年,百度指数两周内飙升30倍,APP Store排名三天内超越京东、唯品会。6月6日周年庆,帅哥送快递引爆朋友圈。怎么做到的?从环境威力法则、个别人物法则及附着力法则来分析。 
    产品运营:APP上线前,如何做运营推广工作?

    产品运营:APP上线前,如何做运营推广工作?

    一 竞品分析  1.选择竞品,做好定位(选择两个产品最好,最多三个)  如何获取竞品?  A 百度搜索类似产品关键词,假设你的产品是一款旅游分享类APP,你可以输入主要关键词旅游app,一般排在自然排
    分析网站以提醒大家建站需注意哪些方面

    分析网站以提醒大家建站需注意哪些方面

    一、代码部分  (1)代码不完整,缺少结束标签,建议加上;另外核心关键词设置太多,建议3~5个最佳;而且title最好放到meta部分前面。  (2)可以适当使用一个h1标签,最好加在核心关键词上,增
    网络营销之——农田营销法则

    网络营销之——农田营销法则

    其实很多事情都是想通的,现下最流行的网络营销和传统的营销模式区别在那?就是营销的手段不同,采用的媒介不同,但是它们的最终目的都是相同的,为了品牌或是销售的提升。今天我们不讨论两种营销方式的优劣,从本质
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面