当前位置:首页搜索引擎创建索引网页库的原理解析 举报文章

搜索引擎创建索引网页库的原理解析

作者:admin    来源:用户投稿    时间:2015.6.12   

  搜索引擎网页采集完成之后,就是会对数据进行预处理,而这一章节:先讲数据预处理中的的搜索引擎索引网页库的的形成。

索引网页库

  搜索引擎数据预处理,首先讲解数据预处理子系统的系统结构,继而介绍建立索引网页库的算法,接着介绍中文切词技术,然后讲解网页的分析,最后讲如何生成用于查询的网页倒排索引文件。

  1、搜索引擎数据预处理系统结构

  在经过搜索引擎Web数据采集之后,采集到的网页都是按照搜索引擎的格式进行存储,拥有良好的容错性,即使出现损坏的情况,也不会是的整个数据库中的信息都难以存取。但是这种存储格式是无法按照网页URL,来进行存取与其对应的网页的,所以,我们预处理第一步:

  为原始网页建立索引,即索引网页库(1)。建立索引网页库之后,就可以提供网页快照功能(2),通过对索引网页库中内容进行网页切词处理,将每一篇网页转化为一组关键词的集合(3),最后,将网页到所索引词的映射转化为索引词到网页的映射,形成倒排表(倒排表和索引词表),同时将网页中包含的不重复的索引词汇聚成索引词表(4)

  (盐城SEO疑问:索引词到网页的不应该是多对多的吗?为什么不重复的索引词要形成索引词表呢?倒排表已经满足需要了)

  2、索引网页库的建立:

  内容较为复杂,作为一个SEO,我们只需要了解原理部分就可以了,其中编程部分,我们暂时不讲解(盐城SEO也不会….)

  2-1)在原始网页库,是有若干条记录组成,每一条记录包括了:头部信息(head),数据(Data)。每一条数据(DATA)有网页头文件(header)和网页内容(content)组成。

  2-2)索引网页库的算法通过MD5算法,将网页内容和URL摘要信息,分别记录为16个字节的唯一标识,同时为了方便查看,将这16个字节转化为23字节的ASCLL码。

  2-3)网页索引文件,最终通过 ISAM(索引顺序访问模式)来进行存储,保证数据的紧凑性和检索能力。同时在网页索引文件存储之后,还会存在URL索引文件,同时通过文档编号,将URL摘要信息和网页摘要信息联系起来。实现网页快照功能

  (盐城SEO疑问:在数据预处理的索引网页库中,涉及到摘要信息的产生算法讲解,在前面,我们知道摘要信息,有动态和静态两种,那么这里的如果是动态摘要信息,那么这里如何产生网页摘要摘要信息呢?)

  (盐城SEO解答:在这里,所说的摘要信息并不一定是,显示给用户的,和description中的信息一样,可能是记录中网页content的所有内容缩写,知识叫法上的不同而已)

  原文地址:http://www.simple-chen.net/ssyqyl/270.html

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:搜索  搜索引擎  索引  引擎  创建  网页  原理  理解  解析  
  • 相关搜索
图片推荐
    不改变这两点 你的B2B内容营销基本被判了死刑

    不改变这两点 你的B2B内容营销基本被判了死刑

    如果你认为内容营销算不上一个足够大的挑战,( 一方面花费大量的时间创建和分发内容,另一方面又要又要衡量这些内容是否能够驱动用户进行消费从而获取回报。)那么想象一下,B2B领域针对技术的内容营销人员,又
    SEO技巧篇01:一篇文章三个标题

    SEO技巧篇01:一篇文章三个标题

    可能很多人不明白我这个标题的意思,一篇文章就一个标题,怎么有三个标题呢?其实我说的标题是站在SEO的角度来阐述的文章标题(title1、title2、title3)。    文章是一个网站流量极其重要
    最近很火的小红书,是如何创造引爆点的?

    最近很火的小红书,是如何创造引爆点的?

    购物平台小红书成立不过两年,百度指数两周内飙升30倍,APP Store排名三天内超越京东、唯品会。6月6日周年庆,帅哥送快递引爆朋友圈。怎么做到的?从环境威力法则、个别人物法则及附着力法则来分析。 
    产品运营:APP上线前,如何做运营推广工作?

    产品运营:APP上线前,如何做运营推广工作?

    一 竞品分析  1.选择竞品,做好定位(选择两个产品最好,最多三个)  如何获取竞品?  A 百度搜索类似产品关键词,假设你的产品是一款旅游分享类APP,你可以输入主要关键词旅游app,一般排在自然排
    分析网站以提醒大家建站需注意哪些方面

    分析网站以提醒大家建站需注意哪些方面

    一、代码部分  (1)代码不完整,缺少结束标签,建议加上;另外核心关键词设置太多,建议3~5个最佳;而且title最好放到meta部分前面。  (2)可以适当使用一个h1标签,最好加在核心关键词上,增
    网络营销之——农田营销法则

    网络营销之——农田营销法则

    其实很多事情都是想通的,现下最流行的网络营销和传统的营销模式区别在那?就是营销的手段不同,采用的媒介不同,但是它们的最终目的都是相同的,为了品牌或是销售的提升。今天我们不讨论两种营销方式的优劣,从本质
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面