当前位置:首页搜索引擎核心算法:自然语言和布尔搜索 举报文章

搜索引擎核心算法:自然语言和布尔搜索

作者:admin    来源:用户投稿    时间:2015.6.10   

  本人从事搜索引擎相关的工作已有十一年,今天与大家一起谈谈搜索引擎核心算法之:自然语言和布尔搜索。论述引出了如下结论:搜索爬虫和搜索引擎使用某种启发式方法给网页排名,并返回结果。爬虫观察模式,以确定某网页的内容,搜索引擎在搜索查询中查找模式,并与爬虫识别的模式进行比较,并返回结果。

  这个理论的复杂性在于,我们使用的是活跃的、不断成长、不断演变的语言,这意味着语言的使用模式也在不断变化。为了跟上这种变化,搜索引擎也必须是活跃的、不断成长、不断演变的,所以在理解如何针对搜索引擎定位阿站时,启发式方法是一个非常重要的概念。理解它的最简单方法是比较过去和现在的搜索行为,确定搜索是如何演变的。

  开始时使用布尔搜索

  今天,人们的搜索方式与搜索引擎刚刚问世时的搜索方式完全不同。记得以前提过 Archie、Gopher、Jughead和verojnuca 这些早期的索引和搜索程序的能力是相当有限的,要在索引中查找信息,必须对索引非常了解。实际上,使用Archie和Gopher时,必须知道所要查找的文档或文件的确切位置。

  有了Jughead和Veronica后,就可以实际搜索信息了:但那时,搜索仍是非常基本的。当搜索最终变为可能时,如何查找文件是有一些严苛的规则的。在搜索引擎的早期,还没有今天非常普遍的自然语言搜索。

  用户必须指定他们要搜索“这个短语”,而不是搜索“那个短语”,或者精确搜索某个短语.入靠尔逻辑——在索引中查找正确的文件或文档所需的方法。布尔逻辑基于GeorgeBoole在19世纪中叶提出的逻辑代数系统。

  实际上,布尔逻辑就是把数据分解为集合,直到数据集合非常小,满足初始查询提出的要求为止。例如,在搜索时,网络上可能有1000个网页有关“pools”,有1000个网页有关“saltwater”,如果搜索“saltwater pools”,就会返回所有2000个阿页。这实在太多了。但合并这两个术语,仅查找既包含“saltwater”、又包含“pools”的网页,则只返同原来2000个阿页中的一小部分,如图5—1所示。

  为了使这个例子更进一步,可以添加一个限制符,例如“not chlorine”,以缩小数据集合。添加这个限制符时,会去除另外部分数据,满足“pools,saltwater. but not chlorine”查询的选项就更少了,如

  这个例子演示了布尔搜索中使用的3个运算符:与、或、非。布尔逻辑基于逻辑代数系统,所以这些运算符都可以用一个符号表示:

  ·与:+

  ·非;

  ·或:默认运算符,返回包含任意一个单词的所有页面,而不管它们的接近程度如何。该运算符用单词之间的空格表示。

  刚开始时有2000个网页,但使用布尔逻辑运算符来分解数据集合,就大大减小了搜索范围。现在找到需要的内容的可能性更大,且查找速度更快。

  在互联网搜索的早期.布尔逻辑帮助用户定位需要的文件和文档。从启发式方法的角度来看,布尔逻辑为搜索提供了完美的问题解决能力。但技术会逐渐成熟起来……

  小站(BET365)http://www.588m.com

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:搜索  搜索引擎  索引  引擎  核心  心算  算法  自然  语言  言和  
  • 相关搜索
图片推荐
    天猫签下20小家电 分摊245亿销售额

    天猫签下20小家电 分摊245亿销售额

    1月28日消息,日前,天猫召开了2015年天猫小家电行业交流会,会议当天有20多个家电品牌和天猫签订2015年销售协议,签订的战略合作的总销售金额一共达到245亿元。  其中,位居小家电销售第一梯队的
    被电商打击严重的家乐福开始做内容了

    被电商打击严重的家乐福开始做内容了

    1995年进入中国的家乐福,是世界零售业三巨头之一,2015年关店18家,2016年上半年又关店3家,看上去日子过得愁云惨淡。  同样在2015年,家乐福在中国发布并开始实施多业态、多渠道、多平台新发
    做SEO最难的是什么

    做SEO最难的是什么

    已经在从事SEO行业的站长,应该都能明白SEO的难点在哪里,做SEO最难的不是外链,而是内容的持续和有效更新。外链对于站长来说,其实只是一个死规则,只要你愿意去做,就能得到外链。而内容则不同,网站要有
    SEO终极算法(三):百度排名引流So easy

    SEO终极算法(三):百度排名引流So easy

    大家都知道做SEO要分析网站日志,要查看百度蜘蛛抓取网站页面的情况。我不知道大家有没有发现一个规律?百度蜘蛛会不定期的抓取网站所有页面的链接,不管是没有被收录的页面和还是已经被收录的页面,百度蜘蛛都会
    十大品牌商自曝数据 回击超高退款率质疑

    十大品牌商自曝数据 回击超高退款率质疑

    【亿邦动力网讯】12月24日消息,日前,一石激起千层浪,有媒体抨击今年天猫双11大促过后,众多在大促中取得良好销量的品牌商近期退款率猛增,高于行业均值。但是部分品牌商回击:小编应该回家补习天猫店铺评分
    网站分析销售归因模型的四种类型

    网站分析销售归因模型的四种类型

    LunaMetircs的Robbin提到网站分析销售归因有三种模型,即(第一次互动、平均分配、第一次互动和最后一次)模型,但其实是四种模型,默认忽略了最后一次互动的模型,目前大多数的网站分析工具和网站
    实战技巧:如何增加有排名关键词数量

    实战技巧:如何增加有排名关键词数量

    今天霍龙和大家分享一下如何增加有排名关键词的数量,其实很多认为SEO就是做关键词排名的,对站内优化、站外优化估计也只是听过那么几句而已,今天在这里不再赘述。  以站长之家为例,在站长工具里有一项数据是
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面