当前位置:首页搜索引擎核心算法:自然语言和布尔搜索 举报文章

搜索引擎核心算法:自然语言和布尔搜索

作者:admin    来源:用户投稿    时间:2015.6.10   

  本人从事搜索引擎相关的工作已有十一年,今天与大家一起谈谈搜索引擎核心算法之:自然语言和布尔搜索。论述引出了如下结论:搜索爬虫和搜索引擎使用某种启发式方法给网页排名,并返回结果。爬虫观察模式,以确定某网页的内容,搜索引擎在搜索查询中查找模式,并与爬虫识别的模式进行比较,并返回结果。

  这个理论的复杂性在于,我们使用的是活跃的、不断成长、不断演变的语言,这意味着语言的使用模式也在不断变化。为了跟上这种变化,搜索引擎也必须是活跃的、不断成长、不断演变的,所以在理解如何针对搜索引擎定位阿站时,启发式方法是一个非常重要的概念。理解它的最简单方法是比较过去和现在的搜索行为,确定搜索是如何演变的。

  开始时使用布尔搜索

  今天,人们的搜索方式与搜索引擎刚刚问世时的搜索方式完全不同。记得以前提过 Archie、Gopher、Jughead和verojnuca 这些早期的索引和搜索程序的能力是相当有限的,要在索引中查找信息,必须对索引非常了解。实际上,使用Archie和Gopher时,必须知道所要查找的文档或文件的确切位置。

  有了Jughead和Veronica后,就可以实际搜索信息了:但那时,搜索仍是非常基本的。当搜索最终变为可能时,如何查找文件是有一些严苛的规则的。在搜索引擎的早期,还没有今天非常普遍的自然语言搜索。

  用户必须指定他们要搜索“这个短语”,而不是搜索“那个短语”,或者精确搜索某个短语.入靠尔逻辑——在索引中查找正确的文件或文档所需的方法。布尔逻辑基于GeorgeBoole在19世纪中叶提出的逻辑代数系统。

  实际上,布尔逻辑就是把数据分解为集合,直到数据集合非常小,满足初始查询提出的要求为止。例如,在搜索时,网络上可能有1000个网页有关“pools”,有1000个网页有关“saltwater”,如果搜索“saltwater pools”,就会返回所有2000个阿页。这实在太多了。但合并这两个术语,仅查找既包含“saltwater”、又包含“pools”的网页,则只返同原来2000个阿页中的一小部分,如图5—1所示。

  为了使这个例子更进一步,可以添加一个限制符,例如“not chlorine”,以缩小数据集合。添加这个限制符时,会去除另外部分数据,满足“pools,saltwater. but not chlorine”查询的选项就更少了,如

  这个例子演示了布尔搜索中使用的3个运算符:与、或、非。布尔逻辑基于逻辑代数系统,所以这些运算符都可以用一个符号表示:

  ·与:+

  ·非;

  ·或:默认运算符,返回包含任意一个单词的所有页面,而不管它们的接近程度如何。该运算符用单词之间的空格表示。

  刚开始时有2000个网页,但使用布尔逻辑运算符来分解数据集合,就大大减小了搜索范围。现在找到需要的内容的可能性更大,且查找速度更快。

  在互联网搜索的早期.布尔逻辑帮助用户定位需要的文件和文档。从启发式方法的角度来看,布尔逻辑为搜索提供了完美的问题解决能力。但技术会逐渐成熟起来……

  小站(BET365)http://www.588m.com

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:搜索  搜索引擎  索引  引擎  核心  心算  算法  自然  语言  言和  
  • 相关搜索
图片推荐
    王通:微信自明星4招赚钱绝技

    王通:微信自明星4招赚钱绝技

    我个人认为,微信只是一个工具,营销的本质并没有太大的变化,如何利用好这个工具为每一个人赚钱,这才是最实在的,所以今天我给大家分享4招我个人的经验和方法,只要你按照我的方法立刻去执行,肯定就能赚钱。  
    这家互联网房产公司  在杭州办了一场“TED

    这家互联网房产公司 在杭州办了一场“TED

    果壳网、分答创始人姬十三,首位卡尔萨根华人得主郑永春,台湾梦想改造  家史南桥,前浙江卫视名嘴、没眼人公益项目发起人亚妮  在刚刚过去的这个下午,TOPSTALK知识分享大会在杭州举行,11位各领域顶
    各大自媒体平台的对比,新手如何选择自媒体平台?

    各大自媒体平台的对比,新手如何选择自媒体平台?

    现在的自媒体平台都有哪些?他们对自媒体人来说有哪些利和弊?我们应该如何选择这些自媒体平台?又是如何通过这些自媒体平台来运营我们的自媒体?这篇文章将为您揭晓。  但是让大家在阅读这篇文章之前,我应该先让
    关于百度诚信认证 如何新增百度诚信认证

    关于百度诚信认证 如何新增百度诚信认证

    最近有个朋友问,搜索关键词点击网站进来突然发现网站右侧挂了一个百度诚信认证防伪查询的框,对此非常反感,而且点击进去代码还是默认展开的,十分影响他们网站整体效果,跟挂小广告一样,但是他说他们从未在后台加
    筱田邦彦:希望中国政府打击网购假货

    筱田邦彦:希望中国政府打击网购假货

    2015中国绿公司年会于4月20日在沈阳举行。日中经济协会北京事务所所长筱田邦彦出席并演讲。  日中经济协会北京事务所所长筱田邦彦  为什么我们说推动爆买和网购融合非常重要?筱田邦彦表示,爆买在当前的
    盘点全球目前大佬级别的14位程序员

    盘点全球目前大佬级别的14位程序员

    全球最厉害的14位程序员是谁,你知道的有几位呢?以下排名不分先后:1. Jon Skeet个人名望:程序技术问答网站Stack Overflow总排名第一的大神,每月的问答量保持在425个左右。个人简
    网站排名上不去原因大揭密

    网站排名上不去原因大揭密

    经常在一些圈子里看到有朋友说,为什么我的网站排名不好,我也天天很努力到底为什么就是进不去首页,看着感觉他很苦恼的样子,似乎自身也挺努力的,但是所负责的网站推广,结果就是不如意,到底是什么原因呢?甚至有
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面