当前位置:首页搜索引擎相关技术浅解 举报文章

搜索引擎相关技术浅解

作者:admin    来源:用户投稿    时间:2015.6.10   

  闻道软件工作室开发的几款软件和搜索引擎的技术有不少重叠,如即将上线的projSpider.com其实就是一款简单的垂直搜索引擎,此外我们在多个项目中应用到的网络爬虫模块也是搜索引擎技术中的重要一环。

  虽然闻道软件工作室的工程师中并没有人参与过大型搜索引擎的开发,但对此都很感兴趣。本文根据一些类似的项目经历和公开的资料,对搜索引擎相关技术作一个浅解。

  1、 爬虫(Spider)——数据来源

  作为搜索引擎海量数据的来源,爬虫是搜索引擎技术的重要一环,闻道软件工作室有自己开发的爬虫,所以对此技术很熟悉。

  爬虫的英文是Spider,其实翻译成蜘蛛更容易理解,无数网站的链接构成了一张巨大的网,搜索引擎的内容采集程序就像一只只勤劳的蜘蛛在这张网上爬来爬去,每遇到一个感兴趣的节点便记录下来留待其他的程序处理。

  爬虫的实现其实不难,笔者用C++开发出一套爬虫的雏形只有500行左右的代码,而用python的话,不足100行。

  但是,任何程序只要牵扯到了海量数据处理其开发难度和开发周期也会变得非常之大。举一个简单的例子,判断一个链接是否抓取过,这是爬虫每分析出一个链接后都要做的判断。如果此时你的内存中只有几千、几的链接,即使是一条条的遍历对比也能基本上满足要求,可如果是十、百、千、亿级别呢?红黑树这些算法勉强可以应付,十亿、百亿、千亿、亿的级别呢?只能建立索引了。

  百度技术委员会理事长陈尚义透露,“百度每天处理的数据量将近100个PB,1PB就等于100个G,相当于5000个国家图书馆的信息量的总和”。

  如此庞大的数据,百度的技术实力可见一斑。

  除了搜索引擎外其实很多场景都应用到了爬虫技术。如现在新兴的舆情分析系统、数据挖掘系统等。

  现在越来越多的企业意识到数据的重要性,爬虫作为一个重要的数据来源,将来肯定会在更多领域得到应用。

  2、 中文分词 ——数据预处理

  中文分词也是搜索引擎中一个重要的技术,分词是否精准直接关系到查询结构是否符合搜索者的搜索意图

  中文分词相对于英文分词来说难度大很多,因为英文有天然的分隔符,每个单词都是一个意思.如“WenDao Software Studio”可以很简单的根据空格分成“WenDao”,“ Software”,“Studio”三个词。而对于对应的中文“闻道软件工作室”,可以有“闻/道/软/件/工/作/室”、“闻道/软/件/工作/室”、“闻道/软件/工作室”等等很多种分法。

  中文分词是一个需要研究很深入的领域,当然,目前也有一些比较不错中文词库,极大的简化了开发者的工作。

  3、 全文检索 ——数据预处理

  建立索引是在大数据量查询时必不可少的重要方法。对于建立了索引的数据,我们可以在很短的时间内从海量数据中搜索到相同的数据。

  为了便于理解,我们可以把索引想象成一本书的目录,有了目录我们就可以在较短的时间内迅速找到我们感兴趣的内容,而不必一页页翻开去找。

  全文检索需要在中文分词之后才能完成,需要把一个文章分成一个个关键词然后分别建立索引,这样才能达到从文章内容中搜索的目的。

  4、 排序 ——数据预处理

  排序是搜索引擎中非常重要的一环,排序不合理同样会极大的伤害用户体验,而很多站长为了提高自身的排名又有许多作弊的手段,这使得排序算法的开发难度更大。

  搜索引擎能获取的参数也就几种,无论排序算法如何变化,那也只是调整这些参数的权重而已,以下列举两个重要的参数。

  a)、内容

  现在的搜索引擎非常重视用户体验,所以这将是所有影响排名的最重要的参数。

  如何判断一个网站的内容质量高低?原创度是一个重要标准。比较常见的原创度判断算法有基于空间向量的余弦算法,算法的根据是关键词的频度和权重,对于很多做伪原创的站长来说,这个值得研究。

  b)、外链

  外链仍然是搜素引擎评价一个网站质量的重要标准。在此不再赘述。

  5、查询 ——数据显示

  很多人认为百度、Google等搜索引擎能够在那么短时间内在海量数据中找到结果,查询算法的难度一定非常复杂,其实不然。相反,这是搜索引擎技术中最简单的一环。它们之所以快,是因为经过前面几个步骤,它们早就准备好了数据等待你的查询。

  原文:http://www.wendaoruanjian.com/?p=38

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:搜索  搜索引擎  索引  引擎  相关  技术  
  • 相关搜索
图片推荐
    当下网站优化你为什么需要不断的改进网站

    当下网站优化你为什么需要不断的改进网站

    笔者发现,随着搜索引擎算法的不断升级2015年网站优化用户体验呼啸尘上,2015年网站优化内容为王似乎是大家共同认可的话题,的确,当下网站优化是变得越来越不可琢磨了,笔者今天和大家分享,当下网站优化你
    百度本地标签与精准搜索营销有关?

    百度本地标签与精准搜索营销有关?

    最近不知道大家有没有注意到,百度搜索关键词时显示的结果中出现了本地标签,百度增加了这样一个内容,对于网站的推广排名以及用户的搜索有什么影响呢?相信百度这么做,有它一定的道理。  奇亿网络小编做了个试验
    电脑装机员必备:装机赚钱注意事项

    电脑装机员必备:装机赚钱注意事项

    IT行业飞速发展,导致各行各业竞争愈发激烈,电脑城中很多电脑装机员拿着微薄的工资补贴家用。在IT市场中,鱼龙混杂,并非每个人眼中所看,心中所想,或许同为电脑装机员,但是所赚收益却大有不同,有人会谩骂连
    BAOCMS商城即将上线 正版源码可以在线购买啦!

    BAOCMS商城即将上线 正版源码可以在线购买啦!

    BAOCMS新官网将为大家展现更多全新的功能,带来无限的惊喜。新官网不仅整合了公司旧网站的部分内容,还增加了系统源码在线购买、模板堂在线购买等新特色,更有私人专属定制服务,立即分销享受更多优惠,还有O
    李彦宏回应员工出走创业:他们竞争不过我

    李彦宏回应员工出走创业:他们竞争不过我

    李彦宏  【TechWeb报道】10月12日消息,百度CEO李彦宏近日做客央视《开讲啦》,并回答了现场观众的提问。  对于前百度员工出走创业,李彦宏称,我知道百度有不少人出去创业,这些创业者他们后来建
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面