当前位置:首页简单的认识搜索引擎 举报文章

简单的认识搜索引擎

作者:admin    来源:用户投稿    时间:2015.7.17   

  虽然百度已全面取消referer,但网站SEO优化工作,依然不可缺少。因为做SEO优化,是为了使网站更加适合搜索引擎的检索行为,为网站带来自然流量。常言道,知己知彼,百战不殆,下面,就和白掌一起来认识一下搜索引擎把。

  首先,和白掌一起认识一下什么是搜索引擎。

  搜索引擎,就是在搜索框中,直接入所需信息的关键词,就可从互联网中获取与搜索词相关信息的软件系统。通常,这些搜索结果会呈现在搜索结果页,搜索到的信息,可能是网页,可能是图像,也可能是其它类型的文件。对于人工实时维护更新的站点,大多情况下,也就是我们所优化的网站,搜索引擎会派出基于一定算法的网站爬虫来抓取站点实时更新的信息。但是,在搜索引擎发展之初,并没有网站爬虫的存在。

  然后,让我们一起来看一下搜索引擎早期的发展。

  在互联网发展早期,蒂姆•伯纳斯•李建立了第一个网站并托管在CERN(欧洲核子研究组织)的服务器上。后来,蒂姆在这个网站中列举了其它网站,其中尚存有记录的是1992年的一次具有历史意义的快照。但随着越来越多服务器上线,这份列表无法及时更新,自后再上线的新服务器,都会出现在NCSA Mosaic下一个名为“What‘s New”的分类中。

  第一个被用于在互联网上提供搜索服务的工具时Archie,这一象征“Archive“的名称,并不包含其中的字母”v“。这一工具,是由蒙特利尔市McGill University计算机科学专业的学生Alan Emtage、Bill Heelan和J.Peter Deutschz于1990年做成。他们下载了公共匿名FTP站点上所有文件的目录列表,创建了一个可对文件名称进行搜索的数据库。但不管怎样,受数据量的限制,Archie不能索引这些站点的内容,只能进行手动搜索。

  1991年,Mark McCahill创建了Gopher系统。它的出现促使两大新搜索程序-Veronica和Jughead-诞生。类似于Archie,这两项搜索程序可搜索收录于Gopher索引系统中的文件名和标题。其中,Veronica提供了在Gopher列表的大多数目录标题中进行关键词搜索的服务,Jughead则是一个从特定Gopher服务器获取菜单信息的工具。当搜索引擎Archie的名称还未收录到Archie系列丛书中,Veronica和Jughead就已存在于这套丛书中,不过其中会索引Archie相关的内容。

  1993年夏天,虽然专业目录有人工维护,但尚没有为Web而存在的搜索引擎。Geneva某大学的Oscar Nierstrasz写了一系列Perl手稿。Oscar会在这些手稿中,定期反馈网页的情况,后来他又按照一种标准格式,将这些手稿编辑了一遍。这些手稿,就是之后W3Catalog的雏形,web的第一个原始搜索引擎发布于1993年9月2日。

  1993年6月,Matthew Gray打造了第一个web robot(搜索引擎爬虫机器人)-the Perl-based World Wide Web Wanderer,并将其用于生成一种叫做Wandex的索引。Wanderer存在的目的是为了衡量维网(World Wide Web)的大小,Web的第二个搜索引擎是Aliweb,它出现于1993年11月。Aliweb没有采用web robot,它是使用一种特定的格式来索引每一个站点的信息。

  1993年12月,Jonathon Fletcher创建了Jump Station系统。这种系统使用一种Web Robot来发现网页并为其建立索引,同时,用一种web格式来作为其搜索程序的接口。Jump Station可以说是世界上第一个World Wide Web的搜索引擎。它将网页搜索引擎的三大基本特征-抓取、索引和搜索-集于一体。但是由于Jump Station所在平台可用资源的局限性,其索引内容仅限于web robot遇到的网页标题和副标题。

  1994年,WebCrawler诞生,它是允许Web Robot爬取“全文内容“的搜索引擎之一。与其前辈不同的是,它支持用户搜索任一网页中的任一个搜索词。之后,它成为所有主流搜索引擎的标准,也是第一个被公众所熟知的搜索引擎。

  同年,卡内基梅隆大学创建了Lycos。Lycos是搜索引擎中的元老,最早提供信息搜索服务的网站之一,也是重要的商业典型。1996年,Lycos以收录6000W文件位居当时最大的搜索引擎。

  随后,互联网中出现很多搜索引擎。这些搜索引擎包括Magellan网际网路搜索引擎、EXCITE搜索引擎、Infoseek资讯查找、因特通、Northern Light搜索引擎和AltaVista,纷纷抢占人气。Yahoo!是当时广受欢迎的搜索方式,但它的搜索功能仅能在它的网页目录下运行,而不是其网页的全文本副本。查询的人也可以浏览目录,而无需进行关键词搜索。

  1996年,Netscape计划在其浏览器打造一款专属自己并极具特色的搜索引擎。消息发出后,对此感兴趣的互联网公司很多, Netscape就改变计划,与五家主流搜索引擎达成协议,将这五个搜索引擎轮流放在Netscape的搜索引擎页。这五家公司分别是 Yahoo!,Magellan,Lycos,Infoseek和Exicite。

  1998年,Google从Goto.com引入了PPC的概念,简单的说就是,买卖搜索词, 这对于之后搜索引擎商业化具有重大意义,使互联网变现成为可能。

  在20世纪90年代末期,搜索引擎,也以互联网投资风暴中的明星产品而著称。有些公司高调进入互联网市场,在首次公开募股中均获得了创纪录的收益。有些公司则砍掉了其公共搜索引擎,转型为专门的营销公司,比如Northern Light。很多搜索引擎公司都遭遇了投机泡沫(1995-2001)期间的互联网泡沫,鼎盛于1999年,结束于2001年。

  2000年前后,Google搜索引擎声名鹊起。正如谷歌后来的创始人Sergey Brin和Larry Page所写的Anatomy of a Search Engine一文中所解释的,PageRank技术的提出采用谷歌搜索可以得到较好的搜索结果。这一为网页排名的迭代算法,是通过互联网浩瀚的超链接关系来确定页面的等级。Google把从A网页到B网页的链接解释为A网页给B网页的“点赞”,然后Google根据“点赞”网页(甚至来源的来源,即链接到A网页的网页)和“被点赞”网页的等级来决定新的等级,简单的说,一个高等级的网页可使其它低等级页面的等级提升。谷歌搜索也一直为其搜索引擎维持一个简洁的页面。相反,谷歌的很多竞争对手都选择将其搜索引擎嵌入到某一门户网站。树欲静而风不止,谷歌因其饱受欢迎一直在被Mystery Seeker恶搞,比如前段时间,谷歌地图中显示白宫是个“黑鬼屋”。

  2000年,Yahoo!在Inktomi的搜索引擎中提供搜索服务。2002年,Yahoo!收购Inktomi,并于2003年收购Overture。2004年,Yahoo!兼并了Inktomi和Overture的技术,推出自己的搜索引擎,与谷歌成为竞争对手。

  1998年秋天,Microsoft采用Inktomi的搜索结果推出MSN搜索。1999年上半年, MSN开始在Inktomi搜索结果中掺杂来自Looksmart搜索结果。1999年有一段时间,MSN搜索也会采用AltaVista的搜索列表。2004年,Microsoft开始专注搜索技术,打造自己的Web Robot。2009年1月1日,Microsoft将MSN更名为Bing并上线。2009年7月29日,Yahoo!与Microsoft达成合作关系,在这一合作中,Yahoo!可得到Microsoft Bing技术的支持。

  最后,和白掌一起来了解一下搜索引擎的工作。

  搜索引擎的工作通常分为三个步骤,即爬行、索引,搜索。

  简单地说,搜索引擎会存储标记有html的网页,这些网页通常都是网站爬虫(有时也称作蜘蛛)抓取来的。而网站爬虫,会定期到访网站,并爬行网站内容的自动程序。站长可通过robots.txt文件来排除不希望被爬虫抓取的页面。

  爬虫将页面内容抓取回来后,搜索引擎会对这些内容进行分析,以确定如何索引这些内容,例如,搜索引擎会从网页的标题、网站内容、题目或Meta标签中提取出关键词。网页的数据会存储至索引库,用于之后的搜索词搜索。用户的搜索词可以是单个的词,索引会帮助用户尽可能快的找到搜索词相关的信息。

  搜索词处理

  用户在搜索引擎界面入关键词,单击“搜索”按钮后,搜索引擎程序即对搜索词进行处理,如中文特有的分词处理,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况。搜索词的处理必须十分快速。

  排序

  对搜索词处理后,搜索引擎程序便开始工作,从索引数据库中找出所有包含搜索词的网页,并且根据排名算法计算出哪些网页应该排在前面,然后按照一定格式返回到“搜索”页面。

  再好的搜索引擎也无法与人相比,这就是为什么网站要进行搜索引擎优化。没有SEO的帮助,搜索引擎常常不能正确的返回最相关、最权威、最有用的信息。

  xue.sem123.com,让信息变得简单。

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:简单  简单的  认识  搜索  搜索引擎  索引  引擎  
  • 相关搜索
图片推荐
    Airbnb从失败到成功的秘密:设计!

    Airbnb从失败到成功的秘密:设计!

    摘要:2009年,Airbnb正在破产的边缘。跟大多数创业公司一样,Airbnb已经成立一段时间了,但还没有人注意到他们。整个公司的营业收入,每周都只是在200美元的水平上徘徊,而且三个创始人还要分这
    MIUI要放大招!明天揭晓 见者有份

    MIUI要放大招!明天揭晓 见者有份

    一到晚上,MIUI就喜欢搞点大动作。这不是,刚刚又预告了一条大消息。MIUI官方微博刚刚预告称,将在明天上午10点宣布一条大消息,表示“这次送个多的”。此外,配图中还出现了“见者有份”几个字。由此推测
    SEOer为什么你的网站排名不稳定?

    SEOer为什么你的网站排名不稳定?

    我们知道,在优化过程中任何一个行业都会面临非常激烈的市场竞争,就网站优化行业而言也是一个道理,但是同样是在优化,竞争对手网站优化做的非常好,细节处理的也很不错,那么这个时候为什么我们的站点会出现优化过
    免费模式下的营销手段还能持续多久

    免费模式下的营销手段还能持续多久

    为什么要谈到这个话题?因为马上就是全民购物狂欢节了双十一,许许多多的商家都在借助这个节日来销售自己的产品。近一段时间,笔者就亲自体验到了许多商家策划的双十一促销活动,更多的就是免费送礼品、免费出国游、
    微博大V作业本创业 或建独立影评网站

    微博大V作业本创业 或建独立影评网站

    今天上午,微博大V@作业本 发出一条长微博,宣布自己与友人成立公司:ZNTA,开始了自己的创业历程。  作业本在长微博中表示:因为全世界都需要来自真实观众的真诚影评。如果独立影评再不出现,电影行业将更
    谷歌浏览器Chrome最新版下载方式

    谷歌浏览器Chrome最新版下载方式

    今天分享的是《谷歌浏览器Chrome最新版国内下载方式》。谷歌浏览器Chrome和其它浏览器有什么区别?答:可以帮你更效率的获得一个更大的世界。因为众所周知的原因,我们在国内是无法访问Google(谷
    买香港云主机或河南BGP云主机拿iPhone5s手机

    买香港云主机或河南BGP云主机拿iPhone5s手机

    云立方网作为香港云主机TOP5品牌,依托雄厚的资源及行业实力,现向全网发出核心代理免费招募计划,只要你曾经代理过其它公司的主机产品、或是现在正在做着代理、再或者因为有广泛的人脉圈子很迫切的想进入这个行
    窝窝移动战略驱动业务增长背后的商业密码

    窝窝移动战略驱动业务增长背后的商业密码

    在经历千团大战到三足鼎立后,曾经以团购为主营业务的团购网站,纷纷开启去团购化转型。去团购化其中最重要的一个特征便是团购业务地位逐渐下降,本地生活服务越来越成为各家争夺的阵地。  历经多年团购沉浮之后,
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面