当前位置:首页从小说搜索看搜索行业 举报文章

从小说搜索看搜索行业

作者:admin    来源:用户投稿    时间:2015.6.10   

  一 产业背景

  随着互联网的发展,和网站数量的爆炸性增长,搜索引擎在人们的互联网生活中扮演者越来越重要的角色。从国外的谷歌雅虎搜索,到国内的百度,腾讯soso,搜狗,360搜索,通用性搜索引擎市场基本已被瓜分完毕。 同样的通用搜索引擎存在较高的行业壁垒。

  其一: 作为一个检索整个互联网的通用搜索引擎,需要大量的高性能服务器,每月也会耗费大量的带宽,其资本投入非一般企业可以承受。

  其二: 这个行业存在较高的技术壁垒。 目前搜索引擎的技术还不完善,其技术水平直接影响用户的搜索体验。谷歌作为Top1的搜索引擎,汇集了全世界最优秀的程序员和研发人员。作为一名信息检索方向的研究生,这个企业也是我们这些人的梦想之地。 百度也在挖掘研发人才方面不遗余力,并以高薪养之。 腾讯搜搜在技术水平方面明显弱势(但已有大量的qq用户群作为支撑),其搜索结果不尽理想。 同时,作为工业界的搜索引擎,与研究领域的搜索引擎还有较大的不同,其主要特点就是工业界的搜索引擎往往采用研究领域已成熟的技术,但同样对各种参数进行了精细的调整。他们有大量的用户搜索记录和点击数据,可以更客观的对各种参数的效果进行测试。 (搜狗公布一部分过时的搜索记录,公布作为外界研究之用)

  其三: 人们存在使用习惯和先入为主的观念。早年QQ和UC之争就证明了这一点。

  综上三点,可以说通用搜索引擎是小企业摸都摸不得的领域。 那么是否在这个行业,我们就无能为力了呢? 在市场营销方面,有细分市场的概念,就是找准一小部分客户群,并针对性的优化,给予更舒适的高校的集中的搜索结果。

  二 技术实现

  目前最热门的细分领域有:(1) 垂直检索 (2)实时检索。 垂直检索就是针对某个特定的行业的专用搜索引擎。实时检索即用户对结果的实时性要求非常高。 (这里说的实时性泛指,一般在嵌入式领域,实时系统都是毫秒级的反应才叫做实时系统,而在检索领域,实时系统其实是所谓的弱势是系统,一般目标网站更新5分钟以内抓到数据即可认为是实时的)。 同时,实时检索往往也是垂直检索,如果是通用性的检索,是完全不可能做到实时的。(必须假定这个搜索引擎服务器的处理能力和带宽都无限强才可以实现)。 而垂直检索往往只关注,同一个行业有代表性的若干网站,处理能力和数据量自然大为减少,故而易于达到实时性。

  垂直检索已出现在我们互联网生活中的方方面面之中,试举几例:

  (1) 天涯社区, 在刚开始的时候即是通过抓取大量其他网站数据积累起了大量的客户群。 虽然这种做法现在已经不行,但不可否认其当时对一个零数据网站所代表的意义。

  (2) 各种招聘类网站,房产网站基本上都使用了垂直检索的相关技术,这样可以使得网站内容更为丰富。也容易吸引用户。

  垂直检索从技术角度考虑,也与通用检索实现不同。 通用检索面对的是非结构化的数据,存储时使用索引的方式。而垂直检索通过特定的模板匹配,讲抓取到的非结构化数据转化为结构化数据,并存储于数据库中,而查询则通过使用数据库和索引相结合的方式来实现。 这种有序的结构化的数据即是垂直检索优越性的基石。

  实时检索对实时性的要求导致爬去技术的改变。 对于实施爬去技术,一般有两大类,第一类最原始的方法即是人工发现目标行业网站的最新更新列表,并间隔极短的时间反复抓取这个更新列表,以这个列表为爬去入口获得数据。 第二类则是通过机器学习的方法,对网站进行一段时间的跟踪,并获取每个页面的更新频率信息,讲更新频率最快的网页作为实施爬去的目标网页。

  下面尝试通过一个实时检索的案例来说明上述技术要点。豆沙网(http://www.docshare.org)是一个小说实时检索引擎,同时也是垂直检索引擎。 他的主要目标是提供小说的实时更新提醒。下面我们分块介绍该系统:

  (1)爬虫部分: 首先根据凡夫网赚网 08398.com 等站长网站的统计获取比较热门的小说网站列表,然后手工分析得到其最新更新列表的地址,使用HtmlParser等开源类库对网页的链接进行分析,提取出书籍名称,章节名称,章节地址等信息。

  (2)数据的存储: 将抓取到的数据存储数据库中的书籍表,章节表等表格中,并为书籍建立索引。

  (3)web前端: 为每一位用户维护一个书架,并为用户展示书架中书籍的更新情况。 记录用户最晚的阅读时间和章节,有新章节的时候给予提示。 对于用户给出的查询请求,从索引中获取匹配项返回给用户,允许用户将返回结果加入书架。

  (4) 提供根据分类的导航信息。

  对于房产类网站,其技术基本相同,不同的是被抓取的实体不是小说和章节,而是房产发布和需求信息。而又可细分为出租,求租,出售,求购。按房产的类型又可以分为二手房,新房,期房等。

  三 盈利模式

  对于通用搜索引擎,其主要盈利模式就是与内容匹配的广告和竞价排名。 从这个角度讲,百度其实是一家广告公司。 他的百度推广和百度联盟是其主要利点。 而垂直检索,则往往根据其行业不同,提供不同的收费服务,例如房产类网站通过收取中介费获得盈利。而小说搜索则出卖出口流量获得收益。

  综上所述, 在通用搜索引擎市场过饱和度今天,小巧灵活贴心的垂直检索和实时检索不失为一个出路。

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:从小  小说  搜索  行业  
  • 相关搜索
图片推荐
    做好微博营销 打开一条网站推广捷径

    做好微博营销 打开一条网站推广捷径

    目前,新浪腾讯作为微博业内巨头,两家微博庞大的用户数量大家应该多少都知道。只是对于微博的价值,就不知你清楚了没?利用到了没? 微博自诞生以来,各类微博活动和事件层出不穷,如方舟子打假、宝贝回家、各类门
    Instagram被曝有2400万个僵尸用户

    Instagram被曝有2400万个僵尸用户

    [摘要]研究人员认为,Instagram宣称拥有三亿活跃用户的说法存在水分,另外Instagram去年曾经高调打击虚假帐号和僵尸账号问题,但是效果值得怀疑。  腾讯科技讯 在PC互联网时代,Faceb
    站长 你是否有效利用愚人节进行网络推广了

    站长 你是否有效利用愚人节进行网络推广了

    愚人节,是西方社会民间传统节日,节期在每年4月1日。不知什么时候,愚人节也在中国流行了,今天又是一年一度的愚人节。不瞒大家说,我今天上了六次当,根本不能分辨出信息的真伪,把我给害苦了,所以我坚决认为这
    2015十大美女创业者的吸金法则

    2015十大美女创业者的吸金法则

    (原标题:颜值就是生产力,2015十大美女创业者的神秘吸金法则)  本文来源于:亿欧网  1.美妆科学家创始人吴欣:科技美妆开拓者    今年年初,一则关于《她30秒画眉,萌过小芈月,超过一票人》的短
    说微商已死的人 你不懂就别放屁?

    说微商已死的人 你不懂就别放屁?

    最近看到很多大神发表言论说什么微商已死,说什么微商已经走到了尽头,说实话我非常不认同。我想问你真的了解这个行业,真的有做过微商还是凭空想象?你们不能把某一类微商模式的没落而把所有微商都卷进来。并且这样
    你知道那些大型网站都是怎么优化的吗

    你知道那些大型网站都是怎么优化的吗

    北京SEO秀才今天跟大家探讨一下大型电子商务网站或者大型门户站等的优化技巧,大型网站与小企业站点和博客站点优化有很大的差异,大型网站通常要 涵盖大量的关键词,做SEO做网站优化必须对企业以及行业的各种
    安眠药or催化剂 互联网企业在新三板上的嗑药行情

    安眠药or催化剂 互联网企业在新三板上的嗑药行情

    还记得2009年推出的《开心农场》这个偷菜游戏吗?  近日,开心农场的开发商人人游戏发布公告称,2月15日起公司股票正式在全国股转系统挂牌公开转让,转让方式为协议转让。据此前发布的《公开转让书》显示,
    如何通过SEO方案提升关键词排名

    如何通过SEO方案提升关键词排名

    从事SEO优化工作也有五六年之久,接触过大大小小的站很有很多,也有不少的案例,有过b2c 化妆品商城优化经验,OTA在线旅游度假平台(一呆网 http://www.estay.com/)、也有传统装修
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面