当前位置:首页对症下药:了解搜索引擎工作原理,再做SEO!(上) 举报文章

对症下药:了解搜索引擎工作原理,再做SEO!(上)

作者:admin    来源:用户投稿    时间:2015.6.10   

  你知道“百度”这个搜索引擎是怎么工作的吗?你有过这样的疑惑吗,同样网站主题,为什么在百度上他的排名在我前面?其实都是百度的排序算法左右着我们的网站排名。那好,我们只要摸清楚百度是如何给我们这些网站排名的话,我们就能对症下药把我们网站优化成它喜欢的网站,排名自然就上去喽!

  其实,搜索引擎的工作过程大体上可分为三个阶段:

  一、爬行和抓取--搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。

  二、预处理--索引程序对抓取来的页面数据进行文字提取,中文分词,索引等处理,以备排名程序调用。

  三:排名--用户入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。

  那么问题来了!我们知道,要想让我们的网站让百度收录到它的数据库中,就必须让百度蜘蛛在茫茫的互联网中发现我们,蜘蛛的工作原理是顺着网站的链接地址进行爬行抓取页面信息,单从理论上来说蜘蛛可以爬行和抓取互联网上所有页面,但是实际上不能,也不会这么做,在这种前提下,蜘蛛所要做的就是尽量抓取重要页面。 所以,我们SEO人员要想让自己的更多页面被收录,就要想方设法吸引蜘蛛来抓取。

  被搜索引擎认为符合重要页面的几个因素:

  1、网站和页面权重

  2、页面更新度

  3、导入链接

  4、与首页点击距离

  我们只有让我们的网站向上面这4条信息靠拢,才会被蜘蛛发现并收录到数据库中。好了,当我们的网站信息被百度收录后接下来就可以分为以下几个步骤:

  1、预处理。在一些SEO材料中,“预处理”也被简称为“索引”,因为索引是预处理最主要的步骤。我们知道在百度数据库中收录的并不是现成的页面,而是“HTML”标签源代码,搜索引擎预处理的工作内容首先除去HTML代码后,剩下的用于排名的文字只是一行。

  除了可见文字,搜索引擎也会提取出一些特殊的包含文字信息的代码,如:META标签中的文字,图片替代文字,Flash文件中的替代文字,链接锚文字等。

  2、中文分词(这是中文搜索引擎所独有的,谁让我们的文化博大精深呢,没办法,就是任性!)。中文分词方法基本上有两种: 1、基于词典匹配--将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。 2、基于统计--指的是分析大量文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。

  3、去停止词 。停止词--无论是英文还是中文,页面内容中都会出现频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,“啊”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词,这些词被称为停止词。 因为这些停止词对页面的主要意思没什么影响,所以搜索引擎索引页面之前会去掉停止词,使索引数据主题更为突出,减少无谓的计算量。

  4、消除噪声。所谓噪声,就是除了停止词以外,对页面主题没有什么贡献的因素,比如:博客页面的“文章分类”、“历史存档”等。

  消噪的基本方法: 根据HTML标签对页面分块,区分出页头,导航,正文,页脚,关高等区域,在网站上大量重复出现的区块旺旺属于噪声。对页面进行消噪后,剩下的才是页面主题内容。

  5、去重。搜索引擎在进行索引前还需要识别和删除重复内容,这个过程就称为“去重”。其意义在于提升用户体验(搜索引擎不喜欢重复性内容)。

  去重方法: “去重”的基本方法是对页面特征关键词计算指纹,也就是说从页面主题内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词),然后计算这些关键词的数字指纹。

  6、正向索引 。正向索引也可以简称为索引 ,搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。并由文件ID映射着其关键词内容,一一对应。

  7、倒排索引。正向索引还不能用于排名,最终用于排名的是倒排索引。所以搜索引擎会将正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词的文件的映射。

  8、链接关系计算。链接关系计算也是预处理中很重要的一部分。 搜索引擎在抓取页面内容后,必须事前计算出: 页面上有哪些链接指向哪些其他页面 每个页面有哪些导入链接 链接使用了什么锚文字 这些复杂的链接指向关系形成了网站和页面的链接权重。

  9、特殊文件处理。

  搜索引擎除了可以抓取HTML文件外,通常还能抓取和索引以文字为基础的多种文件类型,如:PDF、WORDS、WPS、PPT、TXT等文件。 目前搜索引擎还不能处理图片、视频、Flash这类非文字内容,也不能执行脚本和程序。

  小编自己的见解:(到这一步我们能利用一下其特性。我们都知道网站的相关性直接影响网站的排名,而我们的网站中必须穿插的其他的不相关信息,比如联系方式,等等。我们可以把这些做成图片或者视频放到我们网站上,这样百度预处理程序不认识图片或者视频,而我们的相关度就会比其他网站高,百度当然会向用户优先推荐我们喽!)

  做完上面这几件事后,最后的工作就是排名了。由于这里写不下,还望大家关注我下一篇文章哦,我会详细讲解搜索引擎是如何给我们的网站进行排名的。也欢迎大家有什么问题能跟我交流讨论!

  作者:小沛

  QQ:1049554551

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
  • 相关搜索
图片推荐
    SEO版《西游记》之一年的SEO取经之路

    SEO版《西游记》之一年的SEO取经之路

    seo是个很神奇的东西,很多人都想明白SEO到底是个什么东东,这么的神奇,大家也发誓要学会SEO。就像唐僧取经一样,即有万般劫难也要一心上西天取经。历经九九八十一难,妖魔鬼怪众多。但最终都没有放弃,当
    史上最正式最可爱的官宣:国防部视频宣读微博抽奖

    史上最正式最可爱的官宣:国防部视频宣读微博抽奖

    你见过最正式的抽奖是什么?当然不是彩票那一种了。在国防部新闻发布会上被发言人念出ID是什么感受?你就理解为何说是史上最正式的抽奖了。近日,国防部新闻局局长、国防部新闻发言人吴谦大校在新闻发布会上公布了
    美图秀秀创始人吴欣鸿:从千万小子到亿万先生

    美图秀秀创始人吴欣鸿:从千万小子到亿万先生

    【编者按】每一年的30岁以下创业新贵都会有些新面孔,同时,也都会有漏网之鱼,比如1981年出生的美图秀秀创始人吴欣鸿。这当然和我的视野有关,但不可否认,在北上广深之外的很多地方,都隐藏着一些不为外界所
    百度绿萝算法2.0来袭,高质量外链该何去何从?

    百度绿萝算法2.0来袭,高质量外链该何去何从?

    曾几何时,网站外链是何等容易,排名刷刷的上。自从2012.6.22以后,似乎外链这条路越走越窄,从关于超链作弊的算法升级,到百度绿萝算法上线,到石榴算法出现,再到如今的百度绿萝算法2.0来袭。抛开见不
    两年了 中国电信爱WiFi靠什么赚钱?

    两年了 中国电信爱WiFi靠什么赚钱?

    对于运营商发展WiFi持有不同的观点,尤其是经历了中国移动断崖式的WiFi发展之后,很多人对WiFi持怀疑态度。人们不禁会问,有了4G,运营商还需要WiFi吗?运营级的WiFi能够盈利吗?爱WiFi的
    女子洗澡手机掉入浴缸:惨剧一幕发生

    女子洗澡手机掉入浴缸:惨剧一幕发生

    因为手机充电而引发意外的悲剧报道时有发生,据俄罗斯新闻2月15日报道,俄罗斯首都莫斯科一女子在洗澡时,手机掉入浴缸,惨被电死。据了解,当地时间2月13日晚,莫斯科一名14岁的女子在自家浴缸中死亡。经法
    dedecms网站模板路径安全设置技巧从此远离盗用

    dedecms网站模板路径安全设置技巧从此远离盗用

    很多站长朋友都在使用dedecms,而且大量的企业网站也都在使用,在这样的大环境下难免不会出现漏洞,所以dedecms的安全性成为众矢之的。其实,如果把dedecms的安全问题解决掉,它还真是一款非常
    IBM叫停SOHO办公 创业公司还要学习谷歌吗?

    IBM叫停SOHO办公 创业公司还要学习谷歌吗?

    SOHO办公一度是个十分流行的概念。据美国民意调查机构Gallup poll统计,美国每四个人中就有一个人选择SOHO办公。  中国创业者最崇拜的就是自由式、咖啡厅式的谷歌办公环境。  但现在,即使是
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面