当前位置:首页robots.txt文件 淘宝客网站该如何规范写作? 举报文章

robots.txt文件 淘宝客网站该如何规范写作?

作者:admin    来源:用户投稿    时间:2015.6.11   

  1.robots.txt含义

  Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。(百度百科copy来的)

  通俗说:就是用一个文本来控制百度蜘蛛,谷歌机器人等搜索引擎,我们的网站哪些不要去抓取,哪些要去抓取,别瞎抓,要按章程来。

  2.robot.txt写作

  robots涉及的名字有许多,以下也是copy百度的:

  User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

  Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

  Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

  Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

  Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

  Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址

  Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

  Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

  Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录

  Allow: /tmp 这里定义是允许爬寻tmp的整个目录

  Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。

  Allow: .gif$ 允许抓取网页和gif格式图片

  Sitemap: 网站地图 告诉爬虫这个页面是网站地图

  解析:Disallow 是不允许,allow是允许。许多新手开始会犯一个重大错误:直接allow不就得了,剩下就是不允许的,鸭子我就会告诉大家如果你们这样写就是大错特错了,robots协议是先生效不允许Disallow后才会有allow的出现,也就是Disallow是先诞生,才会触发allow命令的执行(比如:先有鸡蛋,才会有公鸡)

  3.robots写作规范

  关于写robots协议大家不要盲目直接copy上方的,因为每个程序的文件由你自己本身网站所产生。

  比如:你网站根目录下自行创建了一个tbk文件夹,那么如果要屏蔽它怎么办?

  写法:(因为如果是第一次写,建议先创建一个本地命名一个robots.txt文本)

  User-agent: *

  Disallow: /tbk

  注意:1.Disallow的开头要大写!allow也是要大写!,特别注意,否则是不生效的

  2.冒号和/ 之间要存在空格,/代表的是网站根目录下,/tbk代表根目录下的tbk文件夹

  3.User-agent:*代表所有搜索引擎蜘蛛,一个robots只出现一次。

  解析:这样的写法告诉搜索引擎:我的网站针对所有搜索引擎蜘蛛在访问网站时,不允许抓取网站根目录下tbk文件夹内的所有文件。

  总结:以此类推,如果你想禁止你的网站某些文件爬取,就应该去好好涉及一番了。

  本文属淘宝客SEO博客首发: http://www.tbkseo.com 转载请注明出处。

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:文件  网站  该如何  如何  规范  写作  
  • 相关搜索
图片推荐
    新规定下 软文营销该从何下手?

    新规定下 软文营销该从何下手?

    在营销领域,软文营销已经形成了一股势不可挡的力量。和传统的营销手段相比,软文营销效果更快、成本更低且能更快得到宣传效果!  不过今年9月1日起,《互联网广告管理暂行办法》正式开始实施。《暂行办法》明确
    淘宝打假从线上延伸至线下,到底在跟谁博弈?

    淘宝打假从线上延伸至线下,到底在跟谁博弈?

    昨天淘宝发布了2014年打假报告,通报了线下假货的流通情况,也基本确立了线上为线索,线下溯源的线上线下打假模式。但淘宝要将打假战场由主场的线上延伸至线下,又非那么简单。其中充满了各方势力博弈。    
    网站数据分析之——网站内容质量分析

    网站数据分析之——网站内容质量分析

    个人理解网站内容质量主要体现在:网站内容详细的原创度和原创比例、用户需求匹配度和用户体验、描文本布局合理性。  题外话SEO行业的前期要求SEOer是这样的:技术+编辑+美工+运营,现在发展的SEO行
    外链还在:问问正式并入搜狗

    外链还在:问问正式并入搜狗

    问问君已经加入搜狗搜索大家庭,开始启用新的网址wenwen.sogou.com,除了更换域名、增加了搜狗表示,其他没有任何变化,依然可以用QQ号登陆,虽然这事上个月就开始了。    好消息是,问问做了
    2014最新淘宝SEO技术大解密 健康的淘宝生态产品框架

    2014最新淘宝SEO技术大解密 健康的淘宝生态产品框架

    时至今日,小舟觉的应该没有人在质疑 淘宝SEO的流量,淘宝搜索的流量了;它的价值 赤裸裸的放在那里,流量巨大且免费;流量稳定且精准;流量优质且高效;  面对淘宝内的流量日渐高昂,昂贵到让人咋舌的时候,
    解析百度蜘蛛如何抓取网站和提高抓取频率

    解析百度蜘蛛如何抓取网站和提高抓取频率

    做seo的小伙伴对百度搜索引擎和蜘蛛是情有独钟啊,因为目前百度是国内PC端和移动端搜索引擎的老大,seo的小伙伴当然是希望百度蜘蛛能够更多的抓取网站,只有抓取的页面多了,才有可能获得更好的收录、排名和
    你想创业?在那之前要先选一个好助手

    你想创业?在那之前要先选一个好助手

    机会与危险都是并存的,其实创业是非常难的一件事情,李想曾说过这么一句话:任何时候做任何事,订最好的计划,尽最大的努力,作最坏的准备。    创业,必先要有个好项目,又或是自己想做的项目。一旦选定了就不
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面