当前位置:首页用火车头采集百度知道的方法 举报文章

用火车头采集百度知道的方法

作者:admin    来源:用户投稿    时间:2015.6.11   

  上星期百度姐讲了自己提高百度文库通过率的几点方法(百度姐:如何提高百度文库通过率),当时也有说到要把百度知道火车头采集方法告诉大家,今天就讲讲百度知道的采集方法。

  第一步:下载百度知道的规则。

  百度知道的规则下载:http://url.cn/OGraeM

  火车头规则的卷写需要看到页面程序,现在就不讲怎么写采集规则了,百度姐直接把自己写的规则放出来,大家可以直接下载,导入到火车头里面就可以使用了。

  百度姐的这个规则是搜索“祛斑”关键词的一个规则。如果大家需要采集其他关键词的百度知道,可以相应修改一下就ok了。

  第二步:下载火车头。

  大家可以上网上下载也可以用百度姐已经下载好的,百度姐使用的是火车采集器8.0,截至到现在应该算最高版本了,百度姐用的是免费版本的,所以有限功能会有现在,但是免费版本的采集内容到本地服务器还是可以的。貌似没有发布功能。

  火车采集器8.0下载:http://url.cn/TQzMu3

  第三步:安装火车采集器8.0。

  下载了火车采集器8.0之后,直接解压就可以使用了。打开解压的文件夹,点击LocoyPlatform文件就可以了。 

  第四步:导入百度知道采集规则。

  先创建一个分组,随便命名,方便自己以后查找使用。百度姐创建了一个百度知道的分组。如图:  

  选择我们刚刚创建的百度知道分组,点击右键,选择导入任务至该组。点击确定。如图:

  第五步:开始采集。

  选择刚刚导入的祛斑百度知道规则,勾选采网址、 采内容和发布(发布功能貌似免费版本没有此功能)。  

  极度条到头就采集成功。如下图,这次总共是采集了355条。这个百度知道可以每天都采集,因为百度知道每天都会更新。  

  第六步:本地数据。

  选择任务(就是刚刚上传的祛斑规则),右键选择编辑任务,百度姐给大家详细介绍一下这个规则的几个重要的东西。如下图:

  

  1.第一步采集网站规则:这一步主要是抓起百度知道列表页中的网址,百度知道每页10篇网址。 

  A.选择起始网址,在选择修改,就可以修改采集其他关键词百度知道了。这个可能有些复杂,等过段时间,百度姐详细截图演示一下。

  B.勾选检测重复网址。那么第二次采集的时候就不会重新采集之前已经采集过了的网址。

  C.测试网址。在没有开始采集或者采集出现错误的时候,可以先测试是否是网址抓起失败。出现前面的加号,就代表第一步网址抓起没有出现问题。  

  2.第二布:采集内容规则。

  A、百度姐这边的百度知道规则只抓取问题(问题标签),最佳答案(问题1标签)和第二个答案(问题2标签),如果大家需要抓抓取第三个答案,就必须添加问题3的标签,需要查看页面代码,找出此答案前后唯一的代码才可以。这块百度姐以后花时间详细写一下。

  B、典型页面。这边可以找一个知道的内容页,有最佳答案和第二个答案的,点击测试,就可以看到此网页采集到的内容。如果没有最佳答案,问题1的部分是空白的。第二个答案也是一样的,如果页面中没有第二个答案,那么这个采集到的问题2的部分就是空白的。  

  C、如果百度知道采集太多,会出现采集不到内容的问题,如下图1,这是因为百度官方限制。所以采集的时候不要频繁采集。把网址放浏览器打开就如图2,如果条件允许,可以买个vpn更换ip,就可以继续使用了。

  图1:

  图2:

  3.第三步:发布内容设置。

  A、看截图红框的部分,设置好路径,采集成功后,直接找到文件打开就可以了。

  B、如果打不开,大家可以现在数据库软件Access安装,在打开。百度姐用的是Access2003,提供下载地址。

  Access2003下载地址:http://url.cn/P9gnVm 

  今天就说到这里吧,微信上有朋友跟我要火车头百度知道的采集规则,如果有想要的朋友可以微信百度姐:baidujie。如果不出意外的话,下次博文会放出来,会更细节一些,大家感兴趣的可以把百度姐的博客收藏到浏览器收藏夹,百度姐每周最少周二会更新。百度姐感激大家的关注!

  原创地址: http://www.baidujie.org/?p=87

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:火车  火车头  车头  采集  百度  知道  知道的  方法  
  • 相关搜索
图片推荐
    不改变这两点 你的B2B内容营销基本被判了死刑

    不改变这两点 你的B2B内容营销基本被判了死刑

    如果你认为内容营销算不上一个足够大的挑战,( 一方面花费大量的时间创建和分发内容,另一方面又要又要衡量这些内容是否能够驱动用户进行消费从而获取回报。)那么想象一下,B2B领域针对技术的内容营销人员,又
    SEO技巧篇01:一篇文章三个标题

    SEO技巧篇01:一篇文章三个标题

    可能很多人不明白我这个标题的意思,一篇文章就一个标题,怎么有三个标题呢?其实我说的标题是站在SEO的角度来阐述的文章标题(title1、title2、title3)。    文章是一个网站流量极其重要
    最近很火的小红书,是如何创造引爆点的?

    最近很火的小红书,是如何创造引爆点的?

    购物平台小红书成立不过两年,百度指数两周内飙升30倍,APP Store排名三天内超越京东、唯品会。6月6日周年庆,帅哥送快递引爆朋友圈。怎么做到的?从环境威力法则、个别人物法则及附着力法则来分析。 
    产品运营:APP上线前,如何做运营推广工作?

    产品运营:APP上线前,如何做运营推广工作?

    一 竞品分析  1.选择竞品,做好定位(选择两个产品最好,最多三个)  如何获取竞品?  A 百度搜索类似产品关键词,假设你的产品是一款旅游分享类APP,你可以输入主要关键词旅游app,一般排在自然排
    分析网站以提醒大家建站需注意哪些方面

    分析网站以提醒大家建站需注意哪些方面

    一、代码部分  (1)代码不完整,缺少结束标签,建议加上;另外核心关键词设置太多,建议3~5个最佳;而且title最好放到meta部分前面。  (2)可以适当使用一个h1标签,最好加在核心关键词上,增
    网络营销之——农田营销法则

    网络营销之——农田营销法则

    其实很多事情都是想通的,现下最流行的网络营销和传统的营销模式区别在那?就是营销的手段不同,采用的媒介不同,但是它们的最终目的都是相同的,为了品牌或是销售的提升。今天我们不讨论两种营销方式的优劣,从本质
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面