当前位置:首页给产品经理讲技术:一步一步写爬虫之网页分析 举报文章

给产品经理讲技术:一步一步写爬虫之网页分析

作者:admin    来源:用户投稿    时间:2016.5.28   

  爬虫说白了就是一个脚本程序。说到脚本,我们平时遇到一些费时费力又容易出错的活儿,都可以把用到的命令写到脚本里,让计算机自动来执行。

  

11111111111111111

  还记得之前文章里说的要把所有文章整理成pdf的计划吗?今天我们准备迈出第一步了。

  既然确定了用爬虫来自动整理文章,你得先理解爬虫是什么。爬虫说白了就是一个脚本程序。说到脚本,我们平时遇到一些费时费力又容易出错的活儿,都可以把用到的命令写到脚本里,让计算机自动来执行。测试同学说的自动化脚本,运维同学说的环境配置脚本,都是这个意思。一个脚本包含了很多命令,一个接一个,告诉计算机第一步干什么,之后干什么,最后干什么。

  在这里,我们的目标很明确,就是写一个爬虫脚本,让计算机一步一步的把「给产品经理讲技术」的所有历史文章,保存成pdf。

  历史文章哪里去找?正好,微信公众号的关注界面有一个查看历史消息的链接。

  

174241074159287027

  点开历史消息,这个页面每次显示10篇文章,如果用户滑到底,就会再加载10篇出来,典型的异步加载。我们要找的,就是每篇文章的URL地址。只要找到所有文章的URL,就能下载到每篇文章的内容和图片,然后就可以进一步加工处理成pdf了。

  

44055741905009368

  为此,我们长按页面选择在浏览器中打开,然后把地址栏里的URL复制出来,发送到电脑上,用Chrome打开。用Chrome的最大好处,就是它有一个「开发人员工具」,可以直接查看网页的源码。按下command+option+L,打开开发人员工具,就能看到这个网页的源码了。我们要找的东西,就藏在这些乱七八糟的HTML代码里。

  

877343383853865615

  如何从HTML源码里找到我们想要的文章链接呢?

  这要从HTML的结构说起。HTML全称超文本标记语言,所谓标记,就是说是它通过很多标签来描述一个网页。你看到很多像以开始,以结束的标志,就是标签。这些标签一般成对出现,标签里面还可以套标签,表示一种层级关系。最外面的html标签是最大的,head、body次之,一层一层下来,最后才是一段文字,一个链接。你可以把它类比成一个人,这个人叫html,有head,有body,body上有hand,hand上面有finger。

  

664523981847210969

  扯远了,一些常用的标签:

  1、。一个网页的很多重要信息,都是在这里声明的。比如说标题,就是在下的

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:产品  经理  技术  一步  一步一步  网页  分析  
  • 相关搜索
图片推荐
    2016年金融科技十大事件盘点

    2016年金融科技十大事件盘点

    继互联网金融之后,金融科技正在成为新的风口。  2016年被称为金融科技元年,回望这一年,中国在金融业的转型更为深入,无论是在规范化发展,还是在技术、体制创新等方面,都取得了长足的进步。而随着大数据、
    分享“我是特种兵2国之利刃”可进行营销的看点

    分享“我是特种兵2国之利刃”可进行营销的看点

    最近江苏卫视的一部电视剧《我是特种兵2国之利刃》挺火爆的,而且笔者最近也在追这样这部电视剧,除了开始几集之外,后面几集都还是挺好看的,看到现在呢,就有心去写一篇关于这部电视剧所营销的看点,毕竟想要成功
    520电商大促升温 丁磊:无上限投入考拉海购

    520电商大促升温 丁磊:无上限投入考拉海购

    网易科技讯 5月22日消息,这两天,一份5.20各大电商大促比价单在网络疯传。榜单上,以花王纸尿裤39元一包、牛栏奶粉128元一罐刷新价格底限的考拉海购,甩开京东全球购、聚美优品等直接竞争对手一大截,
    iOS 9刚出来 中国黑客就开始策划越狱的事了

    iOS 9刚出来 中国黑客就开始策划越狱的事了

    库克在6月8日苹果WWDC开发者大会现场发布了三大系统更新  凤凰科技讯 北京时间6月11日消息,据《福布斯》网站报道,在苹果公司刚刚宣布iOS 9将在今秋发布消息后不久,来自中国的精英黑客团队Kee
    iPhone“找回手机”功能要慎用!因为它会让你丧命

    iPhone“找回手机”功能要慎用!因为它会让你丧命

    手机丢了怎么办?很多人会自认倒霉,而现在随着科技发展,大家会启用找回手机功能,或是用有此类选项的App做做努力。但是万万没想到的是,这也有可能会让你丧命。  18岁的小伙子Jeremy Cook就是一
    致站长:要多看多说还要多做

    致站长:要多看多说还要多做

    昨天和一个公司的网络推广主管聊天,他说4月份他们公司网络推广部又招人了。我开玩笑说,你丫怎么不招我啊?他说,你太水了,要求还高。天道不公啊,看来我现在是没人要了,爹不疼娘不爱的。好像有点跑题了?话说回
    网络从业青年高收入人少 六成人月薪不足6000元

    网络从业青年高收入人少 六成人月薪不足6000元

    工作这么累,花钱的时候就不想再难为自己了。今年是28岁的邱琪在北京某互联网巨头工作的第三年。2012年,她从传媒类专业毕业后不久,就进入这家互联网公司做产品经理,经历了多次考核和升级,现在收入比许多同
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面