当前位置:首页Python3脚本取百度站长平台外链数据分析 举报文章

Python3脚本取百度站长平台外链数据分析

作者:admin    来源:用户投稿    时间:2015.6.10   

  为了对百度站长工具外链工具中查询的外链数据进行分析,特意写了个Python的脚本,通过直接get站长平台的数据,将所有数据保存进行分析后导出站内被链接页面+次数,外链根域+该域名下链接数量,锚文本+锚文本使用次数,当然了,既然可以获取到数据就可以对数据进行更多维度的分析,本脚本只进行以上三方面的分析,如有其它需求可自行扩展。

  下面贴出代码及说明:

  下面是脚本的第一个函数:

  说明:这一段函数主要取得百度站长平台外链工具中查询到的网站外链的所有数据并写入all_data这个列表中。

  #coding=utf-8

  import json#调用json模块

  import urllib.request#调用urllib.request模块

  def url_outerlink_anchor(url):#获取站长平台数据

  html1 = urllib.request.urlopen('http://zhanzhang.baidu.com/inbound/detail?d=%s&pagesize=100&page=1'%url).read().decode('utf-8')#打开第一个外链列表

  data1 = json.loads(html1)#转换为json格式

  outerlink_num = int(data1['count'])#获取外链总数

  range_page_num = outerlink_num//100+2#每页显示100条,外链总页面数

  range_page_num_list = range(1,range_page_num)#比如计算后range_page_num=4,则range_page_num_list = [1,2,3],每页显示100条外链则有3页

  #上边的计算主要是为了下边可以获取全部数据

  all_data = []

  for i in range_page_num_list:#for循环提取数据并追加到all_data列表中

  html=urllib.request.urlopen('http://zhanzhang.baidu.com/inbound/detail?d=%s&pagesize=100&page=%r'%(url,i)).read().decode('utf-8')

  data = json.loads(html)

  urls=[]

  for item in data['list']:

  urls.append([item['url'],item['outer_url'],item['anchor']])#提取url,外链,锚文本

  all_data.extend(urls)

  return all_data#返回所有数据列表all_data

  下面是脚本的第二个函数:

  说明:这一段函数主要获取网站被链接的所有页面及其被链接的次数并写入csv文件。

  def every_page_num(url):#获取每个页面被链接次数

  all_data = url_outerlink_anchor(url)#所有数据

  url_list = []

  for item in all_data:#取页面数据追加到url_list中

  url_list.append(item[0])

  quchong_url_list = {}.fromkeys(url_list).keys()#去重页面数据

  file = open('%s_every_page_num.csv'%url,'a+')#创建并打开csv文件

  for item in quchong_url_list:

  file.write(item+','+str(url_list.count(item))+'\n')#写入页面,页面被连接次数

  file.close()

  return True

  结合本函数获得的数据制作出饼图效果:

  

网站被链接页面及被链接次数

  结合以上数据可制定网站后期链接建设计划。

  下面是脚本的第三个函数:

  说明:这一段函数主要取得所有外链根域并统计根域下所有指向网站的链接数量并写入csv文件。

  def outer_url_num(url):#获取外链根域及每个域名下的链接数量

  all_data = url_outerlink_anchor(url)#所有数据

  outer_url_list = []

  for item in all_data:#取外链数据追加到outer_url_list中

  outer_url_list.append(item[1])

  genyu = []

  for link in outer_url_list:#取外链根域并追加到genyu中

  genyu.append(link[:link.index('/')])

  qu_chong_genyu = {}.fromkeys(genyu).keys()#genyu中数据去重,为了下边统计次数

  file = open('%s_outer_url_num.csv'%url,'a+')#创建并打开csv文件

  for item in qu_chong_genyu:#统计每个根域下链接次数并写入文件

  file.write(item+','+str(genyu.count(item))+'\n')

  file.close()

  return True

  结合本函数获得的数据制作出饼图效果:

  

网站外链根域及根域下链接数量

  结合以上数据可平衡外链的广泛度和来源域数量。

  下面是脚本的第四段函数:

  说明:这一段函数主要取得所有锚文字并统计锚文字链接次数并写入csv文件。

  def anchor_num(url):

  all_data = url_outerlink_anchor(url)

  anchor_list = []

  for item in all_data:

  anchor_list.append(item[2])

  quchong_anchor_list = {}.fromkeys(anchor_list).keys()

  file = open('%s_anchor_num.csv'%url,'a+')

  for item in quchong_anchor_list:

  file.write(item+','+str(anchor_list.count(item))+'\n')

  file.close()

  return True

  结合本函数获得的数据制作出饼图效果:

  

锚文本及锚文本链接数量

  结合以上数据主要对网站锚文本建设作出规划,当然了,如果继续对数据进行分析,统计到每个页面的锚文本即可定植全站的链接计划。

  下面是执行函数,修改url='http://www.****.com/'中的http://www.****.com/为自己的网站即可。

  if __name__ == '__main__':

  url='http://www.***.com/'

  url_outerlink_anchor(url)#执行第一个函数获取数据

  every_page_num(url)#执行第二个函数

  outer_url_num(url)#执行第三个函数

  anchor_num(url)#执行第四个函数

  以上就是本脚本所有内容,当然通过第一个函数获取数据后就可以随意进行多维度的分析了,以上只简单介绍了主要的三种,大家还可根据自己需要进行扩展。

  本文由老姜为可怜的磨料站(金刚砂http://www.moliao88.com/)推广所作,请尊重他人劳动成果,转载请注明出处。

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:脚本  百度  站长  平台  数据  据分析  分析  
  • 相关搜索
图片推荐
    2016年金融科技十大事件盘点

    2016年金融科技十大事件盘点

    继互联网金融之后,金融科技正在成为新的风口。  2016年被称为金融科技元年,回望这一年,中国在金融业的转型更为深入,无论是在规范化发展,还是在技术、体制创新等方面,都取得了长足的进步。而随着大数据、
    分享“我是特种兵2国之利刃”可进行营销的看点

    分享“我是特种兵2国之利刃”可进行营销的看点

    最近江苏卫视的一部电视剧《我是特种兵2国之利刃》挺火爆的,而且笔者最近也在追这样这部电视剧,除了开始几集之外,后面几集都还是挺好看的,看到现在呢,就有心去写一篇关于这部电视剧所营销的看点,毕竟想要成功
    520电商大促升温 丁磊:无上限投入考拉海购

    520电商大促升温 丁磊:无上限投入考拉海购

    网易科技讯 5月22日消息,这两天,一份5.20各大电商大促比价单在网络疯传。榜单上,以花王纸尿裤39元一包、牛栏奶粉128元一罐刷新价格底限的考拉海购,甩开京东全球购、聚美优品等直接竞争对手一大截,
    iOS 9刚出来 中国黑客就开始策划越狱的事了

    iOS 9刚出来 中国黑客就开始策划越狱的事了

    库克在6月8日苹果WWDC开发者大会现场发布了三大系统更新  凤凰科技讯 北京时间6月11日消息,据《福布斯》网站报道,在苹果公司刚刚宣布iOS 9将在今秋发布消息后不久,来自中国的精英黑客团队Kee
    iPhone“找回手机”功能要慎用!因为它会让你丧命

    iPhone“找回手机”功能要慎用!因为它会让你丧命

    手机丢了怎么办?很多人会自认倒霉,而现在随着科技发展,大家会启用找回手机功能,或是用有此类选项的App做做努力。但是万万没想到的是,这也有可能会让你丧命。  18岁的小伙子Jeremy Cook就是一
    致站长:要多看多说还要多做

    致站长:要多看多说还要多做

    昨天和一个公司的网络推广主管聊天,他说4月份他们公司网络推广部又招人了。我开玩笑说,你丫怎么不招我啊?他说,你太水了,要求还高。天道不公啊,看来我现在是没人要了,爹不疼娘不爱的。好像有点跑题了?话说回
    网络从业青年高收入人少 六成人月薪不足6000元

    网络从业青年高收入人少 六成人月薪不足6000元

    工作这么累,花钱的时候就不想再难为自己了。今年是28岁的邱琪在北京某互联网巨头工作的第三年。2012年,她从传媒类专业毕业后不久,就进入这家互联网公司做产品经理,经历了多次考核和升级,现在收入比许多同
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面