当前位置:首页Python3脚本取百度站长平台外链数据分析 举报文章

Python3脚本取百度站长平台外链数据分析

作者:admin    来源:用户投稿    时间:2015.6.10   

  为了对百度站长工具外链工具中查询的外链数据进行分析,特意写了个Python的脚本,通过直接get站长平台的数据,将所有数据保存进行分析后导出站内被链接页面+次数,外链根域+该域名下链接数量,锚文本+锚文本使用次数,当然了,既然可以获取到数据就可以对数据进行更多维度的分析,本脚本只进行以上三方面的分析,如有其它需求可自行扩展。

  下面贴出代码及说明:

  下面是脚本的第一个函数:

  说明:这一段函数主要取得百度站长平台外链工具中查询到的网站外链的所有数据并写入all_data这个列表中。

  #coding=utf-8

  import json#调用json模块

  import urllib.request#调用urllib.request模块

  def url_outerlink_anchor(url):#获取站长平台数据

  html1 = urllib.request.urlopen('http://zhanzhang.baidu.com/inbound/detail?d=%s&pagesize=100&page=1'%url).read().decode('utf-8')#打开第一个外链列表

  data1 = json.loads(html1)#转换为json格式

  outerlink_num = int(data1['count'])#获取外链总数

  range_page_num = outerlink_num//100+2#每页显示100条,外链总页面数

  range_page_num_list = range(1,range_page_num)#比如计算后range_page_num=4,则range_page_num_list = [1,2,3],每页显示100条外链则有3页

  #上边的计算主要是为了下边可以获取全部数据

  all_data = []

  for i in range_page_num_list:#for循环提取数据并追加到all_data列表中

  html=urllib.request.urlopen('http://zhanzhang.baidu.com/inbound/detail?d=%s&pagesize=100&page=%r'%(url,i)).read().decode('utf-8')

  data = json.loads(html)

  urls=[]

  for item in data['list']:

  urls.append([item['url'],item['outer_url'],item['anchor']])#提取url,外链,锚文本

  all_data.extend(urls)

  return all_data#返回所有数据列表all_data

  下面是脚本的第二个函数:

  说明:这一段函数主要获取网站被链接的所有页面及其被链接的次数并写入csv文件。

  def every_page_num(url):#获取每个页面被链接次数

  all_data = url_outerlink_anchor(url)#所有数据

  url_list = []

  for item in all_data:#取页面数据追加到url_list中

  url_list.append(item[0])

  quchong_url_list = {}.fromkeys(url_list).keys()#去重页面数据

  file = open('%s_every_page_num.csv'%url,'a+')#创建并打开csv文件

  for item in quchong_url_list:

  file.write(item+','+str(url_list.count(item))+'\n')#写入页面,页面被连接次数

  file.close()

  return True

  结合本函数获得的数据制作出饼图效果:

  

网站被链接页面及被链接次数

  结合以上数据可制定网站后期链接建设计划。

  下面是脚本的第三个函数:

  说明:这一段函数主要取得所有外链根域并统计根域下所有指向网站的链接数量并写入csv文件。

  def outer_url_num(url):#获取外链根域及每个域名下的链接数量

  all_data = url_outerlink_anchor(url)#所有数据

  outer_url_list = []

  for item in all_data:#取外链数据追加到outer_url_list中

  outer_url_list.append(item[1])

  genyu = []

  for link in outer_url_list:#取外链根域并追加到genyu中

  genyu.append(link[:link.index('/')])

  qu_chong_genyu = {}.fromkeys(genyu).keys()#genyu中数据去重,为了下边统计次数

  file = open('%s_outer_url_num.csv'%url,'a+')#创建并打开csv文件

  for item in qu_chong_genyu:#统计每个根域下链接次数并写入文件

  file.write(item+','+str(genyu.count(item))+'\n')

  file.close()

  return True

  结合本函数获得的数据制作出饼图效果:

  

网站外链根域及根域下链接数量

  结合以上数据可平衡外链的广泛度和来源域数量。

  下面是脚本的第四段函数:

  说明:这一段函数主要取得所有锚文字并统计锚文字链接次数并写入csv文件。

  def anchor_num(url):

  all_data = url_outerlink_anchor(url)

  anchor_list = []

  for item in all_data:

  anchor_list.append(item[2])

  quchong_anchor_list = {}.fromkeys(anchor_list).keys()

  file = open('%s_anchor_num.csv'%url,'a+')

  for item in quchong_anchor_list:

  file.write(item+','+str(anchor_list.count(item))+'\n')

  file.close()

  return True

  结合本函数获得的数据制作出饼图效果:

  

锚文本及锚文本链接数量

  结合以上数据主要对网站锚文本建设作出规划,当然了,如果继续对数据进行分析,统计到每个页面的锚文本即可定植全站的链接计划。

  下面是执行函数,修改url='http://www.****.com/'中的http://www.****.com/为自己的网站即可。

  if __name__ == '__main__':

  url='http://www.***.com/'

  url_outerlink_anchor(url)#执行第一个函数获取数据

  every_page_num(url)#执行第二个函数

  outer_url_num(url)#执行第三个函数

  anchor_num(url)#执行第四个函数

  以上就是本脚本所有内容,当然通过第一个函数获取数据后就可以随意进行多维度的分析了,以上只简单介绍了主要的三种,大家还可根据自己需要进行扩展。

  本文由老姜为可怜的磨料站(金刚砂http://www.moliao88.com/)推广所作,请尊重他人劳动成果,转载请注明出处。

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:脚本  百度  站长  平台  数据  据分析  分析  
  • 相关搜索
图片推荐
    高大上的律师网站如何引导流量增加案源!

    高大上的律师网站如何引导流量增加案源!

    目前律师看待一个网站的陈功与否,更多的体现在一个网站的流量上面。网站有了流量,案源自然也就有了。这里所说的流量是自然流量,不是找个软件刷流量,刷流量百害无一利。刷流量对于一个网站来说就等于是作死的行为
    谈谈卢松松举办的YY语音逆袭大会,屌丝也有春天

    谈谈卢松松举办的YY语音逆袭大会,屌丝也有春天

    由卢松松举办的的YY分享逆袭会,在2014年12月10日的凌晨时分圆满结束了。整天分享会议讲了有四个小时,有礼品,有干货,有站长界名人,还有我们这帮苦逼的屌丝。收获了很多,也学到了很多,也与大家分享一
    SEO综合元素分数计算:51分

    SEO综合元素分数计算:51分

    作为SEO从业者,如果不知道一些搜索引擎的排名机制,想要获得好的排名也是有一定的困难,了解搜索引擎排名机制能更好的为我们工作,从而让我们更了解排名的机制算法。如以下图解。SEO元素周期表,是很早就公布
    运营主管教你如何3分钟分析竞争对手的网站

    运营主管教你如何3分钟分析竞争对手的网站

    做网站运营主管这么多年一直负责各个企业的网站运营,经手的网站也不在少数,从小型企业站到大型门户,以及商城网站等等都离不开分析,其中最重要的也是最关键的就是分析竞争对手的网站,兵法有云知已知彼,百战不殆
    跟踪外推情况怎么做?大家不得不了解的跟踪排名方法

    跟踪外推情况怎么做?大家不得不了解的跟踪排名方法

    在很多人心里,网络推广都是一项磨洋工的活计,这么说是因为每天发着重复的关键词、重复的文章,反反复复一遍又一遍,实在是无聊至极但却又不得不做!但最愁人的还不是这点,而是即便咱们这么拼尽全力的去做了却没有
    90分钟、8000箱,罗辑思维图书包的前情后事

    90分钟、8000箱,罗辑思维图书包的前情后事

    卖罗辑思维图书包这事儿就过去一个多月了。作为一个从图书行业伸了一只脚去互联网上试了试水温的人,我深知这个时间对不同的人有不同的概念。在互联网上,这个故事已经过去,而在行业之中,它至少目前与大多数人无关
    支付宝展示最新掌纹支付 可刷手购物

    支付宝展示最新掌纹支付 可刷手购物

    支付宝一直在致力于生物识别支付技术的研发,继声波、指纹、人脸支付之后,支付宝在刚刚开幕的ChinaJoy上展示了最新的掌纹支付,看起来相当方便。  从业内人士@孙昌旭提供的现场图片来看,用户只要将掌纹
    网站优化如何有效的堆砌关键词?

    网站优化如何有效的堆砌关键词?

    网站关键词是一个网站优化的核心,整个网站的优化工作包括内容、内链、外链、用户体验等都应该围绕这个关键词进行展开。网页上重复出现的一个关键词肯定是需要获得排名的,重复出现就是为了突出该词,提高相关性,这
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面