首页 > 学术百科

爬取酷狗top500歌曲热度排名

爬取酷狗top500歌曲热度排名⼀、主题式⽹络爬⾍设计⽅案

1.主题式⽹络爬⾍

爬取酷狗top500歌曲热度排名

2.主题式⽹络爬⾍爬取的内容与数据特征分析

内容及数据特征分析：对酷狗TOP500上歌曲的热度排⾏做⼀个可视化表格，

主要是爬取酷狗⾳乐榜单酷狗TOP500的歌曲排名

3.主题式⽹络爬⾍设计⽅案概述（包括实现思路与技术难点）

实现思路：⽤requests库抓取页⾯信息，⽤BeautifulSoup库解析⽹页，创建excel存储数据进⾏数据分析技术难点：excel的创建和相关系数散点图与建⽴回归⽅程

⼆、主题页⾯的结构特征分析

1.主题页⾯的结构与特征分析

2.Htmls页⾯解析

3.节点（标签）查⽅法与遍历⽅法

按“F12"打开⽹页源代码，如图所⽰

⽤find_all()⽅法进⾏遍历

三、⽹络爬⾍程序设计

1.数据爬取与采集

爬取代码如下

1 import requests

2 import time

3 import xlwt

4 from bs4 import BeautifulSoup

6 #创建Excel存储数据

7 class Spider:

8 def __init__(self):

9 self.workbook, self.worksheet = ate_excel()

10 self.nums = 1

12 def create_excel(self):

13 workbook = xlwt.Workbook(encoding='utf-8')

14 worksheet = workbook.add_sheet('Sheet1')

15 title = ['排名', '歌⼿和歌名', '播放时间']

16 for index, title_data in enumerate(title):

17 worksheet.write(0, index, title_data)

18 return workbook, worksheet

20 def get_html(self,url):

21 headers = {'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)', } # 爬⾍请求头信息

22 response = (url, headers=headers)

23 if response.status_code == 200: # 如果请求状态值为200，则输出

25 else:

26 return '产⽣异常'

29 def get_data(self,html):

30 soup = BeautifulSoup(html, 'lxml') # ⽤BeautifulSuop库解析⽹页

31 ranks = soup.find_all('span', class_='pc_temp_num') # 排名

32 names = soup.find_all('a', class_='pc_temp_songname') # 歌⼿和歌名

33 times = soup.find_all('span', class_='pc_temp_time') # 播放时间

35 # 打印信息

36 for r, n, t in zip(ranks, names, times): # ⽤zip函数

37 r = r.get_text().replace('\n', '').replace('\t', '').replace('\r', '')

38 n = n.get_text()

39 t = t.get_text().replace('\n', '').replace('\t', '').replace('\r', '')

40 data = {'排名': r, '歌名-歌⼿': n, '播放时间': t}

41 self.worksheet.write(self.nums, 0, str(r))

42 self.worksheet.write(self.nums, 1, str(n))

43 self.worksheet.write(self.nums, 2, str(t))

44 self.nums += 1

46 def main(self,):

47 urls = ['www.kugou/yy/rank/home/{}-8888.html?from=rank'.format(str(i)) for i in range(1, 24)] # ⽤for循环

48 for url in urls:

49 print(url)

50 html = _html(url)

51 _data(html)

52 time.sleep(1) # 暂停1S

53 self.workbook.save('data.xls')#存⼊所有信息后保存为data.xls

56 if __name__ == '__main__': # 程序执⾏时调⽤主程序main()

57 spider = Spider()

水凝萃58 spider.main()

运⾏结果如图

2.对数据进⾏清洗和处理

输出数据⽂件的前5⾏

1 import pandas as pd