爬取NBA球员信息并可视化小白入门
创作时间:
作者:
@小白创作中心
爬取NBA球员信息并可视化小白入门
引用
CSDN
1.
https://blog.csdn.net/2302_80243887/article/details/145292458
本文将介绍如何使用Python爬取虎扑体育网站上的NBA球员得分数据,并将其可视化展示。通过这个实战案例,你将学习到网络爬虫的基本流程以及数据可视化的实现方法。
网站分析
网址: 虎扑体育-NBA球员得分数据排行 第1页
步骤:
- 分析页面 确定URL地址
- 模拟浏览器向服务器发送请求
- 数据解析 提取想要的数据
- 保存数据
爬虫所需要的模块:requests(发送HTTP请求) parsel(解析HTML内容) pandas(数据保存模块)
第一步分析页面 --确定是静态页面还是动态页面
右击点击 查看网页源代码 在新窗口中搜索(Ctrl+F)我们所需要的数据
通过分析可得 此网站为静态页面 URL地址为浏览器栏中的地址
接着我们构建基本的爬虫程序 模拟浏览器 向服务器发送请求
因为此网站没有反爬虫机制 基本的浏览器伪装都不需要即可直接获取到数据
# 导包 需要通过pip install 包名下载
import requests
# 发送网络请求的地址
url = 'https://nba.hupu.com/stats/players'
resp = requests.get(url)
# 调用对象里面的属性 获取到返回的文本数据
print(resp.text)
确认爬取下来中的页面数据中有我们所需要的数据
Ctrl+F 快捷键打开搜索框 查看数据
然后提取我们想要的数据 点击元素面板 分析数据所在的结构
分析可得 我们要取tbody下面没有class属性color_font1 bg_a 的tr
#导包 parsel
# 实例化一个浏览器对象
selector = parsel.Selector(resp.text)
# 拿到所有的tr
lis = selector.xpath("//tbody/tr[not(@class='color_font1 bg_a')]")
接着按照元素面板的结构取值 遍历所有的tr
球员: class属性等于left下面的a标签中的文本
球队名字:从根标签中开始写Xpath css不好匹配
得分: class属性等于bg_b的td 中的文本
下面的数据 通过xpath 取 发现是tr标签下5-12个
for li in lis:
name = li.css('.left a::text').get()
team = li.xpath('./td[3]/a/text()').get()
score = li.css('.bg_b::text').get()
hit_shot = li.xpath('./td[5]/text()').get()
hit_rate = li.xpath('./td[6]/text()').get()
hit_three = li.xpath('./td[7]/text()').get()
three_rate = li.xpath('./td[8]/text()').get()
hit_penalty = li.xpath('./td[9]/text()').get()
penalty_rate = li.xpath('./td[10]/text()').get()
session = li.xpath('./td[11]/text()').get()
play_time = li.xpath('./td[12]/text()').get()
print(name, team, score,hit_shot,hit_rate,hit_three,hit_penalty,penalty_rate,session,play_time)
最后保存数据 保存为excel文件
# 使用字典来存储数据
dit = {
'球员': name,
'球队': team,
'得分': score,
'命中-出手': hit_shot,
'命中率': hit_rate,
'命中-三分': hit_three,
'三分命中率': three_rate,
'命中-罚球': hit_penalty,
'罚球命中率': penalty_rate,
'场次': session,
'上场时间': play_time,
}
# 定义一个空列表 将字典数据添加进去
all.append(dit)
导入pandas 模块 保存数据到excel表格中
以下是本次案例的全部代码 供学习交流使用
import requests
import parsel
import pandas as pd
url = 'https://nba.hupu.com/stats/players'
all = []
resp = requests.get(url)
selector = parsel.Selector(resp.text)
lis = selector.xpath("//tbody/tr[not(@class='color_font1 bg_a')]")
for li in lis:
name = li.css('.left a::text').get()
team = li.xpath('./td[3]/a/text()').get()
score = li.css('.bg_b::text').get()
hit_shot = li.xpath('./td[5]/text()').get()
hit_rate = li.xpath('./td[6]/text()').get()
hit_three = li.xpath('./td[7]/text()').get()
three_rate = li.xpath('./td[8]/text()').get()
hit_penalty = li.xpath('./td[9]/text()').get()
penalty_rate = li.xpath('./td[10]/text()').get()
session = li.xpath('./td[11]/text()').get()
play_time = li.xpath('./td[12]/text()').get()
dit = {
'球员': name,
'球队': team,
'得分': score,
'命中-出手': hit_shot,
'命中率': hit_rate,
'命中-三分': hit_three,
'三分命中率': three_rate,
'命中-罚球': hit_penalty,
'罚球命中率': penalty_rate,
'场次': session,
'上场时间': play_time,
}
all.append(dit)
pd.DataFrame(all).to_excel('NBA.xlsx', index=False)
数据可视化板块
数据可视化所需要的模块pandas(数据处理和分析) pyecharts
import pandas as pd
from pyecharts import options as opts
from pyecharts.charts import Line
df = pd.read_excel('NBA.xlsx',index_col=False)
players = df['球员'].tolist()
scores = df['得分'].tolist()
session = df['场次'].tolist()
# 创建柱状图对象
bar = (
Line()
.add_xaxis(players) # x 轴为球员
.add_yaxis("得分", scores) # y 轴为得分
.add_yaxis("场次",session)
.set_global_opts(
title_opts=opts.TitleOpts(title="球员得分情况柱状图"),
toolbox_opts=opts.ToolboxOpts(is_show=True),
xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)), # 旋转 x 轴标签,防止重叠
yaxis_opts=opts.AxisOpts(name="得分")
)
.set_series_opts(label_opts=opts.LabelOpts(is_show=False))
)
# 渲染图表到 HTML 文件
bar.render("player_score_bar_chart.html")
热门推荐
Node.js安装位置查找指南:命令行工具、环境变量与包管理器
甲状腺癌的预后
如何确定自己适合教哪个学科或哪个年龄段的学生
克苏鲁外神:“万物归一者”犹格·索托斯
生普用多少度的水温冲泡:解析生普适宜水温泡茶之道
学校空间规划与家具布局:打造智慧学习环境
什么食物不能和菠菜一起吃?提升菠菜的营养价值,避免身体不适
沿阶草的特点及生态价值
探秘古代炼丹炉:中国炼金术的神秘工具
羊大师:买橙子有诀窍?水果大姐教你5招,包你挑到的橙子又香又甜
香煎三文鱼:六种不同风味的美味做法
农心杯最终阶段17日开始 芝野虎丸挑战谢尔豪
水电工人的绝遇中文字火了!友:原来温暖就在身边-平凡中见真情!
数据库解密完全指南:从工具选择到操作步骤
南京航空航天大学计算机考研好考吗?南京航空航天大学计算机考研考情分析!
如何打造有特色的企业文化墙
作家一天的内心感受:与“内阻力”的永恒之战
深入了解MySQL的哈希索引
基于补偿型对数运算的NTC热敏电阻线性化电路设计与分析
激素失衡会导致焦虑吗:迹象、提示和常见问题解答
以青春为主题的诗歌(精选10首)
降压药真的会产生依赖性吗,选择时需要遵循哪些原则?医生讲清楚
RhD阴性“熊猫血”还有变异型?一文读懂RhD血型系统
跳绳对长高有帮助吗
几级防水可以洗澡?七级防水是什么标准?
李嘉诚和庄月明:青梅竹马守一生
冰箱能效等级和耗电量的关系(冰箱一二级能耗能相差多少电?)
“人如其名”可能是真的?研究显示名字会逐渐影响我们的外貌
常用学术文献数据库大盘点
Excel中设置逗号隔开数字的多种方法