爬取NBA球员信息并可视化小白入门
创作时间:
作者:
@小白创作中心
爬取NBA球员信息并可视化小白入门
引用
CSDN
1.
https://blog.csdn.net/2302_80243887/article/details/145292458
本文将介绍如何使用Python爬取虎扑体育网站上的NBA球员得分数据,并将其可视化展示。通过这个实战案例,你将学习到网络爬虫的基本流程以及数据可视化的实现方法。
网站分析
网址: 虎扑体育-NBA球员得分数据排行 第1页
步骤:
- 分析页面 确定URL地址
- 模拟浏览器向服务器发送请求
- 数据解析 提取想要的数据
- 保存数据
爬虫所需要的模块:requests(发送HTTP请求) parsel(解析HTML内容) pandas(数据保存模块)
第一步分析页面 --确定是静态页面还是动态页面
右击点击 查看网页源代码 在新窗口中搜索(Ctrl+F)我们所需要的数据
通过分析可得 此网站为静态页面 URL地址为浏览器栏中的地址
接着我们构建基本的爬虫程序 模拟浏览器 向服务器发送请求
因为此网站没有反爬虫机制 基本的浏览器伪装都不需要即可直接获取到数据
# 导包 需要通过pip install 包名下载
import requests
# 发送网络请求的地址
url = 'https://nba.hupu.com/stats/players'
resp = requests.get(url)
# 调用对象里面的属性 获取到返回的文本数据
print(resp.text)
确认爬取下来中的页面数据中有我们所需要的数据
Ctrl+F 快捷键打开搜索框 查看数据
然后提取我们想要的数据 点击元素面板 分析数据所在的结构
分析可得 我们要取tbody下面没有class属性color_font1 bg_a 的tr
#导包 parsel
# 实例化一个浏览器对象
selector = parsel.Selector(resp.text)
# 拿到所有的tr
lis = selector.xpath("//tbody/tr[not(@class='color_font1 bg_a')]")
接着按照元素面板的结构取值 遍历所有的tr
球员: class属性等于left下面的a标签中的文本
球队名字:从根标签中开始写Xpath css不好匹配
得分: class属性等于bg_b的td 中的文本
下面的数据 通过xpath 取 发现是tr标签下5-12个
for li in lis:
name = li.css('.left a::text').get()
team = li.xpath('./td[3]/a/text()').get()
score = li.css('.bg_b::text').get()
hit_shot = li.xpath('./td[5]/text()').get()
hit_rate = li.xpath('./td[6]/text()').get()
hit_three = li.xpath('./td[7]/text()').get()
three_rate = li.xpath('./td[8]/text()').get()
hit_penalty = li.xpath('./td[9]/text()').get()
penalty_rate = li.xpath('./td[10]/text()').get()
session = li.xpath('./td[11]/text()').get()
play_time = li.xpath('./td[12]/text()').get()
print(name, team, score,hit_shot,hit_rate,hit_three,hit_penalty,penalty_rate,session,play_time)
最后保存数据 保存为excel文件
# 使用字典来存储数据
dit = {
'球员': name,
'球队': team,
'得分': score,
'命中-出手': hit_shot,
'命中率': hit_rate,
'命中-三分': hit_three,
'三分命中率': three_rate,
'命中-罚球': hit_penalty,
'罚球命中率': penalty_rate,
'场次': session,
'上场时间': play_time,
}
# 定义一个空列表 将字典数据添加进去
all.append(dit)
导入pandas 模块 保存数据到excel表格中
以下是本次案例的全部代码 供学习交流使用
import requests
import parsel
import pandas as pd
url = 'https://nba.hupu.com/stats/players'
all = []
resp = requests.get(url)
selector = parsel.Selector(resp.text)
lis = selector.xpath("//tbody/tr[not(@class='color_font1 bg_a')]")
for li in lis:
name = li.css('.left a::text').get()
team = li.xpath('./td[3]/a/text()').get()
score = li.css('.bg_b::text').get()
hit_shot = li.xpath('./td[5]/text()').get()
hit_rate = li.xpath('./td[6]/text()').get()
hit_three = li.xpath('./td[7]/text()').get()
three_rate = li.xpath('./td[8]/text()').get()
hit_penalty = li.xpath('./td[9]/text()').get()
penalty_rate = li.xpath('./td[10]/text()').get()
session = li.xpath('./td[11]/text()').get()
play_time = li.xpath('./td[12]/text()').get()
dit = {
'球员': name,
'球队': team,
'得分': score,
'命中-出手': hit_shot,
'命中率': hit_rate,
'命中-三分': hit_three,
'三分命中率': three_rate,
'命中-罚球': hit_penalty,
'罚球命中率': penalty_rate,
'场次': session,
'上场时间': play_time,
}
all.append(dit)
pd.DataFrame(all).to_excel('NBA.xlsx', index=False)
数据可视化板块
数据可视化所需要的模块pandas(数据处理和分析) pyecharts
import pandas as pd
from pyecharts import options as opts
from pyecharts.charts import Line
df = pd.read_excel('NBA.xlsx',index_col=False)
players = df['球员'].tolist()
scores = df['得分'].tolist()
session = df['场次'].tolist()
# 创建柱状图对象
bar = (
Line()
.add_xaxis(players) # x 轴为球员
.add_yaxis("得分", scores) # y 轴为得分
.add_yaxis("场次",session)
.set_global_opts(
title_opts=opts.TitleOpts(title="球员得分情况柱状图"),
toolbox_opts=opts.ToolboxOpts(is_show=True),
xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)), # 旋转 x 轴标签,防止重叠
yaxis_opts=opts.AxisOpts(name="得分")
)
.set_series_opts(label_opts=opts.LabelOpts(is_show=False))
)
# 渲染图表到 HTML 文件
bar.render("player_score_bar_chart.html")
热门推荐
ROE指标深度解析:含义、计算方法与实际应用
纪71建国邮票:历史价值与市场前景
什么是供应链方式付款的流程?
学校合作企业与实习机会
当早产儿遭遇牛乳蛋白过敏,和足月儿有和不同?
怎么用excel设计正交实验
青海7大景点全攻略:从青海湖到黑独山,领略大美青海
冰箱离灶台的安全距离是多少
冰箱对着煤气灶好不好,家居布局有讲究
深入探讨SMC绝缘板的材料组成、特性及其在各个领域的应用
多所高校要放春假了,连休9天!
“放春假”为何引发共鸣?
樟脑泡酒的功效与作用是什么
樟脑丸的功效与作用
怎么看电梯是不是消防电梯(如何区分消防电梯与普通电梯)
“喝姜汤”到底对哪种感冒最有效
使用tcpdump 和 Wireshark进行简单TCP抓包分析【图文教程】
买房是毛坯房好还是装修了的?如何做出明智选择
苏打水=碱性水?记者实测12款苏打水,仅7款呈碱性
2024年1.5匹空调选购全攻略:小白秒变行家
驾乘险和驾乘人员补充意外险:全面解析与购买指南
VS Code 如何搭建C/C++开发环境
同济大学王姝晶教授团队在《Management Science》发表重要研究成果
房屋产权如何变更?如何办理房产过户手续?
“美”瞳还是“伤”瞳 | 孩子虽爱美,护眼更重要!
如何油漆墙面?打造理想家居空间的秘诀
2024年全国45个三线城市:临沂第3,沧州领先株洲,黄冈入围
全国电赛大一省二备赛比赛过程
什么是金叉?金叉在技术分析中的作用是什么?
得了椎体血管瘤怎么办