爬取NBA球员信息并可视化小白入门
创作时间:
作者:
@小白创作中心
爬取NBA球员信息并可视化小白入门
引用
CSDN
1.
https://blog.csdn.net/2302_80243887/article/details/145292458
本文将介绍如何使用Python爬取虎扑体育网站上的NBA球员得分数据,并将其可视化展示。通过这个实战案例,你将学习到网络爬虫的基本流程以及数据可视化的实现方法。
网站分析
网址: 虎扑体育-NBA球员得分数据排行 第1页
步骤:
- 分析页面 确定URL地址
- 模拟浏览器向服务器发送请求
- 数据解析 提取想要的数据
- 保存数据
爬虫所需要的模块:requests(发送HTTP请求) parsel(解析HTML内容) pandas(数据保存模块)
第一步分析页面 --确定是静态页面还是动态页面
右击点击 查看网页源代码 在新窗口中搜索(Ctrl+F)我们所需要的数据
通过分析可得 此网站为静态页面 URL地址为浏览器栏中的地址
接着我们构建基本的爬虫程序 模拟浏览器 向服务器发送请求
因为此网站没有反爬虫机制 基本的浏览器伪装都不需要即可直接获取到数据
# 导包 需要通过pip install 包名下载
import requests
# 发送网络请求的地址
url = 'https://nba.hupu.com/stats/players'
resp = requests.get(url)
# 调用对象里面的属性 获取到返回的文本数据
print(resp.text)
确认爬取下来中的页面数据中有我们所需要的数据
Ctrl+F 快捷键打开搜索框 查看数据
然后提取我们想要的数据 点击元素面板 分析数据所在的结构
分析可得 我们要取tbody下面没有class属性color_font1 bg_a 的tr
#导包 parsel
# 实例化一个浏览器对象
selector = parsel.Selector(resp.text)
# 拿到所有的tr
lis = selector.xpath("//tbody/tr[not(@class='color_font1 bg_a')]")
接着按照元素面板的结构取值 遍历所有的tr
球员: class属性等于left下面的a标签中的文本
球队名字:从根标签中开始写Xpath css不好匹配
得分: class属性等于bg_b的td 中的文本
下面的数据 通过xpath 取 发现是tr标签下5-12个
for li in lis:
name = li.css('.left a::text').get()
team = li.xpath('./td[3]/a/text()').get()
score = li.css('.bg_b::text').get()
hit_shot = li.xpath('./td[5]/text()').get()
hit_rate = li.xpath('./td[6]/text()').get()
hit_three = li.xpath('./td[7]/text()').get()
three_rate = li.xpath('./td[8]/text()').get()
hit_penalty = li.xpath('./td[9]/text()').get()
penalty_rate = li.xpath('./td[10]/text()').get()
session = li.xpath('./td[11]/text()').get()
play_time = li.xpath('./td[12]/text()').get()
print(name, team, score,hit_shot,hit_rate,hit_three,hit_penalty,penalty_rate,session,play_time)
最后保存数据 保存为excel文件
# 使用字典来存储数据
dit = {
'球员': name,
'球队': team,
'得分': score,
'命中-出手': hit_shot,
'命中率': hit_rate,
'命中-三分': hit_three,
'三分命中率': three_rate,
'命中-罚球': hit_penalty,
'罚球命中率': penalty_rate,
'场次': session,
'上场时间': play_time,
}
# 定义一个空列表 将字典数据添加进去
all.append(dit)
导入pandas 模块 保存数据到excel表格中
以下是本次案例的全部代码 供学习交流使用
import requests
import parsel
import pandas as pd
url = 'https://nba.hupu.com/stats/players'
all = []
resp = requests.get(url)
selector = parsel.Selector(resp.text)
lis = selector.xpath("//tbody/tr[not(@class='color_font1 bg_a')]")
for li in lis:
name = li.css('.left a::text').get()
team = li.xpath('./td[3]/a/text()').get()
score = li.css('.bg_b::text').get()
hit_shot = li.xpath('./td[5]/text()').get()
hit_rate = li.xpath('./td[6]/text()').get()
hit_three = li.xpath('./td[7]/text()').get()
three_rate = li.xpath('./td[8]/text()').get()
hit_penalty = li.xpath('./td[9]/text()').get()
penalty_rate = li.xpath('./td[10]/text()').get()
session = li.xpath('./td[11]/text()').get()
play_time = li.xpath('./td[12]/text()').get()
dit = {
'球员': name,
'球队': team,
'得分': score,
'命中-出手': hit_shot,
'命中率': hit_rate,
'命中-三分': hit_three,
'三分命中率': three_rate,
'命中-罚球': hit_penalty,
'罚球命中率': penalty_rate,
'场次': session,
'上场时间': play_time,
}
all.append(dit)
pd.DataFrame(all).to_excel('NBA.xlsx', index=False)
数据可视化板块
数据可视化所需要的模块pandas(数据处理和分析) pyecharts
import pandas as pd
from pyecharts import options as opts
from pyecharts.charts import Line
df = pd.read_excel('NBA.xlsx',index_col=False)
players = df['球员'].tolist()
scores = df['得分'].tolist()
session = df['场次'].tolist()
# 创建柱状图对象
bar = (
Line()
.add_xaxis(players) # x 轴为球员
.add_yaxis("得分", scores) # y 轴为得分
.add_yaxis("场次",session)
.set_global_opts(
title_opts=opts.TitleOpts(title="球员得分情况柱状图"),
toolbox_opts=opts.ToolboxOpts(is_show=True),
xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)), # 旋转 x 轴标签,防止重叠
yaxis_opts=opts.AxisOpts(name="得分")
)
.set_series_opts(label_opts=opts.LabelOpts(is_show=False))
)
# 渲染图表到 HTML 文件
bar.render("player_score_bar_chart.html")
热门推荐
淋巴瘤科普:淋巴细胞为什么会转变为淋巴瘤?淋巴瘤能治好吗?
篮球上篮假动作过人技巧详解
行业销量疲软,青岛啤酒能借出海“破局”吗?
苏轼与王安石:政见不合,却能惺惺相惜
你被电视剧骗了多久?真正的八路军是这样,亮剑都保守了
构建标准体系:人工智能标准化推动中国技术创新与全球竞争力提升
世界手卫生日丨为什么宣讲手卫生知识仍然十分重要?
暗黑不朽精英怪物深度解析:种类与战斗策略全攻略
“今生簪花,世世漂亮”这篇文章了解福建簪花历史
手表表带选择攻略:原来有这么多讲究!
“南极墙”究竟是什么?有何特点?如何形成的?
钙片有什么用
揭秘高蛋白蔬菜:素食者的营养密码
烂尾楼案件引发的法律问题及对策探讨
西安5大游乐场全攻略:从刺激到休闲,总有一款适合你
明朝皇帝短命之谜:权力、生活与遗传的交织
心理健康的重要性及维护策略
实木复合地板好不好?从优缺点来分析
古代生产软件的工具有什么
美国智库揭示技术进步如何影响国际竞争格局
西南航空首次全公司裁员,引发企业文化担忧
人工智能带来的五大网络安全趋势及其应对策略
法国斗牛犬常见的健康问题有哪些?法斗的预期寿命是多少?
项目过程文档如何留痕
8例——创意茶具产品设计
深圳的成长之路:从边陲小镇到现代都市的华丽蜕变
零基础的人如何在普拉提教练培训班练习减脂或增肌
重磅 | 2024中国学术期刊影响力指数及影响因子(语言文字)
铁系梳枝丁戊橡胶创制成功,打破高性能轮胎材料“卡脖子”难题
分析股票筹码分布:如何理解和运用股票筹码分布