爬取NBA球员信息并可视化小白入门
创作时间:
作者:
@小白创作中心
爬取NBA球员信息并可视化小白入门
引用
CSDN
1.
https://blog.csdn.net/2302_80243887/article/details/145292458
本文将介绍如何使用Python爬取虎扑体育网站上的NBA球员得分数据,并将其可视化展示。通过这个实战案例,你将学习到网络爬虫的基本流程以及数据可视化的实现方法。
网站分析
网址: 虎扑体育-NBA球员得分数据排行 第1页
步骤:
- 分析页面 确定URL地址
- 模拟浏览器向服务器发送请求
- 数据解析 提取想要的数据
- 保存数据
爬虫所需要的模块:requests(发送HTTP请求) parsel(解析HTML内容) pandas(数据保存模块)
第一步分析页面 --确定是静态页面还是动态页面
右击点击 查看网页源代码 在新窗口中搜索(Ctrl+F)我们所需要的数据
通过分析可得 此网站为静态页面 URL地址为浏览器栏中的地址
接着我们构建基本的爬虫程序 模拟浏览器 向服务器发送请求
因为此网站没有反爬虫机制 基本的浏览器伪装都不需要即可直接获取到数据
# 导包 需要通过pip install 包名下载
import requests
# 发送网络请求的地址
url = 'https://nba.hupu.com/stats/players'
resp = requests.get(url)
# 调用对象里面的属性 获取到返回的文本数据
print(resp.text)
确认爬取下来中的页面数据中有我们所需要的数据
Ctrl+F 快捷键打开搜索框 查看数据
然后提取我们想要的数据 点击元素面板 分析数据所在的结构
分析可得 我们要取tbody下面没有class属性color_font1 bg_a 的tr
#导包 parsel
# 实例化一个浏览器对象
selector = parsel.Selector(resp.text)
# 拿到所有的tr
lis = selector.xpath("//tbody/tr[not(@class='color_font1 bg_a')]")
接着按照元素面板的结构取值 遍历所有的tr
球员: class属性等于left下面的a标签中的文本
球队名字:从根标签中开始写Xpath css不好匹配
得分: class属性等于bg_b的td 中的文本
下面的数据 通过xpath 取 发现是tr标签下5-12个
for li in lis:
name = li.css('.left a::text').get()
team = li.xpath('./td[3]/a/text()').get()
score = li.css('.bg_b::text').get()
hit_shot = li.xpath('./td[5]/text()').get()
hit_rate = li.xpath('./td[6]/text()').get()
hit_three = li.xpath('./td[7]/text()').get()
three_rate = li.xpath('./td[8]/text()').get()
hit_penalty = li.xpath('./td[9]/text()').get()
penalty_rate = li.xpath('./td[10]/text()').get()
session = li.xpath('./td[11]/text()').get()
play_time = li.xpath('./td[12]/text()').get()
print(name, team, score,hit_shot,hit_rate,hit_three,hit_penalty,penalty_rate,session,play_time)
最后保存数据 保存为excel文件
# 使用字典来存储数据
dit = {
'球员': name,
'球队': team,
'得分': score,
'命中-出手': hit_shot,
'命中率': hit_rate,
'命中-三分': hit_three,
'三分命中率': three_rate,
'命中-罚球': hit_penalty,
'罚球命中率': penalty_rate,
'场次': session,
'上场时间': play_time,
}
# 定义一个空列表 将字典数据添加进去
all.append(dit)
导入pandas 模块 保存数据到excel表格中
以下是本次案例的全部代码 供学习交流使用
import requests
import parsel
import pandas as pd
url = 'https://nba.hupu.com/stats/players'
all = []
resp = requests.get(url)
selector = parsel.Selector(resp.text)
lis = selector.xpath("//tbody/tr[not(@class='color_font1 bg_a')]")
for li in lis:
name = li.css('.left a::text').get()
team = li.xpath('./td[3]/a/text()').get()
score = li.css('.bg_b::text').get()
hit_shot = li.xpath('./td[5]/text()').get()
hit_rate = li.xpath('./td[6]/text()').get()
hit_three = li.xpath('./td[7]/text()').get()
three_rate = li.xpath('./td[8]/text()').get()
hit_penalty = li.xpath('./td[9]/text()').get()
penalty_rate = li.xpath('./td[10]/text()').get()
session = li.xpath('./td[11]/text()').get()
play_time = li.xpath('./td[12]/text()').get()
dit = {
'球员': name,
'球队': team,
'得分': score,
'命中-出手': hit_shot,
'命中率': hit_rate,
'命中-三分': hit_three,
'三分命中率': three_rate,
'命中-罚球': hit_penalty,
'罚球命中率': penalty_rate,
'场次': session,
'上场时间': play_time,
}
all.append(dit)
pd.DataFrame(all).to_excel('NBA.xlsx', index=False)
数据可视化板块
数据可视化所需要的模块pandas(数据处理和分析) pyecharts
import pandas as pd
from pyecharts import options as opts
from pyecharts.charts import Line
df = pd.read_excel('NBA.xlsx',index_col=False)
players = df['球员'].tolist()
scores = df['得分'].tolist()
session = df['场次'].tolist()
# 创建柱状图对象
bar = (
Line()
.add_xaxis(players) # x 轴为球员
.add_yaxis("得分", scores) # y 轴为得分
.add_yaxis("场次",session)
.set_global_opts(
title_opts=opts.TitleOpts(title="球员得分情况柱状图"),
toolbox_opts=opts.ToolboxOpts(is_show=True),
xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)), # 旋转 x 轴标签,防止重叠
yaxis_opts=opts.AxisOpts(name="得分")
)
.set_series_opts(label_opts=opts.LabelOpts(is_show=False))
)
# 渲染图表到 HTML 文件
bar.render("player_score_bar_chart.html")
热门推荐
深圳网红打卡:从东门老街到世界之窗
冬日打卡:深圳历史民俗博物馆探秘之旅
深圳网红打卡地:深圳湾公园&南头古城
《白蛇2:青蛇劫起》:小青的心理蜕变之旅
绝经后妇女出现慢性腹痛要及早就诊!
如何恢复BIOS设置
石硫合剂熬制及使用方法详解
狗熊保护:维护生态平衡的关键一环
身份证办理新指南:首次办理&换证全攻略
驾考报名必备:身份证那些事儿
仙人掌泡酒治疗风湿?科学解读告诉你真相
传统文化元素在现代环境设计中的应用与创新
环境艺术设计:必备技能大揭秘!
人类对外星生命探索有新发现?或许离真相不远,但为何还找不到?
太湖畔的摄影天堂:鼋头渚、灵山大佛、拈花湾拍摄全攻略
汤圆煮法大全:甜咸汤圆、炸汤圆、气炸汤圆等烹饪技巧与秘诀
从李白到现代人:如何让“笔下生花”?
廖虹雷带你探秘深圳历史文化
杜牧笔下生花,《阿房宫赋》传诵千古
吃货必看!服用氯雷他定时的饮食禁忌
冬日打卡:临海紫阳街的古韵今风
越南必打卡:下龙湾与顺化古都
越南旅游签证省钱攻略大揭秘!
越南自由行:电子签快速办理攻略
越南旅游签证攻略:电子签 vs 落地签,哪个更适合你?
如何增强免疫力:从饮食到心理的全方位指南
鼋头渚摄影攻略:捕捉最美太湖瞬间
渔洋山:太湖边上的绝美观景台
太湖生态修复:从污染治理到水下森林
冰箱结冰不用铲,只需要一个塑料瓶,冰块自动脱落,效果太神了