问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

NBA球员得分预测-基于线性回归、KNN回归、决策树回归、随机森林回归

创作时间:
作者:
@小白创作中心

NBA球员得分预测-基于线性回归、KNN回归、决策树回归、随机森林回归

引用
CSDN
1.
https://blog.csdn.net/python_Daddy/article/details/138340259

在NBA中,预测每个球员的得分在篮球分析领域至关重要。它是一个关键的表现指标,允许教练、分析师和球迷评估球员的得分能力和对球队的整体进攻贡献。本文深入研究了篮球数据分析领域并使用机器学习技术来预测每个球员的得分水平。

一 数据集概述

在该数据集中,包含2023年所有NBA球员的各项指标数据。其中各列名简称的实际解释意义如下:
PName Pos Team Age GP W
球员姓名 球员位置 所属球队 年龄 出场次数 胜场
L Min PTS FGM FGA FG%
负场 出场时间 总得分 投篮命中数 投篮总次数 投篮命中率
3PM 3PA 3P% FTM FTA FT%
三分命中数 三分出手数 三分命中率 罚球命中数 罚球总次数 罚球命中率
OREB DREB REB AST TOV STL
进攻篮板数 防守篮板数 总篮板数 总助攻数 总失误数 总抢断数
BLK PF FP DD2 TD3 +/-
总盖帽数 个人犯规数 虚拟得分 两双数 三双数 正负值总和

其中,球员虚拟得分(FP)指的是在NBA2K2023中进行模拟球队对局所产生的常规赛各球员得分总数。其余各项指标均为篮球基本术语,在此不过多解释。

二 数据可视化分析

在数据集探索过程中,发现Position列中存在NaN型数据,在描述性统计中发现SG为Position列中出现频率最高的一项,因此,考虑将缺失项修正为SG。

在此之后,可以考虑将数据按照球员位置分组进行可视化呈现。其中包括根据球员位置分组得到的平均总得分、球员年龄的频数分布直方图、按位置分组下球员年龄与总得分、投篮命中率、总助攻的二维关系散点图等。






三 球员分析

3.1 球员对比分析

在NBA体育环境中,詹姆斯、杜兰特、库里等超级巨星拥有着大量球迷和广泛的商业价值,球迷与行业专家对于他们的赛场表现也相当关注,该节通过对比詹姆斯、杜兰特、库里、扬尼斯以及伦纳德五名超级巨星的各项数据,观察他们2023年的登场表现并做出评价。


通过球员对比分析雷达图发现,司职大前锋的扬尼斯在总篮板数、总得分数以及出场时间上均位于五名球员之首,詹姆斯、杜兰特与伦纳德分别在助攻数、盖帽数与抢断数上位列首位,司职控球后卫、以三分见长的库里则在总得分上仅次于扬尼斯、位列第二名。

单从球员个人数据方面分析,2023年的扬尼斯可谓是做到了真正的攻防一体,作为雄鹿队的球队核心,扬尼斯在2023年常规赛的表现十分亮眼,无愧为一名超级巨星。

3.2 最佳防守球员DPOY

在NBA中,衡量一名球员的水平不仅仅参考其进攻能力,防守能力也同样重要。一名出色的NBA球员应该具备强大的意志品质,在进攻端高效发挥自己的得分能力,在防守端尽职尽责,尽可能不让对手得分,做到攻防一体,这才是巨星的衡量标准。





在给定的衡量指标下,得到如上图的十大防守球员,其中2023赛季的mvp乔尔-恩比德位列榜中,除此之外,安东尼-戴维斯、鲁迪-戈贝尔以及小将爱德华兹也都入选了十大防守球员名单。2023赛季NBA官方评定的最佳防守球员为小贾伦-杰克逊,位于上图第二位。

3.3 最佳进攻球员

在进攻端,主要考虑球员的得分、进攻篮板(用于二次进攻)以及助攻数据,一名优秀的进攻球员,不仅具备自己单打得分的绝对实力,还应具备团队组织能力。考虑到中锋、大前锋在得分、助攻上的数据不比后卫,因此加入进攻篮板数据,用于更加均衡地评价全位置球员的进攻能力。

在给定的衡量指标下,特雷杨登上进攻球员榜首,他优秀的传控能力使得他在球场上能够完美地掌控球队,东契奇、约基奇也同样作为各自球队的核心登上进攻球员榜单,作为联盟中少有的两名欧洲球员,东契奇和约基奇经常能在球场上贡献大三双的表现,入选进攻球员榜单当之无愧。注意到,2023赛季mvp乔尔-恩比德同样也出现在榜单中,他也是唯一一位同时出现在十大防守球员榜单和十大进攻球员榜单中的角色,常规赛mvp当之无愧。

四 球队分析

4.1 球队球员数


4.2 球队胜负场

上述分析所依赖的的数据集为所有球员个人的数据,但是并没有包含球队整体的数据。接下来给出的数据为2023年球队的数据,用于对球队进行整体性的分析。

NBA2022-2023(1).xlsx

根据球队整体的数据,统计出全部球队在当年的胜负场数并利用excel绘制图表。从图表所反映的信息可知,2023年胜场数最高的球队为扬尼斯领衔的密尔沃基雄鹿队,有趣的是,在季后赛的第一轮,东部第一雄鹿队惨遭东部第八热火队爆冷淘汰。

4.3 球队场均得分

在对球队胜负场进行统计分析后,统计球队场均得分并绘制图表,发现场均得分最高的为西部的国王队,各球队之间的场均得分差距并不大。因此,在比赛中做好防守、控制失误、尽量少让对手得分对于赢得比赛显得至关重要。

五 变量分析

5.1 箱线图

回到原来的球员个人数据集,按照单一变量划分数据,绘制箱线图反映各变量下数据分布的中心位置和散布范围。


在考虑各变量间的相关性时,需要剔除各变量下数据的异常值,这里考虑剔除三分出手数低于10次、罚球次数少于10次的球员数据,用于保证数据的质量和准确性,以便进行进一步的分析和建模。


六 模型预测

6.1 线性回归

线性回归模型的R2分数为0.9508670290220914,表明模型具有较高的预测能力。从散点图可以看出,预测值与实际值之间有很好的线性关系。

6.2 KNN回归

KNN回归模型的最佳参数为{'n_neighbors': 8, 'p': 1, 'weights': 'distance'},对应的R2分数为0.8894559661663552。从散点图可以看出,预测值与实际值之间存在一定的偏差。

6.3 决策树回归

决策树回归模型的最佳参数为{'max_depth': 10, 'min_samples_leaf': 2, 'min_samples_split': 15},对应的测试集R2分数为0.9142067316656353。从散点图可以看出,预测值与实际值之间有较好的拟合度。

6.4 随机森林回归

随机森林回归模型的最佳参数为{'max_depth': 13, 'n_estimators': 90},对应的测试集R2分数为0.9550547280293766。从散点图可以看出,预测值与实际值之间有很好的拟合度。

6.5 模型预测解释

对比线性回归、KNN回归、决策树回归以及随机森林回归模型的预测结果,发现线性回归与随机森林回归的预测结果相对较好,KNN的预测结果相对较差。同时,对于每个模型的预测结果而言,随着球员总得分的不断上升,预测的偏差也会随之增大。从结果上而言,随机森林的预测结果最优,它通过集成多棵决策树以实现最优解,但是,它在运算时间上消耗最大。

结语

本篇报告对于2023赛季的NBA球员个人表现以及球队整体表现进行了数据分析,包括对于数据集的探索以发现变量间可能具有的相关关系、对数据进行可视化展示、分析影响球员个人得分的因素、对比球员数据评价球员表现、分析球队赛季的整体表现,最后,使用机器学习技术对球员个人得分进行预测并得出结论。


© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号