问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

【CS】通过不同的维度比较选手

创作时间:
作者:
@小白创作中心

【CS】通过不同的维度比较选手

引用
1
来源
1.
https://www.bilibili.com/opus/999889028150984804

在CS:GO中,如何准确评价选手的表现?本文深入探讨了HLTV rating 2.0和Leetify rating这两种主流评分系统的特点,并提出了一种新的基于维度的评分方法。通过统计学原理和具体算法的分析,为玩家和战队提供更全面的选手评价体系。

用统计数据衡量选手的表现已成为日常做法,但此前从未有像现在这么多质疑这一做法的声音。人们开始讨论样本量和比赛回合数减少造成的影响,这还引发了对于用来比较选手、评选MVP和年度最佳选手的数据的担忧。HLTV rating 2.0自2017年6月推出以来一直可以说是金科玉律,但CS:GO向CS2的过渡暴露了改变rating的必要性。考虑到这一发展要求,HLTV最近发布了HLTV rating 2.1,进行了一些微小调整来修正已经发现的一些影响,并宣布未来将发布全新的HLTV rating 3.0。基于回合获胜概率模型的Leetify rating已被一些人视作HLTV rating的替代方案。然而,它远未被大众广泛接受,并且有其自身的缺点。

在本文中,我们将深入探讨这两种rating的一些特点,并论证一种新的近似方法的合理性。这种近似方法基于分析选手在不同维度上的表现,并将所有维度合并在一起得到总分。这篇文章会涉及一些技术性内容,但我强烈建议你继续阅读。了解每个细节并不重要,了解理想情况下每个类别的主旨就足够了!

最先进的统计数据:HLTV rating 2.0与Leetify rating

HLTV rating 2.0:CS2终结了rating之星

自CS职业化以来,HLTV rating一直是比较选手的标准。然而,随着CS2和MR12的转变,社区普遍认为rating 2.0已经过时了。不过,我们仍然将以它为例,说明当游戏机制发生明显变化时,rating如何出现波动。

HLTV rating 2.0的完整公式尚未公开,因此我们无法确定它包含哪些数据,以及HLTV为每个数据分配了多少权重。但是,一位社区用户尝试对rating进行逆向工程,其结果相当准确,你可以在他的博客文章(https://dave.コム/posts/reverse-engineering-hltv-rating/)中查看结果。从该近似公式来看,我们可以相当确信地认为rating是KPR、DPR、ADR、KAST和Impact的线性组合,并根据更精细的数据进行了一些微小的调整。

rating应该以1为中心,高于1.1的rating视为表现良好,低于0.95的rating视为表现不佳。rating可以达到的最低值为0,而上限则不受限制。这是我对rating的抱怨之一:人类习惯于将事物居中,并均匀分布在平均值的两侧(身高、智商、手掌大小……),这被称为高斯分布。

然而相较于高斯分布,在HLTV rating 2.0和2.1使用的规则中,选手的平均值可以进一步上升。在统计学中,这被称为分布上部的尾部比下部更重。如果你感兴趣的话,HLTV rating可能更像伽马分布。这似乎不是一个大问题,但它与社区对rating的普遍感受直接相关。如果你对分布感兴趣,你可以查看这个可视化工具(https://distribution-explorer.github.io/index.html),调整参数并查看它们如何改变分布的形状。

MR12意味着样本量更小,进一步意味着rating的极端值更多。为什么?因为更多的回合数让玩家有更多时间回归到他们的“真实”平均水平,从而降低了某几个表现出色的回合对最终rating的影响。理论上,我们可以认为极低和极高的异常表现会相互平衡,但这是基于rating分布对称的假设。由于HLTV rating 2.0或2.1不能低于0,这意味着极高的HLTV rating无法被平衡。在下图中,你可以简单地理解我所表明的情况:在CS2中,上尾更长更厚,下尾逐渐变厚但立即中断在0。

我对HLTV rating 2.0的另一个批评是,分配给每个数据的权重是预先设定的,并且在某种程度上是由人设定的。这是一个恶性循环:HLTV rating决定谁是最好的选手,如果选手登上年度top20排行榜,他们甚至会凭借合同中的特定条款获得奖励。然而,设定权重的人正在定义什么是重要的,这直接影响了不同数据的价值。具体来说,HLTV rating 2.0似乎比Leetify rating更多地奖励激进的玩家。我的最后一个批评是,HLTV rating 2.0没有考虑经济因素,因此无法区分关键先生和特种兵。

我对HLTV rating似乎过于苛刻,但请不要误会我的意思:HLTV rating在预期用途上表现得非常好,但一切都是有代价的。如果你需要从每场比赛中提取可靠的rating,则不能使用极其精细的数据,因为样本量会很小。由于你无法使用高级统计数据,因此你会对游戏机制随时间的变化很敏感。虽然你无法根据比赛进行衡量,但从长期来看,这种变化会影响你的rating。

Leetify rating:衡量业余玩家表现的良好指标

Leetify rating使用完全不同的方法弥补了HLTV rating中的一些盲点。HLTV使用多个统计数据来为每位选手生成rating,而根据Leetify发布的博客文章(https://leetify.com/blog/introducing-leetify-rating/),Leetify rating则是一个“基于胜率影响和经济调整的rating系统”。通过这种方法,他们旨在解决他们认为影响HLTV rating的两个问题:

  1. 每次击杀都会得到相同的奖励,没有考虑到并非所有击杀都会对特定回合的结果产生相同的影响。
  2. 过分关注谁获得了击杀,即使他只造成了1点伤害。

对我们来说幸运的是,Leetify rating公式相当地公开,因此在这里我可以给出一个简化的解释:

• 根据经济状况,每支队伍在每回合初始都会被分配到一个获胜概率。
• 每次关键事件发生后,每支队伍的回合获胜概率都会更新。
• 根据选手对获胜概率变化的贡献,使用手动定义的加权系统,将回合获胜概率变化分配给与每次击杀相关的人,从而奖励或惩罚选手。如果选手在某一回合中保枪,他将增加其队伍在下一回合中的获胜概率,因此他将获得少量的rating。
• 最终rating是每回合中获得的rating的加和。

该rating体系解决了我们之前提到的关于HLTV rating的一些问题,因为它呈高斯分布并以0为中心。此外,每次选手获得奖励时,对方队伍中的一位或几位选手都会受到相同数值的惩罚,使得分布对称。

那么,Leetify rating擅长什么呢?根据Leetify的说法,它是一种表现指标,非常适合衡量选手在单场比赛或狭义环境中(例如一届锦标赛)的影响力。他们不建议将其作为衡量你的表现是否进步的工具,因为这可能会受到对手水平的严重影响,但我对此持不同意见。在我看来,Leetify rating最出色的用途就是每天被大量不同水平的玩家使用,并用作衡量进步的工具。关键是不要使用单一的观测结果,就像你在减肥时,如果某天早上你的体重略有增加,你也不会惊慌失措。你应该关注1-2周的平均值,在这种情况下,Leetify rating是衡量想要进步的新手玩家的表现的最佳标准。此外,Leetify提供了广泛的统计数据,玩家可以使用它们来跟踪游戏的不同方面,从而收集更广泛的背景信息。

然而,就像生活中的大多数事情一样,成为一款出色的性能工具需要付出代价。我对Leetify rating最大的抱怨之一是,在我训练他们的预测胜率模型时,数据集直接影响了之后获得奖励的概率。为什么这会成为一个问题?我并不清楚,但我的猜测是Leetify使用职业比赛和大量的FACEIT/官匹比赛的数据来训练模型。这确实成为了一个问题,因为路人局中的5v4胜率比职业比赛要低得多。这意味着rating将惩罚激进的业余玩家,而奖励保守的业余玩家。后者受益于路人局玩家过度peek且风格更冒进的习惯,因为他们实际上只是和朋友一起开黑,而非“认真竞赛”。此外,保枪获得的rating加剧了这种情况。

此外,按照Leetify的逻辑,并非所有击杀都同等重要,因此提升相同的胜率也并不总是同等重要。假设我们遇到这样一种情况,T方的胜率为80%,因为他们在进行Inferno B点下包后的2v2残局。一位T方选手控制香蕉道,与两位CT方选手交火,击杀一人后被对手补枪,这将胜率提高15%至95%。类似地,假设CT方在Inferno陷入3v4的人数劣势,胜率为20%。一位CT方选手在队友的闪光助攻下获得击杀,并将胜率提高15%至35%。理论上,这两种操作对胜率的贡献是相等的,但我们知道它们的重要性肯定是不平等的。从80%到95%意味着确保了该回合的胜利,而从20%到35%则很可能毫无用处,因为T方现在掌握了两位CT方选手的信息,中期指令变得很简单。一个反驳的论点是Leetify模型可能会考虑到这一点,但我很难相信任何既定的模型会考虑到这种信息。此外我还可以继续争辩,如果两种情况都未能获得击杀,T方损失的获胜概率将远远超过CT方,因为对于CT方来说,在注定输掉的回合中,任何操作对胜率变化的影响都非常小,而T方会因为在大概率获胜的守包中失败而受到严厉惩罚。

按照这个想法,所有回合的重要性也并非平等!假设有两个在经济方面相同的回合,那么上半场第一个长枪局的压力和重要性与最后一回合——要么一支队伍获胜,要么另一支队伍拖入加时赛的压力和重要性是不一样的。在Leetify的体系中,这两个回合将被平等对待。这不是一个大问题,但它确实是该体系的另一个缺陷,它可能奖励那些在对手处于下风时表现出色,但在比赛焦灼时表现不佳的选手。

我最后的抱怨是,好/坏的Leetify rating并不直观。Leetify rating的分布可能具有正确的形状,让人感到直观,但rating的数值并不直观。事实上,Leetify已经更新了几次关于很好-好-平均-低于平均-差的数值的定义。此外,他们之前已经改变了分配获胜概率的模型。我认为“今天使用的任何算法在5年后都同样会是最优解”是很幼稚的想法,如果你想在更长的时间跨度内进行比较,这个体系可能会受到影响。

就像之前所说的一样,所有这些批评并不意味着我认为Leetify rating的体系是糟糕的。很明显,Leetify团队付出了大量的努力来创建一个信息尽可能丰富的rating体系,重点关注个人表现。如果你是一位想要提高自己水平的新手玩家,Leetify可以让你接触到非常接近数据分析团队的东西,这真是太棒了。如果你想了解更多关于HLTV rating和Leetify rating的差异/相似之处,你应该浏览HLTV编辑NER0的帖子(https://x.com/NER0cs/status/1592649728033902593和https://www.bilibili.com/opus/732825161528508521)。

不同的方法:关注选手的特别之处

你想优化的内容决定了你可以观测的内容

人们常常忽略的是:是什么让一位选手在自己的位置上表现出色?两位角色相同但游戏风格完全不同的优秀选手之间有什么区别?为什么两位选手有相同的rating,却给人截然不同的观感体验?……简而言之,是什么让一位选手与众不同?

rating的缺点是,关注选手的能力意味着我们关心的不是一位选手在某一天的表现,而是他在大多数日子里的表现。这意味着,一个旨在研究选手的体系永远不会成为评价一场特定比赛中的具体表现的良好指标,因为如果样本量太小,我们需要考虑的维度将有太多的测量误差。

幸运的是,我们不必考虑如何构建一个评价选手的常用体系,因为我们已经有两个出色且不同的选择:HLTV rating和Leetify rating。

对选手进行分类的10个维度

我们的新方法是创建不同的维度,每个维度注重不同的情况,广泛涵盖决定比赛结果的操作。每个维度都由几个特定统计数据的线性组合组成。选手的表现是使用百分位数来衡量的,这意味着任何被认为“好”的表现都是与数据集包含的所有选手比较来确定的。特别地,我们为以下维度创建了特定的指标:

• 3个经济维度:每位选手的表现都根据三种类型的回合进行衡量,即长枪局、eco局和半起局。
• 2个情境维度:手枪局和“聚光灯”回合。
• 5个特长维度:首杀、多杀、残局、AWP和辅助能力。

不同的角色有不同的数值:可以自定义每个不同维度的权重,这样评价不同类型的选手就有不同的标准。

跨时间可比性:选手的得分始终处于一个有限区间,但其百分位数可以随时间变化。通过改变观测的时间范围,我们可以实现得分随时间变化(如果游戏机制发生变化),但百分位数始终在0到100之间变化。

重新定义星探:那么,这种新的设计最主要的应用是什么?在竞争激烈的环境中,各支队伍都在竞相签下最优秀的新秀,能够跟踪职业赛场上的所有选手是一个巨大的优势。通过这种基于维度的方法,拥有所有选手的信息量之后,你就可以准确筛选出你正在寻找的选手类型。你不必再按角色进行筛选,而是按比赛风格进行筛选,并且可以轻松选择最适合你的队伍的10位选手。之后,教练组可以观看他们的demo,并选择观感与数据更相符的候选人。统计数据永远不会胜过精英教练组的专业知识,但由于时间是有限的资源,拥有一个帮助你筛选候选人的工具非常重要。

百分位数:一种观测差异性和比较选手的直观方法

百分位数简介

使用百分位数来衡量个体特征是人类相关领域的日常做法。诸如智商或五大性格特质之类的测试都依赖于百分位数来表明每个人在众人之中处于什么位置。这些测试都会将个体与参加测试的所有其他个体进行比较,因此真正重要的不是你的原始分数,而是你的分数与其他人的分数的比较结果。

百分位数非常灵活,不需要假设任何分布的存在,并且对于高斯分布和非高斯分布都很可靠。此外,百分位数的解释相当简单:在KPR这一数据中处于第90百分位数意味着你的KPR比90%的全体玩家都更高。对于百分位数而言,中位数是描述集中趋势的良好指标,而下百分位数和上百分位数(例如第10和第90百分位数)是估计分布的可靠方式。

然而,在一种特定情况下,百分位数可能会很让人棘手:相较于中间的百分位数,最高和最低的那些百分位数呈指数减少,而不是线性减少:

• 处于第50百分位数的人是二里挑一。
• 处于第90百分位数的人是十里挑一。
• 处于第95百分位数的人是二十里挑一。
• 处于第99百分位数的人是百里挑一!!

具有类似高斯分布的变量

在大多数情况下,我们将处理具有高斯分布的统计数据,其百分位数相当容易获得。例如,KPR、DPR、ADR和爆头率就是这种情况。在下图中,我们可以看到继续处理数据之后,数值的分布如何变化。首先,我们有原始数据(击杀数、死亡数、总伤害和爆头子弹总数)。其次,我们校正每个测量单位的原始数据(将击杀数、死亡数和总伤害除以回合数得到KPR、DPR和ADR,以及将爆头子弹总数除以命中子弹总数得到爆头率)。最后,我们估计数值的分布并为每位选手在每个统计数据中所处的位置分配百分位数。

具有双峰分布的变量

对于某些变量,我们会观察到其分布是两组选手的组合。例如,对于补枪击杀,有一组次数非常少的选手(自由人和激进的选手),然后是一组次数正常的选手(进攻抱团的团队核心)。突破击杀和突破死亡也是如此,其中一组选手的数值非常小(保守的选手、自由人、主防者),然后是数值较大的创造空间或寻求优势的团队核心。最后,另一个很好的例子是多杀得分:一些选手几乎从未获得多杀(指挥和辅助),然后队伍的其他成员负责获得大部分的击杀。

在这种情况下,数据处理方法确实相似,但是在提取百分位数时我们需要考虑到这些分布是这两个不同群体的混合结果:

上述就是本文主旨,朋友们!

在这篇文章中,我们全力以赴地分析rating,目的是帮助CS2玩家了解主流的rating之间的差异,以及为什么我们认为在社区中应该纳入一个与以前的rating互补的新体系。如果你已经理解了这一点,恭喜你!我试图尽可能简单地解释,但仍需要一些数学术语。如果你有兴趣看看我们的新方法的实际应用,请回顾我们的补充文章,其中我们比较了自今年年初以来选手的表现,而且只关注长枪局。如果你喜欢这篇文章并且对统计数据感兴趣,我强烈建议你收听分析师Thorin和康奈尔大学统计学博士William M. Briggs探讨统计数据如何被滥用的播客节目(https://www.youtube.com/watch?v=s45o-_LwVYI)。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号