您当前的位置:首页 > 体育 > NBA

精品阅读:颠覆性的EPV统计 账面数据为何已过时

2014-04-22 05:04:20 来源: 网易体育 作者:kewell 作者:
摘要:在信息发达的电子时代,我们可以获得的篮球比赛数据已经数不胜数。想象一下你可以通过数据评估每场比赛每个球员的每个动作……这就是EPV数据统计所能带来的变革。作者/ KIRK GOLDSBERRY译者/kewell2013年2月14日,马刺对阵骑士,比赛意外地胶着。第四节还剩9.5秒的时候,新秀迪昂-

作者/ KIRK GOLDSBERRY

译者/kewell

2013年2月14日,马刺对阵骑士,比赛意外地胶着。第四节还剩9.5秒的时候,新秀迪昂-威特斯投进了堪称他职业生涯最重要的一球,让骑士取得2分领先。嗅到了爆冷味道的骑士主场球迷陷入癫狂。

马刺叫了暂停,决定拿出他们最常用的一套战术:中场变线发球,马特-邦纳把球传给托尼-帕克——帕克此时距离篮筐有30英尺远,他很快从左路开始攻击,蒂姆-邓肯给他做了挡拆,逼迫泰勒-泽勒轮转对阵帕克。时间还剩6.7秒,帕克冲向篮筐,似乎是要突破上篮,但电光石火之间,他改变了想法——

卡瓦伊-莱纳德正站在无球侧而且无人看防。帕克在切入后吸引了莱纳德的防守者威特斯,莱纳德面前空空荡荡。当帕克察觉到这一点后,他完美地将球传给莱纳德,接下来就是走程序了:莱纳德需要做的就是投进自己最擅长的三分,而马刺最终也以1分优势获胜。

但当你查看赛后的技术统计,很难察觉莱纳德的功劳。他1投1中,只得到3分。邓肯的挡拆没有计算在内,帕克的判断只被记为1次助攻。

帕克回顾了最后一攻:“我以为我会上篮,但我看到卡瓦伊处在空位。我打球的目的不光是赢球,更是为队友组织进攻,所以我希望选择正确的打法。”

* * * *

2012年麻省理工学院斯隆体育数据峰会结束后不久,我接到了布莱恩-考普的电话。考普专职处理NBA球员数据,也是NBA摄像追踪分析系统(SportVU)的负责人。当时我在哈佛大学工作,考普说愿意和篮球数据分析家们分享这个难以置信的数据系统。他问我愿不愿意“玩玩视觉数据”,我不愿错过这个机会,但也完全不知道那是什么玩意。

几周后,我第一次看到这个被称为将改变篮球分析的原始追踪系统数据,那真是个“OMG”的时刻。当时我面对的是一个27寸的苹果电脑,但我点开第一个追踪数据文件夹,密密麻麻的数字立刻布满了大屏幕。我能看到的只有海洋一般的小数点,乱七八糟的XML标签。显然,这是我见过的最“大”的数据,我还记得当时我有多惊讶,这么多数字竟然只代表一位球员在一场比赛某一节的几秒钟所做的动作。而我电脑里有几千个这样的档案。我需要帮助。

我找到卢克-布朗,一位研究空间统计(spatial statistics)的年轻教授,把自己的困境告诉了他。卢克建议我们组建一个分析小组,寻找合适的毕业生建立一个分析这些数据的程式。很快我找到了四位研究数据分析和电脑工程的博士生,2013年初,每位博士生都分配到了不同的任务,而这个小组则被命名为“XY篮球”。

丹-塞尔翁和阿历克斯-丹阿穆尔是初创成员,他们俩都27岁,在哈佛数据分析部读了四年博士。他们热爱体育,更喜欢分析数据和解码。当他们接触到追踪系统数据后,立刻开始了头脑风暴,并写出了一个计划方案,十分具有独创性,但也同样难以实现。

* * * *

为了找到最完美的分析工具,我们需要认识到的第一点就是世界上没有最完美的分析工具。就像没有数据能衡量人生一样,没有任何一个数据能正确地衡量篮球比赛。数据是把球员表现和分析结合在一起的简化中介,体育分析就是个巨大的编码器,而其基础则是数据能代表比赛的认知前提。

而2014年的现实是亚当-萧华的NBA已经在球馆中安放了摄像镜头,追踪每个球员的每一个动作。这些天花板上的“无人机”把具有潜在重要意义的字节传回到每支球队的监控室里。鉴于就在几年前获得高质量数据还是件难事,现在数据分析的重担就落在了可能没有把字节转换为有益情报的高级工具的那些分析团队身上。现在数据分析的瓶颈不是没有数据,而是没有能够分析数据的人。那些整天加班的分析师往往没有合适的硬件和软件,也没有恰当的训练,最重要的是没有时间。

而在有天赋有硬件的数据分析家手中,追踪系统的数据自然是能为人们了解联盟做出巨大贡献的。按考普的话来说,“我们只是在隔靴搔痒而已,能真正开始高级数据分析还需要更多努力。”NBA的大数据时代才刚刚开始,大家还都在为一个扣篮喝彩,因为它对球员、球队、媒体,以及最重要的球迷都有好处。但这是不够的,就像帕克所说,我们必须保证球员“打出正确的战术。”

* * * *

帕克是世界上最好的组织者之一。这十几年间,他一直是马刺的进攻源泉。但虽然已经赢得3个总冠军,1个总决赛MVP,帕克却从未被看作是真正的超级巨星。今年他再次成为了全明星替补,被排在那些成功比他少,人气比他高的球星之后。也许因为帕克是外国人,又或者是因为帕克的主队地处得州的一个小球市。

但也许这也是因为我们的数据统计无法展示一位球员在细枝末节处发挥的重要作用,过于看重其他一些更容易量化的数据,比如篮板和命中数。

我们称赞莱纳德的绝杀三分,毕竟他是投进这一球的人,但这一称赞的含义和夸奖乔治-克鲁尼在《地心引力》里演得不错差不了多少。(译者注:虽然是男主角,但克鲁尼在《地心引力》里只能算是“高级酱油男”。)

“我们练习了1000次这个战术,所以我知道大家一定能执行出来。”马刺主帅波波维奇赛后说。

把这句话应用到围棋上,应该就是说,致命一招之前的每一招都不容忽视,但我们实在过于看重那最后一步。围棋一般不是靠某一步获胜的,篮球也是一样,结果并非靠最终一步确定,所以像帕克或者克里斯-保罗这样的球员就总能有办法帮助自己的球队获胜。

在大数据时代,现在的数据系统——即统计表,简直就是个过时的打字机。虽然它的数据仍然可靠,但却是为了印刷便利而生,并不能真正体现场上10位球员的价值。统计表曾经发挥了巨大的作用,从比尔-拉塞尔的时代到迈克尔-乔丹的时代再到勒布朗-詹姆斯的时代,而从它身上也衍生出了众多“高级数据”和篮球数据分析的前身。

在过去几十年里,肯-波默罗伊、迪恩-奥利弗和约翰-霍林格都成功扮演了开拓者的角色,他们研究数据单,创造出新的、电脑时代的数据统计模式。我们会在他们的研究基础上前进,一切都在飞速发展。

* * * *

2013年的春季学期,塞尔翁和丹阿穆尔提出了一个新设想来评估NBA球员的价值。他们的想法很简单,但所需要的电脑运算却很复杂。他们的思想核心是:

一个篮球进攻回合的每个“状态(state)”都是有其价值的,其价值的基础在与对进球可能性的影响,以及这个回合进攻的可能得分(expected points)。普通的一个回合得分大约在1分左右,每回合的可能得分是不断浮动的,浮动的结果则是由场上的每个“状态”决定的。

他们同时也相信,利用追踪数据系统,我们能第一次计算出NBA一整个赛季里每一秒钟的比赛价值。他们提议,如果我们建立模型,运算几个关键法则——比如球员的位置、个人得分能力、持球者是谁、他的持球习惯、他在场上的位置等等,我们能够用新的数据统计颠覆现有的价值评估系统。

换句话说,想象你在比赛中的任何时候按下了暂停键的情况。塞尔翁和丹阿穆尔的核心理论就是,无论你在任何时候按下暂停键,我们有都数据能够算出当时的“预估进攻价值”,简称EPV(expected possession value)。

比如说,勒布朗在篮下持球而无人防守的情况吧,我们预估他能得到两分,而这时候他的EPV就是接近2。又假如德怀特-霍华德在距离篮筐40英尺处持球,他面前有3个防守者,而进攻时间仅剩1秒,那么他得分的可能性就非常小,这时的EPV就接近为0。当然,大多数时候,比赛不会出现这么极端的情况,但EPV的框架和运行原理就是这样。

这是理想的目标,而这一目标则催生了不少有价值的观点。

假如我们能计算任何比赛任何时刻的EPV,那么我们就有机会更加准确的量化球员表现,可以第一次把引导传球、运球突破、包夹这些篮球术语数据化。我们可以更加准确地计算对某些球队和球员怎样的挡拆防守最有效。对这些比赛基本动作的分析和提炼,我们可以判断战术有用与否,球员执行战术的水平又有多高。

EPV最适合评估球员的进攻效率,它可以计算球员在一场比赛,一个客场旅行,甚至整个赛季的所有进攻动作。我们可以用EPV分析成千上万的动作,并把它们归纳为一个数字,评判出该球员的真正价值。这一数字就是比起另外的人选,该球员在场上能多贡献多少分,这一统计可以被称为“EPV差值”或“分差(points-added)”。

让我们用EPV的视角重新研究帕克和莱纳德配合的这一球。这一刻从骑士领先2分,比赛还剩9秒开始,帕克启动进攻,这时的EPV为0.97。

在邓肯挡拆解放帕克后,帕克突破到中路时的EPV反而减小(因为有泽勒换防),但当他离篮筐越来越近,EPV逐渐上升到了1.36。帕克的运球突破已经提升了本回合的得分,但还没有结束。当他把球传给莱纳德的时候,EPV才达到了1.75的峰值。当迪昂-威特斯疯狂向外扑救,EPV降到了1.58,但他终归迟了一步。

分配延续不断的EPV(时间在不断流逝导致EPV为一条曲线)有多种方法。最简单的就是根据形势变化分配,比如帕克最终的EPV得分为+0.78,因为他启动进攻时的EPV为0.97,而传给莱纳德时为1.75,0.78正是两个数字的差值。

假设一个没有传统数据统计的平行宇宙,只有EPV,那么帕克显然应该得到更多称赞。但在现实的得分-助攻-篮板架构里,莱纳德是被“印刷”出来的人。Youtube上关于这个绝杀球的视频名称为“卡瓦伊-莱纳德的三分绝杀!”

* * * *

塞尔翁和丹阿穆尔从去年开始就着手建立EPV统计模型,他们借鉴了竞争风险模型(competing risk model)的原理,这一模型常被用于生存分析(survival analysis),评估死亡风险和这一风险随着时间的改变。塞尔翁认为这一模型也适用于篮球,把人类生命的长度换成篮球进攻回合,造成死亡的各种原因也可以则导致每个回合不同的结果。

他们在2014年斯隆体育分析峰会上把这一视角阐述成了一篇论文。“我们把‘死亡风险’换成了球场上每个动作可能产生的不同结果。”塞尔翁解释道,“就像在论文中所说的,这一模型评估了每场比赛每个瞬间的两个关键价值:

在定义上,现时EPV是此刻动作对于未来不同结果影响的评估。计算EPV需要一个能够给持球者未来可能动作下定义的模型,把球员放进空间统计里,让我们了解此刻状态对未来结果的影响。我们把这个模型叫做‘情境模型(possession model)’,运用马尔可夫假设理论(Markovian assumption),这个模型可以让我们计算a、在某一情境球员做出某一决定的可能;b、球员做出决定后该情境的EPV值。综合起来,我们可以得到任何回合里任何情境的

的价值,也能对制造出这一价值的进攻体系进行评估。”

再拿上赛季马刺对雷霆的一场比赛进行说明(图)。莱纳德在靠近弧顶处持球,模型预估出接下来他的动作和EPV的变化。

精品阅读:颠覆性的EPV统计 账面数据为何已过时

假如你问这一模型最难的是什么,他很快会提到电脑运算。但他的观点对于进入大数据时代的体育分析有极大的启发性。2012-13赛季,追踪数据系统一共记录了80,0000,0000次球员位置移动。记住,这只是14支球队的数据,而本赛季所有球员都开始使用这一系统。而追踪数据系统的数据库很快达到了930亿字节。

把这些字节全都塞进一个模型,塞尔翁和丹阿穆尔寻求了哈佛大学集群计算服务(cluster computing service)器,即“奥德赛(译者注:Odyssey,以《荷马史诗》中的人物命名)”的帮助。它竟然占用了500个增强功率型并行处理器2太字节(terabyte)的内存。

想想我们过去使用的简单基本的数据统计,这样的新型数据令人思维颠覆,不管是对人脑还是电脑。有多少NBA球队的员工理解什么叫“竞争风险模型”?更别说去建立和运用它了。就算这个数字不是0,也会比较靠近0而不是30。

* * * *

2012-13赛季,全联盟EPV差值最高的球员为克里斯-保罗,场均数值为3.48。这是较为合理的,大部分人都会把保罗看作是如今联盟的第一控卫。帕克的排名也很靠前,EPV差值为1.5,在所有327位达到统计资格的球员中排第20位。里基-卢比奥的-3.33是最低的。

“保罗的EPV差值为3.48的意义是,他的球队因为他在场每场能多得3.48分,就因为拿球做决定的人是保罗,不是其他什么球员。”丹阿穆尔说。

“总体来说,那些善于运用自己的长处,比如得分,或者善于运用队友长处的人,得分会非常高。”丹阿穆尔说,“假如一个球员某一出手比任何人的命中率都高(比如诺维茨基的中投),或者能发挥出队友不寻常的天赋(能经常传球给雷-阿伦投三分),那么他的得分就容易是正值。但假如一般球员选择传球,而这位球员总要艰难出手,或者某个队友的投篮命中率出奇的低的话,那么这位球员就可能得到负值(比如卢比奥在勒夫手腕受伤时的EPV差值)。”

但影响卢比奥数值的主要原因还是他的投篮技术,在任何位置出手他都十分低效。他任何出手的EPV都要比其他球员低,也处于这个原因,虽然卢比奥其他方面能做出贡献,但EPV模型贬低了他。

* * * *

EPV模型的主要贡献还有待观察,它的统计之路才刚刚开始,根本不可能对篮球统计起到颠覆性的影响。但也许在未来,它会带给NBA一些新的应用价值。而现在,比起评估一个球员的真正价值,EPV模型起码能带给人们新的视角去思索和计算NBA比赛,推动NBA和篮球运动的进步。

多年来,我们都在讨论“高级数据”,但那都不过是高级一点的数学。别误会我,像“每回合平均得分”,或者“PER值”这样的统计是有极大的价值和进步意义的,但我们要做的还有很多。我们已经手握庞大的追踪系统,现在差的就是分析这些数据的技术。

不幸的是,计算需求加大,最好的数据分析系统越来越难以获得,留给我们实验的时间恐怕不多了。

附:2012-13赛季EPV差值TOP10

克里斯-保罗:3.48

德克-诺维茨基:2.60

德隆-威廉姆斯:2.52

斯蒂芬-库里:2.50

贾马尔-克劳福德:2.50

格雷维斯-瓦兹奎斯:2.46

拉马库斯-阿尔德里奇:2.40

史蒂夫-纳什:2.09

韦斯利-马修斯:2.06

达米安-利拉德:1.95

2012-13赛季EPV差值倒数TOP10

里基-卢比奥:-3.33

凯文-勒夫:-2.38

拉塞尔-维斯布鲁克:-2.07

埃文-特纳:-1.90

奥斯丁-里弗斯:-1.84

鲁迪-盖伊:-1.75

朱尔-霍乐迪:-1.51

保罗-乔治:-1.49

克里斯-辛格尔顿:-1.48

罗伊-希伯特:-1.44

(注:由于2012-13赛季追踪系统未完全应用,只有保罗和勒布朗-詹姆斯的客场数据被统计进去。勒布朗的总排名为23。)

热门推荐
返回顶部