tft每日頭條

 > 科技

 > 談談數據科學

談談數據科學

科技 更新时间:2025-03-06 21:06:57

【轉載】《紙上籃球》序言:當我們聊起數據時,我們究竟是在聊什麼

談談數據科學(當我們聊起數據時)1

寫給喜歡說數據無用論的觀衆,希望引起一些深思

對于籃球的數據分析,大家經常聽到這樣一句話:“數據有它的局限性”。對此我們其實深表贊同。是的,即使我們計劃在未來一段時間裡,圍繞籃球數據做抽絲剝繭的探讨和解讀,卻并不意味着我們非得扮演狂信徒的角色。

隻不過在承認局限性這個大前提以後,我們還是希望把這句話做一些更細緻的拆解。首先是大衆眼中的籃球數據究竟是指什麼?其次是面對局限性,我們究竟應該怎麼做?

1891年奈史密斯發明了籃球運動,可以想見最初的數據欄裡肯定有得分,否則比賽打完根本就不知道誰赢了。55年以後即1946-47賽季,NBA的前身BAA進入元年。根據美國的曆史數據庫顯示,當時就有統計并且現在仍然可以查到數據包括:1.得分,2.助攻,3.投籃相關(含出手數、命中數以及命中率),4.罰球相關(含出手數、命中數以及命中率),5.犯規。

4年後也就是1950-51賽季,NBA開始統計籃闆。1年後也就是1951-52賽季,NBA開始統計出場時間。22年後也就是1973-74賽季,NBA開始統計搶斷、蓋帽和失誤(有網友提醒完整統計失誤始于1977-78賽季,但BBR統計全聯盟的平均數據及球隊數據會更早一些),并且做了進攻籃闆和防守籃闆的拆分。

這裡非常有趣的地方就來了,如果不算NBA創立之前的年份,相當于美國人大概花了27年時間,來完善面闆數據(box score)以及其相應的場均數據的構成,然後就不再做任何主動性的大幅調整。期間1979-80賽季開始統計三分相關(含出手數、命中數以及命中率),更多是基于引入新規則後必須做的被動性調整。整個發展史大概是這樣的:

談談數據科學(當我們聊起數據時)2

我的意思是,一個40年都沒有更新的東西,就不應該被當成某種“完全形态”來看待,甚至于它沒有局限性才很奇怪。看到這裡你大概會問:既然如此,我不看它不就完了?專注于比賽本身不好嗎?如果你隻是想茶餘飯後看看球消遣一番,當然可以。但如果你想對籃球或者NBA有更深的了解,甚至是相關從業者,面闆數據由于它的普适性,就是會無時不刻影響着你。

就拿NBA來說,30個隊1,230場常規賽沒有哪個神仙可以有精力全部看完。最死忠的球迷會看完主隊的82場比賽,但想了解對手信息仍然會優先通過面闆數據。

這個世界也不存在看個幾分鐘球,就能洞窺某個球隊和球員是什麼水準的所謂“高手”,NBA的資深教練和球探都做不到。本-法爾克(1)曾在多支NBA球隊有過球探經曆,光是花在錄像拉片和剪輯上的時間就不知凡幾。然而他卻承認,自己跑去執教高中聯賽時“數據缺失導緻信息量太少了”,“不清楚對面的中鋒投籃到底什麼水平”,“策略難做會影響球員執行”。

真的太矛盾了!一個最容易影響到人們觀點的工具,偏偏又是一個數十年未更新極其落後的工具。這方面全世界的籃球人都太照本宣科了,僅僅因為籃球是美國人發明的,在統計面闆數據時就被人牽在屁股後面走,别人統計什麼我們也統計什麼。比如可能已經是世界上影響力第二高的專業賽事男籃世界杯,我查詢FIBA官網就沒看出有什麼創新之舉。

大家或許會覺得,美國不僅僅是籃球的發明者,也是籃球的領先者,跟在他們屁股後面走有什麼不對呢?難道我們還能關起門來搞發明創造,去做别人的老師不成?

但接下來的核心點就出現了:美國人不做面闆數據的更新,并不是沒有能力,而是認為沒必要去做。他們同時花大量的時間精力來研究各種進階數據(advanced stats)的算法和呈現,并且已經實實在在地影響到了比賽。

毫不誇張地講,NBA的近15年,就是進階數據分析在引領籃球發展的15年。數據分析不是某種派别,某個風格,不是“劍宗”和“氣宗”之争;而是毫無疑義的“更加先進的生産力”,類似于現代軍事與肉搏戰白刃戰的區别。

大家請不要誤解,數據分析仍然不能解決籃球場上的所有問題,但它隻要能幫助我們比單純的“肉眼看球”,或者“肉眼結合面闆數據看球”解決更多問題,就值得付出努力去研究它。

如果把“領悟籃球奧秘”比作一個進度條的話,美國人自己也在納悶進度條走到80%以後如何更進一步,真的是道阻且長。但我們作為學生,可以暫時不一起去糾纏這最後的20%應該怎麼完善,而是應該想想别人在前50%,前60%到底是怎麼走的。

人家在“存異”之前,早就花了大量精力來“求同”。用霍林格(2)的話來說,“美國籃球分析已經摘下了樹上位置最低的蘋果”。我們應該自問的是自己究竟摘下了沒有。如果答案暫時是否定的,這個蘋果究竟是什麼,應該如何去摘下它。

文章的最後我想再強調的是,就是千萬不要對數據分析有妖魔化的預設,拿一個不存在的靶子來打毫無意義。進階數據的研究,從來都沒有也不該和“看錄像”擺在沖突的,二選一的關系上,不是說你研究完數據就可以不用看比賽了。它更不是僅指某種建模後得出的簡單粗暴的一體化數據。倘若面闆數據是障人耳目的起點,一體化數據是某個隻能不斷逼近的終點,那麼起點和終點之間的空白地帶,散布着各種各樣評價單項技能的數據,就是當下最值得我們研究的。

談談數據科學(當我們聊起數據時)3

對于學習先進經驗,一個壞消息是,美國籃球其實已經過了分享氛圍最好的時代了。各隊花錢聘請分析師,基于利益考慮就不會做大量的信息交換,更别說我們來自不同的國家,說着不同的語言。

好消息則是,也有越來越多的業内人士意識到這個問題,而且美國籃球圈本來就很多人在“媒體人”和“隊内分析師”兩種角色裡來回橫移,也有助于我們更好地琢磨背後的思路。他們“桃李不言”,我們照樣能夠“下自成蹊”。

目前我的計劃是這樣,系列文章大概會分成幾部分,先是球隊數據分析,接着是球員數據分析,最後是單場比賽的分析。裡頭除了具體數據的簡介和拆解,還會有不少涉及NBA曆史的發展,各個位置的功能演變,以及數據對于實戰的結合。本體連載是免費的,首發于微博“旋貓”,每天中午12點和晚上6點雙更(工作日)或日更(周末)。注釋:

1.本-法爾克:曾任76人和開拓者的球探,現cleaningtheglass的創始人,目前在對外呈現的數據量化方面最出色的分析師。

2.約翰-霍林格:曾供職于ESPN和灰熊管理層,現為The Athletic主筆,也是最早嘗試撰寫單個球員報告的媒體人。


結束語

數據的接納也需要一個循序漸進的過程,十年前可能大家都不知道進攻效率和防守效率是什麼,如今大家也都接受了。每一個數據都會有它的局限性,通過了解它的計算原理,便可以有效的減少不足,當隻有得分這一數據時,這就對出手數少的人不理,所以增加了命中率,把得分的質和量結合起來看,但又發現,單看命中率對于外線投手來說是不公平的,三分的40命中率和兩分完全是兩個概念,所以有将命中率分區域劃分或者引用了真實命中率等數據,這樣的例子還有很多很多,希望通過原理的了解可以更好的運用數據吧。

某些人對于數據的嗤之以鼻确實難以苟同,對于數據的抗拒就像古代人對于科學的抗拒一樣,我們追求數據絕不是否認直接觀看比賽的重要性,而是作為一種必有的補充,因為從未有人能夠完整的看完所有比賽,當然絕不是說看比賽是毫無必要的,這絕不是捧一踩一的問題。現代科學發展到如此地步,不少事情還是要親身實踐的,因為我們從來不能探究到所有的規律,預測所有的事情發生,而且籃球終歸是個有概率運動,庫裡可能連鐵10個三分,追夢也可以三分絕殺比賽,我們能做的隻是不斷的去接近籃球的真理,得到最優的結果。

數據分析和觀看比賽從來不是對立的事情,靜易墨,旋貓這些看重數據分析的NBA球評,往往看的比賽比普通球迷多數倍,并且不隻是看熱鬧,而是有記錄,有目的性的研究,結合數據分析。他們跟普通看熱鬧的球迷相比,認知度,努力程度,熱情都不在一個頻道,而正是這些認知甚少,卻狂妄自大的球迷,往往會對着這些負責任的深度球評,丢下兩句經典而無知的話“數據不能說明一切”,“多看球吧”;數據不能說明一切,這句話截止目前是對的,但成立的依據,并不是球盲們随口說說,而是這些認真負責的籃球數據分析者,對比比賽觀感和數據反饋,最後發現某些數據失真而得出的,有依據支持的結論。數據雖然不能說明一切,但能說明大部分問題,那些連數據都不懂,也不會用的,那這些人又能說明什麼呢?

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved