CG電子老虎機 / 二十一點 / 娛樂城遊戲 / 必贏娛樂城 / 金旺5298 / 骰寶

【粉絲投稿】為何要數據怎麼用淺談數據之於棒球比賽

CG電子老虎機, 二十一點, 娛樂城遊戲, 必贏娛樂城, 金旺5298, 骰寶

感謝 Topsy 熱情投稿近年來無論在什麼領域,數據分析都是一個火熱的趨勢;其中棒球統計分析(又稱賽伯計量學,

二十一點

英文稱Sabermetrics)更是在多年前就已經由Bill James等人開始發展,而球迷之間似乎也壁壘分明,偏好數據分析的球迷也經常被和「不懂棒球的美好」、「只用數字看球」之類的批評連結了起來。然而Sabermetrics不只是部分球迷的心頭好,更是業界真槍實彈的分析模式。除了講到爛的Moneyball之外,筆者曾經看過藍鳥隊也在徵才啟事的俜用條件上寫到必須具備R、SQL等統計或資料相關能力,甚至從前輩口中得知臺灣一些關於Sabermetrics的研究,可以得知Sabermetrics絕對不只是部分球迷孤芳自賞的玩具,是真的有其需求存在。有鑒於棒球統計的浪潮早已從次文化成為主流,我想寫篇雜談來聊聊最基本的數據概念。這篇文章不打算講艱澀的東西,希望盡量以淺顯易懂的方式討論使用數據看棒球的意義。 一、為什麼要用數據?所謂「數據派」與「傳統派」球迷之間最大的齟齬經常發生在對數字的挑選,最主要的導火線往往不出進階數據與傳統數據的選擇,

金旺5298

因此我想在這裡談談什麼才是好的數據。 在回答這個問題之前,我們先退一百萬步回到問題的開端:不管是進階數據還是傳統數據,為什麼要使用數據?Moneyball一書早在十幾年前就為我們做了解答:因為人類本身能夠進行的資訊處理,太有限了。大家都知道0.270的打擊率和0.320的打擊率是平庸和傑出的差別,在上述兩種打擊率下兩個同樣有600個打數的打者一季會差30支安打-也就是較傑出的那位球員每五場多才能打出象徵兩人差距的那一支安打。若有某個偶爾才看一場球的球迷剛好看見了前者打出四支安打的那場比賽,他很容易出於直覺地相信前者是比較會打安打的打者,但這卻與事實違背-因為我們沒辦法看每一場球並詳細紀錄球場上發生的所有事件,所以我們需要數據來替我們還原選手的實力,否則我們幾近無法分辨選手的好壞。 二、不同數據的表述既然都決定要使用數據了,我們當然傾向選擇能夠表現選手「實力」的數據,這時候「運氣」扮演的角色就相當重要了。在處理數據時,我們希望能夠盡量不牽扯到運氣,原因是運氣在選手表現中扮演的是一個「隨機的雜訊」(可以直接當作統計中的殘差項,即假設每位選手的運氣皆出自期望值為0的常態分佈;這個假設本身是不支持「運氣是一種實力」這個論述的),而「實力」則可以視為這個球員的「期望表現」,也就是球隊預期在花錢後得到的回報。當我們的討論目標是實力,我們會有兩個主要目標:第一:想排除運氣對選手表現的影響。第二:想偵測選手的哪些表現來自運氣。例如投手的BABIP和ERA有極大的相關,而大家都知道多數投手無法控制BABIP(BABIP幾乎在某範圍內隨機),所以BABIP是運氣(現在已經成功偵測運氣),而BABIP又和ERA高度相關,代表ERA是一個與運氣較相關的數據;相對來說,衡量投手的另一數據FIP只包含了投手的TTO指標(SO/BB/HR),忽略了投手的BABIP(排除運氣),所以同一個投手FIP年與年之間的波動,通常較ERA小。 使用數據的時候必須特別注意假設與現實是否衝突。例如在使用FIP評估投手表現的時候,投手無法控制BABIP是最重要的假設,一但失去這個假設,FIP排除BIP的計算方式會瞬間變得不合理。當你遇到了Chris Young這類BABIP長年控制得非常低的投手,前提假設就失控了,

CG電子老虎機

貿然使用FIP會使得他用自身能力掙來的低BABIP完全被忽略,反而達不到以數據表現實力的目標。 聽起來很複雜嗎?這裡提供一個簡單的例子:有一份高中數學考卷,受試對象是一群高中生;考卷的滿分是100分,其中的60分稱為A部分——是高中三年的範圍,能得幾分看實力、剩下的40分稱為B部分——是高等微積分,基本上沒有人會;好消息是B部分全部都是選擇題,所以大家可以猜。(ps:「猜」引申出來的意涵是:你不太可能每次都猜到高分,也不太可能每次都猜到低分——沒有人天生就比較會猜中,也沒有人天生就是猜不中。) 你可以把ERA想像成總分——總分和運氣的關聯很大,那40分裡面猜中了幾分,對結果會有很大的影響,而總分60分的人實力真的比40分的人好嗎?其實很難講。 FIP的概念則是:「B部分的40分拿多拿少簡直是比運氣,和實力無關。所以不管那40分的玄學了,比大家都唸過的A部分就好」;在這個脈絡底下,FIP選擇了自己有把握解釋好的地方,並盡量避談不好處理的運氣;在A部分拿比較多分的人,實力比較強的機率的確是很高的。但有一種例外,就是考生裡真的有個會寫高等微積分的天才;結果你把那40分抽掉,對得起所有考生,偏偏就是對不起他,因為他的實力被你當作運氣了,他被你低估了。在大多數的情況下,去知道一個學生「在A部分的得分」,遠比知道他的「總分」還有意義。假設有一個考生X在A部分拿了60分裡的50分、總分是55分;我們知道相較於總分的55分,他的實力很可能更接近A部分的50分/60分,B部分只猜中5分是他倒霉,因此影響到他的評價有失公允。又假設另一個當天運氣很好的考生Y在A部分拿了30分、總分65分。事實上考生Y的實力極可能比考生X差,只是他運氣更好猜中更多,得到了更高的總分;但如果有下一次考試,並開了一場賭盤,

必贏娛樂城

去賭X考得比Y高分其實會是比較理性的選擇。 別誤會,FIP雖然比ERA更可能反映實力,但不代表FIP反映出的就是實力——有可能X在A部分的實力是45分,這次拿了50分;沒有人可以完全排除運氣,但只要在允許的變異範圍內都不會是問題。FIP想做到的和世界上所有數據一樣,都是盡量去逼近選手的實力,而有些數據較可能逼近、有些較不容易逼近。  三、看球的重要性上面提到的考試例子存在著一種例外,就是考生Y在下次考試前突然開竅,蛻變成了不同的人;在統計上,我們會認為這個考生所能交出的分數變成了不同的分配,一但偵測到這種狀況,我們就必須對他重新審視,而非繼續期望他在A部分交出30分。看球是抓出這種變化最簡單的方式。數據是看不了那麼多場球的替代方案,當數據出現了無法分辨的異常,你當然是老老實實回去找比賽。最簡單的例子是Charlie Morton變成火球男之後跟以前那個假Doc差了多少,或是Kevin Brown開竅懂得丟直球之後發生了什麼事,這些多出來的K是不是來自運氣,看他們丟出來的球不是一目瞭然嗎?數據是以過去的成績來讓你對未來有個底,一旦發現過去的成績不適用了,當然是捨棄,否則也只是垃圾進垃圾出,難道評估明年Charlie Morton(太空人右投)的K/9要把海盜時期拿來加權嗎?  四、進階數據與傳統數據的論戰許多網友很愛提進階數據這個詞,事實上我認為無論是所謂傳統數據或進階數據,都只是協助判斷球員表現的工具罷了,刻意去分這個不太必要,也沒有意義。當然數據存在著好與壞的差別,有些數據簡直是毫無意義,但傳統和進階不是區分這個的壁壘。如同上面提到FIP通常被當作進階數據,但我還真的搞不懂這東西哪裡進階了。同樣的,K%或BB%這些數據的出發點完全就是棒球的基礎,不會因為一個簡單的換算就變得進階;基本上多數的棒球數據都是球場內發生的事情,頂多經過一些運算或配適,通常都不會比上面那張考卷的高等微積分還難,是要進階到哪去?比起進階不進階的無聊標籤,如何在Data Driven的思考模式裡結合球賽中的現象(Domain Knowledge),在知道數據使用前提的情況下整理出一般人沒辦法用肉眼分辨的訊息,這才是數據能夠搭配人腦,

娛樂城遊戲

在棒球領域做出的貢獻。 至於何謂知道數據使用前提?要用一個數據前,起碼先把數據怎麼來的看一下吧。看過有人直接拿ERA和FIP比大小,

骰寶

來分析某投手的ERA未來會上升還是下降,這就是缺乏對於FIP公式理解的結果;FIP的常數校正只是為了讓數字長得像大家熟悉的ERA,並沒有把分配調整到類似ERA的效果。統計界的老話一句:「數據不會說謊,但使用數據的人會」,說謊分成蓄意和無意的,其中我認為蓄意的是壞、無意的是蠢;壞不壞別人管不了,但至少讓我們小心點使用,不要當了蠢人。     歡迎各位有緣的讀者們加入"MLB臺灣非官方交流會"這個FB社團一同討論棒球,目前人數已接近17,000人,版規完整、管理有方,可說是全臺灣最優質的MLB社團唷! https://www.facebook.com/groups/370033756451461/  另外歡迎參閱MLB Tommy John粉絲團,這裡將提供更多棒球相關文章、資訊,