用機器學習模型預測MVP得主 - NBA

Blanche avatar
By Blanche
at 2021-04-30T13:33

Table of Contents

大略看了一下原文

提供我的一點淺見


首先

使用機器學習處理問題

是假設實際存在一個真實的模型

接著透過資料訓練出一個模型盡可能接近真實的模型

然後我們就可以拿訓練出來的模型對新的資料做預測


但是在這個問題上面

MVP票選並不是一個固定的模型

投票的人不一樣 投票的思維也不一樣

即便是同一批人 重新投一次票結果可能也不會一樣


因此

在這種問題上使用機器學習

甚至是各種資料科學的方法都可能存在不小的問題



資料的選取也很奇怪

作者的目的是建構一個預測MVP得主的模型

但實際上

他建構的是預測MVP得票排序的模型

作者為了讓訓練資料更多

把資料做了一個特別的調整

將原本的單一年度單一球員的資料(features)+是否為MVP(label)

調整成整個MVP票選結果排序中任意兩兩一組+誰的票多

具體詳細做法也沒有揭露


這樣的做法存在非常大的問題

因為同類型的球員會有分票效應

你不會知道把第一名的球員抽出之後

原本投給他的票會如何地分配給後面的球員

整個MVP票選結果 並沒有 告訴我們兩兩一組的票選結果

但是作者的模型大量使用了兩兩一組的排序關係作為訓練資料



然後最重要的是模型訓練方式跟模型評估

除了揭示使用了 XGBoost與LambdaMART 外

其他所有重要資訊都沒有揭露

我們無法得知所有的38年之中

哪些年份被拿來做為訓練資料

或是每個年份中哪些兩兩成對的組合是訓練資料


當然更不會知道訓練出來的模型評估結果好或壞

也不無可能作者把訓練資料跟測試資料反覆做各種分切

最後選取一種最滿意的切法做最後的建模

這樣做就會造成 data leakage 的問題


大概先這樣

---

如果有太複雜的ML問題

建議寄站內信給前站長 CharlieL

XD

--
Tags: NBA

All Comments

George avatar
By George
at 2021-05-02T23:46
Necoo avatar
By Necoo
at 2021-05-03T09:20
箭頭
Ethan avatar
By Ethan
at 2021-05-05T11:28
箭頭
Agatha avatar
By Agatha
at 2021-05-08T22:39
Jack avatar
By Jack
at 2021-05-11T12:18
懂歐 推
Sarah avatar
By Sarah
at 2021-05-11T17:46
原來他不是用38年來的所有球員數據去跑的喔
Bethany avatar
By Bethany
at 2021-05-11T23:10
推XD
Olivia avatar
By Olivia
at 2021-05-14T13:13
文組 聽不懂
Emily avatar
By Emily
at 2021-05-16T22:36
你把濤哥放那?
Yedda avatar
By Yedda
at 2021-05-18T18:57
身為外行人,這篇是不是說原始方法看起來有點問題
,就算是32/38猜中,可能是湊?
Liam avatar
By Liam
at 2021-05-23T03:44
簡單說這篇提出的疑問是訓練的方法有問題。
但回在PTT沒用啊 XD PTT只會在意偷而已啊 XDDDD
Donna avatar
By Donna
at 2021-05-27T21:52
他應該是把 38 年來的全丟進去跑然後用個普普的模型
所以不會 overfitting,但這種跑法根本沒意義
只能說有幾年的評分標準稍微不一樣而已
Genevieve avatar
By Genevieve
at 2021-05-28T21:36
上一篇根本秀下限
Kelly avatar
By Kelly
at 2021-05-31T14:02
和偷不偷根本沒啥關係
Madame avatar
By Madame
at 2021-06-03T18:40
你放心 鄉民看不懂還是會繼續吵繼續酸
Mia avatar
By Mia
at 2021-06-04T09:57
Tracy avatar
By Tracy
at 2021-06-06T17:58
認真了,大家只是需要找個可以吵起來的理由
Franklin avatar
By Franklin
at 2021-06-11T04:02
投票的人才是真的
中肯
Carol avatar
By Carol
at 2021-06-11T11:38
簡直亂做一通 我只信濤哥
Dora avatar
By Dora
at 2021-06-12T11:33
合理推
Margaret avatar
By Margaret
at 2021-06-15T21:40
算力乖乖拿去挖礦好嗎??
Franklin avatar
By Franklin
at 2021-06-19T22:53
不過就是因為不是固定模型才要機器學習阿 不然excel
數據列一列就好了
Rebecca avatar
By Rebecca
at 2021-06-24T10:26
有做有話題
Barb Cronin avatar
By Barb Cronin
at 2021-06-26T15:52
他的sample size 就不夠大要怎麼train?
Puput avatar
By Puput
at 2021-06-28T20:42
恩恩 跟我想的一樣
Yedda avatar
By Yedda
at 2021-06-29T02:06
反正程式數據小改,改到高興的人不就好了
Robert avatar
By Robert
at 2021-06-29T14:15
專業推,很多留言不知道為什麼一直跳針32/38。看懂
model怎麼出來的比其他事情重要多了…
Sandy avatar
By Sandy
at 2021-07-02T15:50
終於有人講公道話
Quanna avatar
By Quanna
at 2021-07-04T09:23
就統計而已30左右的樣本數跟沒有一樣
頂多就是算個趣味給大家看一下打發時間而已
Cara avatar
By Cara
at 2021-07-06T22:05
Kristin avatar
By Kristin
at 2021-07-10T00:58
其實量化分析樣本數最少30這是學術界公認的,30不會
不準
Margaret avatar
By Margaret
at 2021-07-14T17:33
我文組先道歉
Olga avatar
By Olga
at 2021-07-17T02:21
要發戰文其實也用不到機器學習來跑,鄉民拿幾個指
標配上自己愛的權重去給分數,分數最高的就當MVP。
這樣就可以嘴誰偷了MVP。而且這方法記得之前在板上
有看過類似的。原文那樣子應該比較像是拿NBA數據來
當練習的成果發表吧?
Emma avatar
By Emma
at 2021-07-18T01:33
乾 整篇都看不懂 搞那麼複雜XD
Dora avatar
By Dora
at 2021-07-18T04:55
Faithe avatar
By Faithe
at 2021-07-21T21:56
XD 這種類型的模型好像蠻適合當學校的課程專案的
台灣應該要有人寫幾個模型來玩啊
Sierra Rose avatar
By Sierra Rose
at 2021-07-22T01:35
Comments from Reviewer #1:
Elma avatar
By Elma
at 2021-07-24T05:31
我是覺得這case不太好,因為MVP跟數據表現重疊性
Noah avatar
By Noah
at 2021-07-26T23:37
太高,基本上數據漂亮的球員MVP呼聲就高
Bennie avatar
By Bennie
at 2021-07-29T08:41
而且原文用了25個指標再做模型,搞不好結果沒有直接
看PER來得簡單 XD
*"在"做模型
Daph Bay avatar
By Daph Bay
at 2021-08-03T05:30
以後直接看per就好了啊 其他都妖魔鬼怪
Liam avatar
By Liam
at 2021-08-03T09:43
雖然我看不是很懂,這篇我也推
George avatar
By George
at 2021-08-07T13:50
我建議採用 Palantir 的服務
Carol avatar
By Carol
at 2021-08-10T13:25
真實世界問題本來就一堆問題沒人知道是否真有模型
像人喜歡看什麼影片真的有模型嗎?only God konws
但yt跟Netflix一樣用ML train出東西來推薦影片給你
重點應該要放在是跑出來的結果有沒有用
Blanche avatar
By Blanche
at 2021-08-14T02:07
推shifa,配上自己愛的權重去給分數就好了...
Sierra Rose avatar
By Sierra Rose
at 2021-08-15T04:06
很專業唷 不過人家也只是隨便玩玩而已吧
Jacky avatar
By Jacky
at 2021-08-17T19:14
濤哥沒機會秀一把 不然一定屌打
Ivy avatar
By Ivy
at 2021-08-20T17:32
濤哥明明就是某隊隊迷在那邊反串小丑,有夠瞎,騙
一堆貪雞排的推文
Harry avatar
By Harry
at 2021-08-21T04:18
#1Qq7G7z- (NBA) 有板友整理過去數據跟MVP的關係
Tracy avatar
By Tracy
at 2021-08-25T20:13
反而統合性數據指標跟MVP的相關性沒那麼好的感覺
原文那一套32/38搞不好還不錯了 XD
Rebecca avatar
By Rebecca
at 2021-08-27T01:48
大有幫助 推!
Gilbert avatar
By Gilbert
at 2021-08-30T07:46
推田神
Queena avatar
By Queena
at 2021-09-02T15:24
原來指標可能比25個還多啊 XD
Jessica avatar
By Jessica
at 2021-09-05T00:59
什麼不是固定模型不能預 多讀點書 多打幾場kaggle
Caitlin avatar
By Caitlin
at 2021-09-09T08:48
比賽勝負都能預測 股票都能預測 MVP不能預測?
Sarah avatar
By Sarah
at 2021-09-13T19:05
這裡是哪裡
Puput avatar
By Puput
at 2021-09-14T11:59
Condorcet voting
這個很常見,一點都不奇怪好嗎....
Megan avatar
By Megan
at 2021-09-17T12:57
Yedda avatar
By Yedda
at 2021-09-17T18:52
分組就是為了避免人為權重影響結果
Poppy avatar
By Poppy
at 2021-09-18T08:26
抽掉第一後面就會變,我聽你在唬爛洨
Todd Johnson avatar
By Todd Johnson
at 2021-09-21T19:08
此文該推,分析透徹
Emily avatar
By Emily
at 2021-09-22T09:57
這篇的推論根本胡說八道
Charlotte avatar
By Charlotte
at 2021-09-24T13:13
文組不會抱歉
Lucy avatar
By Lucy
at 2021-09-27T05:35
我覺得該弄個爬蟲把網路聲量數據化弄進去
Tom avatar
By Tom
at 2021-10-01T03:24
推這篇
Wallis avatar
By Wallis
at 2021-10-03T15:40
我覺得拆成兩兩比較的方法很有趣R 原文就是認為說
Edith avatar
By Edith
at 2021-10-06T06:50
不是只有誰真的得票第一這個資訊有意義, 每個排名
Hamiltion avatar
By Hamiltion
at 2021-10-10T21:25
誰大於誰也有意義, 所以每一年的資料都可以倆倆拆
這樣訓練集就不只有38個資料點了
Rachel avatar
By Rachel
at 2021-10-14T09:16
真的牽扯到人..就沒辦法用機器完全預測,去年才有人
模擬幾萬次大部份(忘了幾成)都快艇冠軍,結果XD
Frederica avatar
By Frederica
at 2021-10-14T22:15
卡搞哩來
Erin avatar
By Erin
at 2021-10-18T17:07
假設實際存在一個真實的模型,看到這句下面就不用
看了
Edith avatar
By Edith
at 2021-10-20T17:41
通篇亂講,教一些錯誤觀念

用機器學習模型預估MVP得主

Iris avatar
By Iris
at 2021-04-30T13:18
※ 引述《timmyen (Ako)》之銘言: : 今天早上在reddit看到的文章,覺得挺有趣,轉過來跟版友們分享。 : 小弟不是學資料科學的,如果內文有誤也請不吝指正 : 原文:https://perthirtysix.com/essay/2021-nba-mvp-race : 懶人包: : 作者(u/r ...

原來當初Nash的MVP算是偷的?

Erin avatar
By Erin
at 2021-04-30T13:03
※ 引述《sk050607 (板橋Vettel)》之銘言: : #1WYs3Uo8 (NBA) : 前面幾篇的一個程式文 : 回推了過往MVP候選人的數據 : 發現原來Nash的兩個MVP : 按照程式的計算 : 幾乎是幾十年來,所有MVP得主的最低標 : 這程式模擬中,這兩年Nash的模擬分數 : 甚至還不 ...

原來當初Nash的MVP算是偷的?

Charlotte avatar
By Charlotte
at 2021-04-30T12:46
程式代表一切那就不用印象分帶隊分了 先護航我岳父 熱火沒shaq ,wade單核帶隊可能性有沒有? 有,那記者票就投給Nash 再來,要說這座算偷 岳父粉我可以接受畢竟分差那麼近 不要像昨天CP粉在那狗鼻偷MVP 然後貼一個分差一兩百分的說偷 我承認CP很強,你可以護航說生錯時代 剛好撞到生 ...

Nash:我只需要安排KD上場,然後好事就會發

Una avatar
By Una
at 2021-04-30T12:34
https://voice.hupu.com/nba/2725775.html Nash:我只需要安排KD上場,然後好事情就會發生 籃網在今日比賽中130-113擊敗溜馬。賽後,籃網主帥Steve Nash接受了採訪。 談到Kevin Durant的助攻表現(10次助攻,2次失誤),Nash說道:“我 ...

原來當初Nash的MVP算是偷的?

Liam avatar
By Liam
at 2021-04-30T12:31
#1WYs3Uo8 (NBA) 前面幾篇的一個程式文 回推了過往MVP候選人的數據 發現原來Nash的兩個MVP 按照程式的計算 幾乎是幾十年來,所有MVP得主的最低標 這程式模擬中,這兩年Nash的模擬分數 甚至還不是排名第一 第一個MVP分數不及Shaq 第二個MVP分數不及Lebro ...