用機器學習模型預測MVP得主 - NBA

Table of Contents

大略看了一下原文

提供我的一點淺見


首先

使用機器學習處理問題

是假設實際存在一個真實的模型

接著透過資料訓練出一個模型盡可能接近真實的模型

然後我們就可以拿訓練出來的模型對新的資料做預測


但是在這個問題上面

MVP票選並不是一個固定的模型

投票的人不一樣 投票的思維也不一樣

即便是同一批人 重新投一次票結果可能也不會一樣


因此

在這種問題上使用機器學習

甚至是各種資料科學的方法都可能存在不小的問題



資料的選取也很奇怪

作者的目的是建構一個預測MVP得主的模型

但實際上

他建構的是預測MVP得票排序的模型

作者為了讓訓練資料更多

把資料做了一個特別的調整

將原本的單一年度單一球員的資料(features)+是否為MVP(label)

調整成整個MVP票選結果排序中任意兩兩一組+誰的票多

具體詳細做法也沒有揭露


這樣的做法存在非常大的問題

因為同類型的球員會有分票效應

你不會知道把第一名的球員抽出之後

原本投給他的票會如何地分配給後面的球員

整個MVP票選結果 並沒有 告訴我們兩兩一組的票選結果

但是作者的模型大量使用了兩兩一組的排序關係作為訓練資料



然後最重要的是模型訓練方式跟模型評估

除了揭示使用了 XGBoost與LambdaMART 外

其他所有重要資訊都沒有揭露

我們無法得知所有的38年之中

哪些年份被拿來做為訓練資料

或是每個年份中哪些兩兩成對的組合是訓練資料


當然更不會知道訓練出來的模型評估結果好或壞

也不無可能作者把訓練資料跟測試資料反覆做各種分切

最後選取一種最滿意的切法做最後的建模

這樣做就會造成 data leakage 的問題


大概先這樣

---

如果有太複雜的ML問題

建議寄站內信給前站長 CharlieL

XD

--

All Comments

George avatarGeorge2021-05-02
Necoo avatarNecoo2021-05-03
箭頭
Ethan avatarEthan2021-05-05
箭頭
Agatha avatarAgatha2021-05-08
Jack avatarJack2021-05-11
懂歐 推
Sarah avatarSarah2021-05-11
原來他不是用38年來的所有球員數據去跑的喔
Bethany avatarBethany2021-05-11
推XD
Olivia avatarOlivia2021-05-14
文組 聽不懂
Emily avatarEmily2021-05-16
你把濤哥放那?
Yedda avatarYedda2021-05-18
身為外行人,這篇是不是說原始方法看起來有點問題
,就算是32/38猜中,可能是湊?
Liam avatarLiam2021-05-23
簡單說這篇提出的疑問是訓練的方法有問題。
但回在PTT沒用啊 XD PTT只會在意偷而已啊 XDDDD
Donna avatarDonna2021-05-27
他應該是把 38 年來的全丟進去跑然後用個普普的模型
所以不會 overfitting,但這種跑法根本沒意義
只能說有幾年的評分標準稍微不一樣而已
Genevieve avatarGenevieve2021-05-28
上一篇根本秀下限
Kelly avatarKelly2021-05-31
和偷不偷根本沒啥關係
Madame avatarMadame2021-06-03
你放心 鄉民看不懂還是會繼續吵繼續酸
Mia avatarMia2021-06-04
Tracy avatarTracy2021-06-06
認真了,大家只是需要找個可以吵起來的理由
Franklin avatarFranklin2021-06-11
投票的人才是真的
中肯
Carol avatarCarol2021-06-11
簡直亂做一通 我只信濤哥
Dora avatarDora2021-06-12
合理推
Margaret avatarMargaret2021-06-15
算力乖乖拿去挖礦好嗎??
Franklin avatarFranklin2021-06-19
不過就是因為不是固定模型才要機器學習阿 不然excel
數據列一列就好了
Rebecca avatarRebecca2021-06-24
有做有話題
Barb Cronin avatarBarb Cronin2021-06-26
他的sample size 就不夠大要怎麼train?
Puput avatarPuput2021-06-28
恩恩 跟我想的一樣
Yedda avatarYedda2021-06-29
反正程式數據小改,改到高興的人不就好了
Robert avatarRobert2021-06-29
專業推,很多留言不知道為什麼一直跳針32/38。看懂
model怎麼出來的比其他事情重要多了…
Sandy avatarSandy2021-07-02
終於有人講公道話
Quanna avatarQuanna2021-07-04
就統計而已30左右的樣本數跟沒有一樣
頂多就是算個趣味給大家看一下打發時間而已
Cara avatarCara2021-07-06
Kristin avatarKristin2021-07-10
其實量化分析樣本數最少30這是學術界公認的,30不會
不準
Margaret avatarMargaret2021-07-14
我文組先道歉
Olga avatarOlga2021-07-17
要發戰文其實也用不到機器學習來跑,鄉民拿幾個指
標配上自己愛的權重去給分數,分數最高的就當MVP。
這樣就可以嘴誰偷了MVP。而且這方法記得之前在板上
有看過類似的。原文那樣子應該比較像是拿NBA數據來
當練習的成果發表吧?
Emma avatarEmma2021-07-18
乾 整篇都看不懂 搞那麼複雜XD
Dora avatarDora2021-07-18
Faithe avatarFaithe2021-07-21
XD 這種類型的模型好像蠻適合當學校的課程專案的
台灣應該要有人寫幾個模型來玩啊
Sierra Rose avatarSierra Rose2021-07-22
Comments from Reviewer #1:
Elma avatarElma2021-07-24
我是覺得這case不太好,因為MVP跟數據表現重疊性
Noah avatarNoah2021-07-26
太高,基本上數據漂亮的球員MVP呼聲就高
Bennie avatarBennie2021-07-29
而且原文用了25個指標再做模型,搞不好結果沒有直接
看PER來得簡單 XD
*"在"做模型
Daph Bay avatarDaph Bay2021-08-03
以後直接看per就好了啊 其他都妖魔鬼怪
Liam avatarLiam2021-08-03
雖然我看不是很懂,這篇我也推
George avatarGeorge2021-08-07
我建議採用 Palantir 的服務
Carol avatarCarol2021-08-10
真實世界問題本來就一堆問題沒人知道是否真有模型
像人喜歡看什麼影片真的有模型嗎?only God konws
但yt跟Netflix一樣用ML train出東西來推薦影片給你
重點應該要放在是跑出來的結果有沒有用
Blanche avatarBlanche2021-08-14
推shifa,配上自己愛的權重去給分數就好了...
Sierra Rose avatarSierra Rose2021-08-15
很專業唷 不過人家也只是隨便玩玩而已吧
Jacky avatarJacky2021-08-17
濤哥沒機會秀一把 不然一定屌打
Ivy avatarIvy2021-08-20
濤哥明明就是某隊隊迷在那邊反串小丑,有夠瞎,騙
一堆貪雞排的推文
Harry avatarHarry2021-08-21
#1Qq7G7z- (NBA) 有板友整理過去數據跟MVP的關係
Tracy avatarTracy2021-08-25
反而統合性數據指標跟MVP的相關性沒那麼好的感覺
原文那一套32/38搞不好還不錯了 XD
Rebecca avatarRebecca2021-08-27
大有幫助 推!
Gilbert avatarGilbert2021-08-30
推田神
Queena avatarQueena2021-09-02
原來指標可能比25個還多啊 XD
Jessica avatarJessica2021-09-05
什麼不是固定模型不能預 多讀點書 多打幾場kaggle
Caitlin avatarCaitlin2021-09-09
比賽勝負都能預測 股票都能預測 MVP不能預測?
Sarah avatarSarah2021-09-13
這裡是哪裡
Puput avatarPuput2021-09-14
Condorcet voting
這個很常見,一點都不奇怪好嗎....
Megan avatarMegan2021-09-17
Yedda avatarYedda2021-09-17
分組就是為了避免人為權重影響結果
Poppy avatarPoppy2021-09-18
抽掉第一後面就會變,我聽你在唬爛洨
Todd Johnson avatarTodd Johnson2021-09-21
此文該推,分析透徹
Emily avatarEmily2021-09-22
這篇的推論根本胡說八道
Charlotte avatarCharlotte2021-09-24
文組不會抱歉
Lucy avatarLucy2021-09-27
我覺得該弄個爬蟲把網路聲量數據化弄進去
Tom avatarTom2021-10-01
推這篇
Wallis avatarWallis2021-10-03
我覺得拆成兩兩比較的方法很有趣R 原文就是認為說
Edith avatarEdith2021-10-06
不是只有誰真的得票第一這個資訊有意義, 每個排名
Hamiltion avatarHamiltion2021-10-10
誰大於誰也有意義, 所以每一年的資料都可以倆倆拆
這樣訓練集就不只有38個資料點了
Rachel avatarRachel2021-10-14
真的牽扯到人..就沒辦法用機器完全預測,去年才有人
模擬幾萬次大部份(忘了幾成)都快艇冠軍,結果XD
Frederica avatarFrederica2021-10-14
卡搞哩來
Erin avatarErin2021-10-18
假設實際存在一個真實的模型,看到這句下面就不用
看了
Edith avatarEdith2021-10-20
通篇亂講,教一些錯誤觀念