用機器學習模型預測MVP得主 - NBA

Blanche · 2021-04-30

Table of Contents

Post
Comments
Related Posts

大略看了一下原文

提供我的一點淺見

首先

使用機器學習處理問題

是假設實際存在一個真實的模型

接著透過資料訓練出一個模型盡可能接近真實的模型

然後我們就可以拿訓練出來的模型對新的資料做預測

但是在這個問題上面

MVP票選並不是一個固定的模型

投票的人不一樣投票的思維也不一樣

即便是同一批人重新投一次票結果可能也不會一樣

因此

在這種問題上使用機器學習

甚至是各種資料科學的方法都可能存在不小的問題

資料的選取也很奇怪

作者的目的是建構一個預測MVP得主的模型

但實際上

他建構的是預測MVP得票排序的模型

作者為了讓訓練資料更多

把資料做了一個特別的調整

將原本的單一年度單一球員的資料(features)+是否為MVP(label)

調整成整個MVP票選結果排序中任意兩兩一組+誰的票多

具體詳細做法也沒有揭露

這樣的做法存在非常大的問題

因為同類型的球員會有分票效應

你不會知道把第一名的球員抽出之後

原本投給他的票會如何地分配給後面的球員

整個MVP票選結果並沒有告訴我們兩兩一組的票選結果

但是作者的模型大量使用了兩兩一組的排序關係作為訓練資料

然後最重要的是模型訓練方式跟模型評估

除了揭示使用了 XGBoost與LambdaMART 外

其他所有重要資訊都沒有揭露

我們無法得知所有的38年之中

哪些年份被拿來做為訓練資料

或是每個年份中哪些兩兩成對的組合是訓練資料

當然更不會知道訓練出來的模型評估結果好或壞

也不無可能作者把訓練資料跟測試資料反覆做各種分切

最後選取一種最滿意的切法做最後的建模

這樣做就會造成 data leakage 的問題

大概先這樣

---

如果有太複雜的ML問題

建議寄站內信給前站長 CharlieL

XD

--

NBA

All Comments

George2021-05-02

推

Necoo2021-05-03

箭頭

Ethan2021-05-05

箭頭

Agatha2021-05-08

推

Jack2021-05-11

懂歐推

Sarah2021-05-11

原來他不是用38年來的所有球員數據去跑的喔

Bethany2021-05-11

推XD

Olivia2021-05-14

文組聽不懂

Emily2021-05-16

你把濤哥放那?

Yedda2021-05-18

身為外行人，這篇是不是說原始方法看起來有點問題
，就算是32/38猜中，可能是湊？

Liam2021-05-23

簡單說這篇提出的疑問是訓練的方法有問題。
但回在PTT沒用啊 XD PTT只會在意偷而已啊 XDDDD

Donna2021-05-27

他應該是把 38 年來的全丟進去跑然後用個普普的模型
所以不會 overfitting，但這種跑法根本沒意義
只能說有幾年的評分標準稍微不一樣而已

Genevieve2021-05-28

上一篇根本秀下限

Kelly2021-05-31

和偷不偷根本沒啥關係

Madame2021-06-03

你放心鄉民看不懂還是會繼續吵繼續酸

Mia2021-06-04

推

Tracy2021-06-06

認真了，大家只是需要找個可以吵起來的理由

Franklin2021-06-11

投票的人才是真的
中肯

Carol2021-06-11

簡直亂做一通我只信濤哥

Dora2021-06-12

合理推

Margaret2021-06-15

算力乖乖拿去挖礦好嗎??

Franklin2021-06-19

不過就是因為不是固定模型才要機器學習阿不然excel
數據列一列就好了

Rebecca2021-06-24

有做有話題

Barb Cronin2021-06-26

他的sample size 就不夠大要怎麼train?

Puput2021-06-28

恩恩跟我想的一樣

Yedda2021-06-29

反正程式數據小改，改到高興的人不就好了

Robert2021-06-29

專業推，很多留言不知道為什麼一直跳針32/38。看懂
model怎麼出來的比其他事情重要多了…

Sandy2021-07-02

終於有人講公道話

Quanna2021-07-04

就統計而已30左右的樣本數跟沒有一樣
頂多就是算個趣味給大家看一下打發時間而已

Cara2021-07-06

推

Kristin2021-07-10

其實量化分析樣本數最少30這是學術界公認的，30不會
不準

Margaret2021-07-14

我文組先道歉

Olga2021-07-17

要發戰文其實也用不到機器學習來跑，鄉民拿幾個指
標配上自己愛的權重去給分數，分數最高的就當MVP。
這樣就可以嘴誰偷了MVP。而且這方法記得之前在板上
有看過類似的。原文那樣子應該比較像是拿NBA數據來
當練習的成果發表吧？

Emma2021-07-18

乾整篇都看不懂搞那麼複雜XD

Dora2021-07-18

推

Faithe2021-07-21

XD 這種類型的模型好像蠻適合當學校的課程專案的
台灣應該要有人寫幾個模型來玩啊

Sierra Rose2021-07-22

Comments from Reviewer #1:

Elma2021-07-24

我是覺得這case不太好，因為MVP跟數據表現重疊性

Noah2021-07-26

太高，基本上數據漂亮的球員MVP呼聲就高

Bennie2021-07-29

而且原文用了25個指標再做模型，搞不好結果沒有直接
看PER來得簡單 XD
*"在"做模型

Daph Bay2021-08-03

以後直接看per就好了啊其他都妖魔鬼怪

Liam2021-08-03

雖然我看不是很懂,這篇我也推

George2021-08-07

我建議採用 Palantir 的服務

Carol2021-08-10

真實世界問題本來就一堆問題沒人知道是否真有模型
像人喜歡看什麼影片真的有模型嗎？only God konws
但yt跟Netflix一樣用ML train出東西來推薦影片給你
重點應該要放在是跑出來的結果有沒有用

Blanche2021-08-14

推shifa，配上自己愛的權重去給分數就好了...

Sierra Rose2021-08-15

很專業唷不過人家也只是隨便玩玩而已吧

Jacky2021-08-17

濤哥沒機會秀一把不然一定屌打

Ivy2021-08-20

濤哥明明就是某隊隊迷在那邊反串小丑，有夠瞎，騙
一堆貪雞排的推文

Harry2021-08-21

#1Qq7G7z- (NBA) 有板友整理過去數據跟MVP的關係

Tracy2021-08-25

反而統合性數據指標跟MVP的相關性沒那麼好的感覺
原文那一套32/38搞不好還不錯了 XD

Rebecca2021-08-27

大有幫助推！

Gilbert2021-08-30

推田神

Queena2021-09-02

原來指標可能比25個還多啊 XD

Jessica2021-09-05

什麼不是固定模型不能預多讀點書多打幾場kaggle

Caitlin2021-09-09

比賽勝負都能預測股票都能預測 MVP不能預測?

Sarah2021-09-13

這裡是哪裡

Puput2021-09-14

Condorcet voting
這個很常見，一點都不奇怪好嗎....

Megan2021-09-17

讚

Yedda2021-09-17

分組就是為了避免人為權重影響結果

Poppy2021-09-18

抽掉第一後面就會變，我聽你在唬爛洨

Todd Johnson2021-09-21

此文該推，分析透徹

Emily2021-09-22

這篇的推論根本胡說八道

Charlotte2021-09-24

文組不會抱歉

Lucy2021-09-27

我覺得該弄個爬蟲把網路聲量數據化弄進去

Tom2021-10-01

推這篇

Wallis2021-10-03

我覺得拆成兩兩比較的方法很有趣R 原文就是認為說

Edith2021-10-06

不是只有誰真的得票第一這個資訊有意義, 每個排名

Hamiltion2021-10-10

誰大於誰也有意義, 所以每一年的資料都可以倆倆拆
這樣訓練集就不只有38個資料點了

Rachel2021-10-14

真的牽扯到人..就沒辦法用機器完全預測，去年才有人
模擬幾萬次大部份（忘了幾成）都快艇冠軍，結果XD

Frederica2021-10-14

卡搞哩來

Erin2021-10-18

假設實際存在一個真實的模型，看到這句下面就不用
看了

Edith2021-10-20

通篇亂講，教一些錯誤觀念

用機器學習模型預測MVP得主 - NBA

All Comments

Related Posts