Meine Sachen + Modell: Der Prozess, die Ergebnisse und der reproduzierbare Code | von Riley Feltner | Juni 2023

0
23


Modellauswahl, Informationen und Genauigkeit

Mein Modell verwendet zum Trainieren Daten aus den Jahren 2019–2022 und trifft dann Vorhersagen auf der Grundlage der Daten aus dem Jahr 2023. Ich habe zunächst mit den Daten von 2019–2022 und einem Teil der Daten von 2023 trainiert. Die Ergebnisse waren fantastisch, aber für mich ist dies ein Tabu beim maschinellen Lernen, wenn es vermieden werden kann, um eine Überanpassung zu begrenzen. Ursprünglich habe ich ein RandomForest-Modell verwendet. Wegen der schnelleren Laufzeit und der etwas besseren Leistung bin ich bald auf ein xgboost-Modell umgestiegen. Ich habe einen einfachen Rastersuchansatz verwendet, um das Modell zu optimieren. Die für mich interessanten Hyperparameter waren Ntree, Depth und Alpha. Die besten Werte für Ntree, Depth und Alpha werden aus der Rastersuche extrahiert und auf das Modell angewendet. Dieser Ansatz hat mein Modell erheblich gestärkt und mir viel Zeit beim Herumbasteln an den Funktionen des Modells erspart.

Ich warfare mit der Genauigkeit meines endgültigen Modells ziemlich zufrieden. Es ergab sich eine Korrelation von 0,33, was zu einem R² von 0,11 führte. Der RMSE liegt bei 3,25, was etwas hoch, aber nicht schlecht ist. Wenn man bedenkt, dass Befehl, Ausführung, Reihenfolge und Schlagmann nicht berücksichtigt wurden, erscheinen mir die Ergebnisse solide.

Bestenlisten

Nun zum interessanten Teil! Hier sind die Bestenlisten professional Pitch-Typ:

2023 Fastballs Prime 10 Stuff+ (≥ 100 Pitches)… Wow, liebt mein Mannequin 4S FBs!
2023 Sliders Prime 10 Stuff+ (≥ 100 Pitches)
2023 Curveballs Prime 10 Stuff+ (≥ 100 Pitches)
2023 Changeups Prime 10 Stuff+ (≥ 100 Pitches)

Abschließende Gedanken und Ideen für die Zukunft

Ich denke, das ist ein solider Begin für mein erstes Stuff+-Modell! Dies wird wahrscheinlich weitere Iterationen durchlaufen, wenn ich fortgeschrittenere Techniken des maschinellen Lernens erlerne oder mir neue Ideen in den Sinn kommen. Ein Aspekt des Modells, bei dem ich mir noch nicht sicher warfare, ist die Artwork und Weise, wie Menschen ihre Stuff+-Modelle normalerweise skalieren. Für mich ist es am sinnvollsten, den Durchschnitt aller Tonhöhen auf 100 zu skalieren. Allerdings kann ich erkennen, dass es auch von Vorteil ist, 100 als Durchschnitt für einzelne Pitches zu skalieren, damit Pitcher wissen, ob das jeweilige Angebot basierend auf dem gleichen Pitch-Typ über oder unter dem Durchschnitt liegt. Wenn Sie ein Stuff+-Modell haben, lassen Sie mich wissen, was Sie getan haben! Zukünftige Iterationen könnten aus einer Priorisierung der Optimierung für den RMSE anstelle einer Korrelation bestehen und die Modellleistung zwischen den beiden Methoden bewerten. Ich könnte darüber nachdenken, die Plattenposition hinzuzufügen, um ein separates (aber ähnliches) Modell zu diesem Zeug + zu bauen.

Meine Hoffnung und der Hauptzweck dieses Blogs besteht darin, dass der Code vollständig reproduzierbar ist, was ich mir auch vorstellen kann. Es ist notwendig, zuerst die Daten von Savant abzukratzen, und das habe ich weggelassen, da ich sie in separaten Dateien abgekratzt habe. Hier ist ein tolles Ressource wie man die Daten in R kratzt.

Meinen Code für dieses Projekt finden Sie hier: https://github.com/rileyfeltner/Final-Stuff-Plus



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here