Kein kostenloses Mittagessen: Die Wichtigkeit, immer viele Modelle für maschinelles Lernen zu testen | von Justin Swansburg | Juni 2023

0
24


Ein detaillierter Blick darauf, welche Modelle für maschinelles Lernen bei realen Problemen am besten funktionieren

Ich arbeite bei DataRobot, einem KI/ML-Startup, das eine Finish-to-Finish-Knowledge-Science-Plattform verkauft. Vor quick zehn Jahren haben wir den Begriff „autoML“ oder „automatisiertes maschinelles Lernen“ geprägt. Die Idee battle einfach: Wir wollten Datenwissenschaftlern dabei helfen, alle sich wiederholenden Schritte zu automatisieren, die sie im Rahmen des Aufbaus von Pipelines für maschinelles Lernen konsistent programmieren und neu programmieren mussten.

Durch die Automatisierung vieler dieser zeitaufwändigeren Schritte haben Datenwissenschaftler mehr Zeit für die Arbeit an höherwertigen Aktivitäten wie der Verbesserung der Modellierungsleistung, der Interpretation von Ergebnissen und der Zusammenarbeit mit dem Unternehmen zur Förderung der Akzeptanz. Lustige Sachen!

Der Kern der DataRobot-Plattform basiert auf einem Prozess, den wir Autopilot nennen. Autopilot erfasst einen Datensatz und erstellt und testet schnell Dutzende, wenn nicht Hunderte verschiedener Modellierungspipelines parallel. Sobald alle diese Modelle trainiert sind, bewerten wir automatisch die Out-of-Pattern-Leistung jedes Modells anhand verschiedener Metriken und ordnen sie in einer Rangliste ein, die wie folgt aussieht:

Warum erzähle ich Ihnen das alles? Weil wir bei Tausenden von Autopilot-Experimenten unserer Kunden Daten gesammelt haben, anhand derer wir untersuchen können, welche Modellierungstechniken zu den besten Ergebnissen führen. Jedes Mal, wenn ein Benutzer ein Modell erstellt und seine Leistung auf unserer Plattform bewertet, speichern wir die relevanten anonymisierten Metadaten. Und gebaute Modelle haben sie! Benutzer haben Millionen von Modellen für alle möglichen Domänen und Problemtypen erstellt.

Der Relaxation dieses Beitrags wird diese Daten durchgehen und analysieren, wie verschiedene Algorithmen bei realen Problemen tendenziell funktionieren.

Kein freies Mittagessen

Bevor wir uns mit den Daten befassen, wollen wir kurz auf das Konzept eingehen, dass es kein kostenloses Mittagessen gibt. Das No-Free-Lunch-Theorem besagt, dass wir nicht wissen können, welches maschinelle Lernmodell bei einem Downside am besten funktioniert, bis wir es tatsächlich ausprobieren. Es gibt keinen einzigen magischen Algorithmus, der immer die höchste Genauigkeit liefert. Daher müssen wir als Datenwissenschaftler eine Vielzahl alternativer Techniken erkunden, um herauszufinden, welche für unser Downside geeignet ist.

Werfen wir einen Blick auf alle im Laufe der Jahre auf DataRobot trainierten Modelle für maschinelles Lernen und vergleichen ihre Leistung. Wenn unser No-Free-Lunch-Theorem korrekt ist, werden wir bei den meisten unserer Projekte keinen einzigen Modellierungsansatz sehen, der die beste Leistung erbringt.

Ich habe bereits erwähnt, dass der Autopilot von DataRobot Dutzende Modelle parallel für einen einzelnen Datensatz testet und alle resultierenden Modelle in einer Rangliste einordnet. Durch dieses Structure können wir sehen, welcher Modellierungsansatz in jedem unserer Projekte zur höchsten Genauigkeit geführt hat (denken Sie daran, dass wir mit tabellarischen Datensätzen arbeiten).

Für diesen Beitrag habe ich jedes Regressions- und Klassifizierungsprojekt befragt, das in den letzten fünf Jahren in DataRobot trainiert wurde, und den Algorithmus mit der besten Leistung ermittelt.

Die folgende Tabelle zeigt die verschiedenen Modellierungsansätze und wie oft sie in unseren Projekten am genauesten waren:

Lassen Sie uns dieses Diagramm analysieren. Zunächst einmal belegt XGBoost den Spitzenplatz, da es in knapp 20 % aller unserer Projekte das genaueste Modell ist. Wenn Ihnen die Zeit ausgeht und Sie nur einen einzigen Algorithmus testen können, ist XGBoost genau das Richtige für Sie!

Tatsächlich scheinen viele baumbasierte Modelle, insbesondere baumbasierte Modelle mit Gradientenverstärkung, besonders intestine zu funktionieren. Obwohl die Leistung von XGBoost beeindruckend ist, verliert es in mehr als 80 % der Fälle gegenüber anderen Ansätzen.

Meine wichtigste Erkenntnis, nachdem ich dieses Diagramm gesehen hatte, battle, dass kein einzelnes Modell immer eine überdurchschnittliche Leistung zu erbringen scheint. Selbst wenn wir XGBoost-, Random Forest- und LightGBM-Modelle für jedes unserer Projekte testen würden, würden wir in zwei Dritteln der Fälle immer noch den besten Ansatz überspringen. Wenn wir jedes Mal die 15 leistungsstärksten Modelle testen würden, würden wir in einem Drittel der Fälle den besten Ansatz verpassen.

Wie garantieren wir additionally, dass wir die besten Ergebnisse erzielen? Testen Sie möglichst viele Modellierungsansätze. Wenn Ihnen das zu zeitaufwändig vorkommt, versuchen Sie es mit einer Automatisierung. Ich wette, es gibt einige gute Plattformen für maschinelles Lernen, die helfen könnten 😉

Damit ist dieser Beitrag abgeschlossen. Probieren Sie diese Technik aus und lassen Sie mich wissen, wie sie funktioniert. Folge mir auf Mittel Und LinkedIn Weitere hilfreiche Tipps und Tips zur Datenwissenschaft finden Sie hier. Danke fürs Lesen!



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here