Maschinelles Lernen: Methoden und Kriterien zur Modellbewertung | von Allen Yang | Juni 2023

0
24


In Der Bereich des maschinellen Lernens, das Messen und Bewerten von Modellen ist von entscheidender Bedeutung. Die Auswahl geeigneter Bewertungsmethoden, die auf das jeweilige Drawback abgestimmt sind, hilft uns, Probleme, die bei der Modellauswahl und -schulung auftreten können, schnell und genau zu identifizieren. Dies wiederum ermöglicht es uns, das Modell zu optimieren und zu iterieren. In diesem Artikel werde ich das Wissen im Zusammenhang mit der Modellbewertung für maschinelles Lernen erläutern.

Foto von Alex Knight An Unsplash

Das Ziel der Modellbewertung besteht darin, ein Modell mit starker Generalisierungsfähigkeit auszuwählen, um maschinelle Lernaufgaben abzuschließen. Bei praktischen maschinellen Lernaufgaben sind häufig umfangreiche Experimente erforderlich. Dazu gehört die iterative Parameteroptimierung, das Ausprobieren verschiedener Modellalgorithmen und die Beobachtung, welcher Modellalgorithmus unter welchen Parametereinstellungen am besten funktioniert, um das vorliegende maschinelle Lernproblem zu lösen.

Ein Modell mit starker Generalisierungsfähigkeit schneidet bei unbekannten Stichproben intestine ab und weist niedrige Fehlerraten und hohe Genauigkeit auf. Bei maschinellen Lernaufgaben zielen wir darauf ab, genaue Vorhersagen für unbekannte markierte Proben und Modelle mit starker Generalisierungsfähigkeit zu erhalten.

Da wir jedoch nicht vorab auf die „unbekannten Proben“ zugreifen können, teilen wir die verfügbaren Daten in Trainings- und Bewertungssätze auf, um das Modell zu trainieren und zu bewerten. Indem wir die Leistung des Modells anhand des Bewertungssatzes bewerten, können wir feststellen, ob das Modell über- oder unterpasst, und es iterieren, um seine Leistung zu verbessern.

Im Modellierungsprozess benötigen wir einen umfassenden Satz an Methoden und Bewertungsmetriken, um ein Modell mit starker Generalisierungsfähigkeit zu erhalten.

Die experimentellen Methoden zur Auswertung lassen sich in zwei Kategorien einteilen: „Offline“ und „On-line“.

Bei der Offline-Bewertung wird die Leistung von Modellen anhand vorab gesammelter Daten bewertet, ohne dass Echtzeitinteraktionen erforderlich sind. Zu den häufig verwendeten Offline-Bewertungsmethoden gehören:

Holdout-Bewertung: Diese Methode teilt die verfügbaren Daten zufällig in einen Trainingssatz und einen separaten Bewertungssatz auf. Das Modell wird auf dem Trainingssatz trainiert und seine Leistung wird auf dem Bewertungssatz bewertet.

Kreuzvalidierung: Bei der Kreuzvalidierung werden die Daten in mehrere Teilmengen oder „Falten“ unterteilt. Das Modell wird an einer Kombination von Falten trainiert und an der verbleibenden Falte ausgewertet, wobei der Vorgang für jede Kombination wiederholt wird. Es bietet eine robustere Bewertung, indem es die Ergebnisse über mehrere Iterationen hinweg mittelt.

Stratifizierte Stichprobenziehung: Diese Methode stellt sicher, dass die Verteilung der Zielvariablen sowohl im Trainings- als auch im Bewertungssatz erhalten bleibt, insbesondere beim Umgang mit unausgeglichenen Datensätzen.

Bei der On-line-Evaluierung wird das Modell in einer Dwell-Umgebung bereitgestellt und seine Leistung anhand von Echtzeitinteraktionen und Benutzerfeedback bewertet. Zu den gängigen On-line-Bewertungsmethoden gehören:

A/B-Assessments: Beim A/B-Testing wird die Leistung verschiedener Modelle oder Algorithmen verglichen, indem Benutzer nach dem Zufallsprinzip verschiedenen Versionen (A und B) zugeordnet werden und die gewünschten Kennzahlen wie Klickraten oder Konversionsraten gemessen werden.

Bandit-Algorithmen: Bandit-Algorithmen weisen basierend auf der beobachteten Leistung dynamisch Ressourcen oder Datenverkehr verschiedenen Modellen zu und optimieren die Modellauswahl kontinuierlich auf der Grundlage des erhaltenen Feedbacks.

Reinforcement Studying: Bei Reinforcement Studying-Methoden geht es darum, einen Agenten darin zu schulen, sequenzielle Entscheidungen in einer Umgebung zu treffen und die Leistung anhand der erzielten Belohnungen oder Ergebnisse zu bewerten.

Diese Bewertungsmethoden helfen dabei, die Leistung des Modells zu bewerten, Verbesserungsmöglichkeiten zu identifizieren und den iterativen Prozess der Verfeinerung des Modells für eine optimale Leistung zu leiten. Die Wahl der Bewertungsmethode hängt von den spezifischen Anforderungen und Einschränkungen der jeweiligen maschinellen Lernaufgabe ab.

Bewertungsmetriken werden verwendet, um die Leistung und Wirksamkeit von Modellen für maschinelles Lernen zu quantifizieren und zu messen. Die Auswahl geeigneter Bewertungsmetriken hängt von der spezifischen Aufgabe und den Zielen des maschinellen Lernens ab. Hier sind häufig verwendete Bewertungsmetriken:

  1. Klassifizierungsaufgaben:
  • Genauigkeit: Der Anteil korrekt vorhergesagter Stichproben an der Gesamtstichprobe.
  • Präzision: Der Anteil der wirklich positiven Vorhersagen unter den als positiv vorhergesagten Proben.
  • Zur Erinnerung: Der Anteil der wirklich positiven Vorhersagen an den tatsächlich positiven Proben.
  • F1-Rating: Das harmonische Mittel aus Präzision und Erinnerung, das ein ausgewogenes Maß für beide Metriken bietet.
  • ROC-Kurve und AUC: Die ROC-Kurve stellt die Beziehung zwischen der Richtig-Positiv-Charge und der Falsch-Positiv-Charge bei verschiedenen Schwellenwerten dar, während AUC die Fläche unter der ROC-Kurve darstellt und die Leistung des Klassifikators angibt.

2. Regressionsaufgaben:

  • Mittlerer quadratischer Fehler (MSE): Die durchschnittliche quadratische Differenz zwischen vorhergesagten Werten und wahren Werten.
  • Root Imply Squared Error (RMSE): Die Quadratwurzel des mittleren quadratischen Fehlers.
  • Mittlerer absoluter Fehler (MAE): Die durchschnittliche absolute Differenz zwischen vorhergesagten Werten und wahren Werten.
  • R-Quadrat-Rating: Stellt den Anteil der Varianz in der abhängigen Variablen dar, der aus den unabhängigen Variablen vorhersehbar ist.

3. Clustering-Aufgaben:

  • Silhouette-Koeffizient: Misst die Kompaktheit und Trennung von Clustering-Ergebnissen.
  • Homogenität: Misst, ob Proben derselben Kategorie demselben Cluster zugeordnet sind.
  • Vollständigkeit: Misst, ob Stichproben aus derselben Kategorie im selben Cluster sind.
  • Angepasster Rand-Index (ARI): Misst die Ähnlichkeit zwischen Clustering-Ergebnissen und echten Labels.

4. Empfehlungsaufgaben:

  • Präzision und Rückruf: Messen Sie die Genauigkeit und Abdeckung der Empfehlungsergebnisse.
  • Durchschnittliche Präzision (AP): Berechnet die durchschnittliche Präzision bei verschiedenen Erinnerungsstufen.
  • NDCG (Normalized Discounted Cumulative Acquire): Berücksichtigt sowohl die Rating- als auch die Bewertungsinformationen, um die Qualität von Empfehlungslisten zu bewerten.

Es stehen zahlreiche weitere Bewertungsmetriken zur Verfügung, und die Wahl der geeigneten Bewertungsmetriken hängt von der konkreten Aufgabenstellung und den Anforderungen ab. Diese Metriken helfen bei der Beurteilung der Leistung von Modellen und leiten den Modellauswahl- und Optimierungsprozess.

Abschließend möchte ich Ihnen einige Beispiele für Bewertungsmetriken nennen, die in der Praxis gewählt werden sollten.

  1. Lieber übersehen als falsch klassifizieren: Im Szenario der Identifizierung von Spam-E-Mails tendiert man möglicherweise zu dieser Denkweise, da die Fehlklassifizierung einer großen Anzahl legitimer E-Mails erhebliche Unannehmlichkeiten verursachen kann. Daher wäre Präzision eine wichtige Kennzahl, auf die man sich konzentrieren sollte.
  2. Lieber falsch klassifizieren als falsch klassifizieren: Im Bereich der finanziellen Risikokontrolle tendiert man meist zu dieser Denkweise und zielt darauf ab, dass das System alle riskanten Verhaltensweisen oder Benutzer identifiziert, die dann von Menschen weiter untersucht werden können. Es ist unerwünscht, auch nur einen Fall zu übersehen, der katastrophale Folgen haben könnte. Daher wäre Recall eine wichtige Kennzahl, auf die man sich konzentrieren sollte.

Ich hoffe, dass Sie nach der Lektüre dieses Artikels ein klares Verständnis der Modellbewertungsmethoden und -kriterien gewonnen haben. Wenn Sie es hilfreich fanden, vergessen Sie nicht, mir zu folgen.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here