Das maschinelle Lernen 101 – Tag 2. Maschinelles Lernprojekt | von ZIRU | Juni 2023

0
29


Projekt für maschinelles Lernen

Foto von Hitesh Choudhary An Unsplash

Wenn Sie maschinelles Lernen studieren, empfiehlt es sich, die Verwendung realer Daten statt künstlicher Datensätze zu üben. Die gute Nachricht ist, dass Ihnen zahlreiche offene Datensätze zur Auswahl stehen, die verschiedene Bereiche abdecken. Nachfolgend finden Sie einige Orte, an denen Sie diese Datensätze finden können:

Bekannte Open-Information-Repositories:

  • OpenML.org
  • Kaggle.com
  • PapersWithCode.com
  • UC Irvine Machine Studying Repository
  • Die AWS-Datensätze von Amazon
  • TensorFlow-Datensätze

Metaportale (die offene Datenrepositorys auflisten):

  • DataPortals.org
  • OpenDataMonitor.eu

Andere Web sites, die viele beliebte Open-Information-Repositories auflisten:

  • Wikipedia-Liste der Datensätze für maschinelles Lernen
  • Quora.com
  • Der Datensatz-Subreddit

Mittlerer quadratischer Fehler (RMSE)

RMSE ist eine Möglichkeit zu messen, wie nahe die Schätzungen eines Vorhersagemodells an den tatsächlichen Werten in einem Datensatz liegen. Nehmen wir zum Beispiel an, wir versuchen anhand ihres Alters vorherzusagen, wie groß eine Particular person sein wird. Mit RMSE können wir sehen, wie intestine unser Vorhersagemodell funktioniert. Wenn der RMSE niedrig ist, bedeutet das, dass unsere vorhergesagten Höhen sehr nahe an den tatsächlichen Höhen liegen, was intestine ist. Wenn der RMSE jedoch hoch ist, bedeutet das, dass unsere vorhergesagten Höhen weit von den tatsächlichen Höhen entfernt sind, was nicht intestine ist.

Mittlerer quadratischer Fehler (RMSE)

  • M ist die Anzahl der Instanzen im Datensatz, an denen Sie den RMSE messen.
  • X(ich) ist ein Vektor aller Merkmalswerte (mit Ausnahme der Beschriftung) der ichInstanz im Datensatz und j(ich) ist seine Bezeichnung (der gewünschte Ausgabewert für diese Instanz).
  • X ist eine Matrix, die alle Merkmalswerte (ohne Beschriftungen) aller Instanzen im Datensatz enthält. Es gibt eine Zeile professional Instanz und die ichDie Zeile entspricht der Transponierten von X(ich), notiert (X(ich))⊺
  • H ist die Vorhersagefunktion Ihres Programs, auch a genannt Hypothese. Wenn Ihr System den Merkmalsvektor einer Instanz erhält X(ich), gibt es einen vorhergesagten Wert aus ŷ(ich) = H(X(ich)) für diesen Fall (ŷ wird „y-hat“ ausgesprochen).
  • RMSE(X,H) ist die Kostenfunktion, die anhand Ihrer Hypothese anhand der Beispiele gemessen wird H.
  • Wir verwenden kursive Kleinbuchstaben für Skalarwerte (z. B M oder j(ich)) und Funktionsnamen (z. B H), Kleinbuchstaben-Fettschrift für Vektoren (z. B. x(ich)) und fette Großbuchstaben für Matrizen (z. B. X).
  • Obwohl der RMSE im Allgemeinen das bevorzugte Leistungsmaß für Regressionsaufgaben istIn manchen Kontexten bevorzugen Sie möglicherweise die Verwendung einer anderen Funktion.

Wenn es zahlreiche Ausreißerbezirke gibt, sollten Sie sich für den mittleren absoluten Fehler (MAE) entscheiden, der auch als durchschnittliche absolute Abweichung bezeichnet wird.

Mittlerer absoluter Fehler (MAE)

RMSE und MAE sind zwei Methoden zur Bestimmung des Abstands zwischen zwei Vektoren – den vorhergesagten Werten und den Zielwerten. Es stehen unterschiedliche Normen bzw. Abstandsmaße zur Verfügung.

RMSE reagiert empfindlicher auf Ausreißer als MAE, da es sich stärker auf große Werte konzentriert, während MAE die Summe der absoluten Differenzen zwischen den Ziel- und den vorhergesagten Werten misst. Wenn jedoch Ausreißer selten sind, beispielsweise bei einer glockenförmigen Kurve, ist der RMSE besser geeignet und wird im Allgemeinen bevorzugt.

Da der Datensatz nicht umfangreich ist, können Sie mit der corr()-Methode problemlos den Standardkorrelationskoeffizienten (auch als Pearson’s r bekannt) zwischen allen Attributpaaren berechnen.

Zum Beispiel.

Der Korrelationskoeffizient variiert zwischen -1 und 1. Wenn er nahe bei 1 liegt, besteht eine robuste constructive Korrelation zwischen den Variablen. Wenn beispielsweise das mittlere Einkommen steigt, steigt tendenziell auch der mittlere Hauswert. Wenn der Koeffizient nahe -1 liegt, deutet dies auf eine starke destructive Korrelation hin. Beispielsweise besteht eine leicht destructive Korrelation zwischen dem Breitengrad und dem mittleren Hauswert, was bedeutet, dass die Preise leicht sinken, je weiter man nach Norden reist. Schließlich weisen Koeffizienten nahe 0 darauf hin, dass keine lineare Korrelation vorliegt.

Ein weiterer Ansatz zur Verbesserung Ihres Programs ist die Verwendung von Ensemble-Methoden, bei denen die Modelle mit der besten Leistung kombiniert werden. Ein Ensemble von Modellen schneidet in der Regel besser ab als das beste Einzelmodell, genau wie Random Forests die Entscheidungsbäume, auf denen sie basieren, übertreffen. Dies gilt insbesondere dann, wenn einzelne Modelle unterschiedliche Arten von Fehlern machen. Sie können beispielsweise ein k-nächste-Nachbarn-Modell trainieren und verfeinern und dann ein Ensemble-Modell erstellen, das den Mittelwert sowohl der Random Forest- als auch der k-nächsten-Nachbarn-Vorhersagen vorhersagt.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here