KLASSIFIZIERUNGSMODELLE. Die durchgeführten Untersuchungen haben gezeigt, dass über 300… | von Abubakar_Aliyu | Juni 2023

0
26


Die durchgeführten Untersuchungen haben gezeigt, dass täglich über 300 Millionen Daten erstellt werden. Diese Daten werden nicht einheitlich aus derselben Quelle generiert, die…

Die Klassifizierung ist eine überwachte Lernmethode, die verwendet wird, um Ähnlichkeiten innerhalb eines Datensatzes zu entdecken und Datenpunkte in ihre jeweilige Gruppe zu klassifizieren.

In dieser Lektion haben Sie etwas über die verschiedenen Löser gelernt, die Algorithmen mit einem maschinellen Lernprozess kombinieren, um ein genaues Modell zu erstellen. Gehen Sie die in der Lektion aufgeführten Löser durch und wählen Sie zwei aus. Vergleichen und stellen Sie diese beiden Löser in Ihren eigenen Worten gegenüber. Welche Artwork von Downside befassen sie sich? Wie arbeiten sie mit verschiedenen Datenstrukturen? Warum sollten Sie das eine dem anderen vorziehen?

In diesen vier Lektionen erkunden Sie einen grundlegenden Schwerpunkt des klassischen maschinellen Lernens – die Klassifizierung. Wir werden verschiedene Klassifizierungsalgorithmen mit einem Datensatz über alle brillanten Küchen Asiens und Indiens verwenden. Ich hoffe, du hast Starvation!

Klassifizierung ist eine Type von überwachtes Lernen Das hat viel mit Regressionstechniken gemeinsam. Wenn es beim maschinellen Lernen ausschließlich um die Vorhersage von Werten oder Namen von Dingen mithilfe von Datensätzen geht, lässt sich die Klassifizierung im Allgemeinen in zwei Gruppen einteilen: binäre Klassifizierung und Multiklassenklassifizierung.

Die Klassifizierung sagt einen diskreten Wert (Label) voraus, der einem Merkmalsvektor zugeordnet ist. B. vorhersagen, ob eine Particular person eine unerwünschte Reaktion auf ein Medikament hat, Be aware in einem Kurs usw

Die Klassifizierung hat viel gemeinsam mit

Punkt: VERWENDUNG DER DISTANZMATRIX ZUR KLASSIFIZIERUNG

Der einfachste Ansatz zur Klassifizierung ist der nächste Nachbar

bei der Vorhersage der Bezeichnung eines neuen Beispiels:

  • Finden Sie das nächstgelegene Beispiel in den Trainingsdaten
  • Sagen Sie die Bezeichnung voraus, die diesem Beispiel zugeordnet ist

Wenn Daten verrauscht sind, können Sie eine falsche Antwort erhalten. Um dies zu vermeiden, können Sie jedoch k-nächste Nachbarn verwenden. Okay-nächster Nachbar nimmt nicht nur die nächsten Nachbarn, sondern auch eine bestimmte Anzahl nächster Nachbarn (normalerweise ungerade Zahlen) und lässt sie abstimmen (diese Mehrheit trägt die Vorhersage). Aus diesem Grund wird k-Nearest Neighbor und nicht nur „Nearest Neighbors“ verwendet, da dies zuverlässiger ist.

Bei der Auswahl von okay muss man sehr vorsichtig sein. Experimentieren Sie mit den Trainingsdaten mit verschiedenen Ks und finden Sie heraus, welches Okay das beste Ergebnis liefert und welches unser Okay wird. Diese Methode wird Kreuzvalidierung genannt.

VORTEILE UND NACHTEILE VON KNN

  • Das Lernen geht sehr schnell
  • Es ist einfach, jemandem die Methode und das Ergebnis zu erklären

NACHTEIL

  • Es ist speicherintensiv
  • Die Vorhersage kann lange dauern

Wenn es ein Klassenungleichgewicht gibt, ist die Genauigkeit kein besonders aussagekräftiges Maß.

WIE TESTEN WIR UNSERE KLASSIFIKATOREN?

Lassen Sie einen Take a look at weg:

Wird verwendet, wenn Sie nur wenige Beispiele haben. Sie benötigen additionally so viele Trainingsdaten wie möglich, während Sie Ihr Modell erstellen. Sie nehmen additionally alle Ihre n Beispiele, entfernen eines davon, trainieren auf n-1 und testen auf der 1. Dann setzen Sie diese 1 zurück und entfernen ein weiteres, trainieren auf n-1 und testen auf 1. Sie tun dies für jedes Ingredient der Daten und dann mitteln Sie Ihr Ergebnis.

Wiederholte zufällige Unterabtastung:

Wird verwendet, wenn Sie über einen größeren Datensatz verfügen. Man könnte sagen, teilen Sie Ihre Daten im Verhältnis 80/20 auf. Nehmen Sie sich 80 % zum Trainieren und testen Sie es an 20 %.

Punkt: LOGISTISCHE REGRESSION

  • Die am häufigsten beim maschinellen Lernen verwendete Methode
  • Analog zur linearen Regression: Die lineare Regression soll eine reelle Zahl erzeugen. Die logistische Regression sagt die Wahrscheinlichkeit voraus.
  • Explizit für die Vorhersage der Wahrscheinlichkeit eines Ereignisses konzipiert:

Abhängige Variable kann nur eine endliche Menge von Werten annehmen

normalerweise 0 oder 1.

  • Ermittelt die Gewichtung für jedes Characteristic:

Ein positives Gewicht impliziert, dass die Variable positiv mit dem Ergebnis korreliert.

Ein negatives Gewicht bedeutet, dass die Variable negativ mit dem Ergebnis korreliert.

Absolute Größe bezogen auf die Stärke der Korrelation. Wenn es ein großer positiver Wert ist, bedeutet das, dass es sich um einen sehr starken positiven Indikator handelt. Wenn es ein großes Negativ ist, ist es wirklich ein starker negativer Indikator.

Die Leute bevorzugen die logistische Regression, weil sie Einblicke in die Variablen bietet.

Linearer SVC

der Einfluss von Parametern

Sup- und Unup-Learnings

SUPPORT VECTOR CLASSIFIER KANN SOWOHL FÜR DIE KLASSIFIZIERUNG ALS AUCH FÜR DIE REGRESSION VERWENDET WERDEN

ZUFÄLLIGER WALD IN EINEM EMSEBLE-KLASSIFIKATOR

Konzentration auf das Gewicht falsch klassifizierter Artikel

Worum es bei Klassifikatoren geht

ARTEN VON KLASSIFIKATOREN (auch Schätzer genannt), die bei KLASSIFIZIERUNGSPROBLEMEN VERWENDET WERDEN: z. B. Binär- und Multiklassen-Klassifikatoren

Löser: Ein Algorithmus, der im Optimierungsproblem verwendet wird

Help-Vector-Clustering (SVC) ist ein Form der Help-Vector-Maschinen-Familie von ML-Techniken (weitere Informationen hierzu finden Sie weiter unten). Bei dieser Methode können Sie einen „Kernel“ auswählen, um zu entscheiden, wie die Beschriftungen geclustert werden. Der Parameter „C“ bezieht sich auf „Regularisierung“, die den Einfluss von Parametern reguliert. Der Kernel kann einer davon sein mehrere; Hier setzen wir es auf „linear“, um sicherzustellen, dass wir lineares SVC nutzen. Die Wahrscheinlichkeit ist standardmäßig „falsch“; Hier setzen wir es auf „true“, um Wahrscheinlichkeitsschätzungen zu sammeln. Wir setzen den Zufallsstatus auf „0“, um die Daten zu mischen und Wahrscheinlichkeiten zu erhalten.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here