Die Grundlagen für alle ML- oder DL-Aufgaben | von Vijay Challa | Juni 2023

0
25


Für jeden, der seine Reise in Konzepte der künstlichen Intelligenz beginnen möchte, ist es wichtig zu verstehen, dass ML- oder DL-Implementierungen ohne mathematisches Verständnis unbegründet sind. Anfangs benötigen wir dieses mathematische Verständnis möglicherweise nicht, um zu wissen, wie Stichprobenklassifizierungs- oder Regressionsaufgaben implementiert werden. Wenn Sie jedoch das Ziel Ihrer Arbeit wirklich verstehen möchten, werfen Sie bitte einen Blick auf das Folgende und verschwenden Sie keine Zeit wie ich .

Erstens: Warum verwenden wir überwachte Lernalgorithmen wie die Klassifizierung zur Vorhersage von Klassenbezeichnungen, anstatt nur Bezeichnungen mithilfe von bedingten Anweisungen zu generieren? Der Grund dafür ist, dass ML in der Lage ist, mehrere Muster und Beziehungen in den Daten zu erkennen, was mehr Flexibilität und Skalierbarkeit beim Umgang mit großen oder komplexen Datensätzen bietet. Daher verwenden wir die ML-Klassifizierung gegenüber manuellen Kennzeichnungsprozessen.

LASS UNS ANFANGEN:

Ich arbeite seit quick zwei Jahren mit ML-Konzepten. Ich habe beobachtet, dass weder die Auswahl des richtigen Mechanismus für Ihr Modell noch die Auswahl der wichtigsten Validierungsmetriken die Schlüsselaspekte von Projekten sind. Diese Dinge werden nur klar, wenn Sie die Problemstellung genau verstehen. Ich sage Ihnen, warum: Jeder weiß, dass überwachtes Lernen, wie Klassifizierung oder Regression, mit gekennzeichneten Daten durchgeführt werden sollte, aber niemand erklärt zunächst, warum. Es ist ganz einfach; Es ist, als würde man Kindern beibringen, zu verstehen, was richtig und was falsch ist. Ebenso sind Beschriftungen in den Daten enthalten, um dem Modell zu helfen, zu verstehen, was passiert. Wenn Sie beispielsweise einen Datensatz besprechen, der die Weinqualität beschreibt (https://www.kaggle.com/datasets/fedesoriano/air-quality-data-set) können wir drei Etiketten erstellen, z. B. „guter Wein“, „schlechter Wein“ und „zufriedenstellender Wein“, basierend auf bedingten Parametern für mehrere Merkmale.

Beginnen Sie die Reise mit der WARUM-Komponente?

Ich selbst habe viele schwerwiegende Fehler gemacht, indem ich direkt in die Modellauswahl gegangen bin und dann nach Domains gesucht habe. Dadurch wurde mir jedoch klar, dass die tatsächliche Implementierung ML-zentrierter Modelle auf den von uns definierten Problemstellungen basieren sollte. Bevor mit der Umsetzung begonnen wird, ist ein klares Verständnis unserer Domäne von entscheidender Bedeutung. Warum entscheiden Sie sich für diese bestimmte Area und welches Drawback möchten Sie lösen?

Wie kommt man zu einer Problemstellung?

Ich habe auf die harte Tour gelernt, dass eine Problemstellung nur durch die Analyse der Daten Ihrer speziellen Domäne definiert werden kann. Was können wir analysieren? Wir brauchen einen Vorsprung, indem wir das Verhalten und die Artwork der Verteilungen verstehen, denen unsere Daten folgen. Hier können Ihre mathematischen Fähigkeiten Ihnen dabei helfen, die Artwork der Daten abzuleiten, beispielsweise bei der Identifizierung langfristiger Abhängigkeiten wie Zyklen oder Developments oder bei der Identifizierung linearer Beziehungen. Für diesen Teil benötigen wir möglicherweise auch unsere Visualisierungsfähigkeiten. Darüber hinaus müssen wir möglicherweise Skalierungsverfahren basierend auf den Analyseergebnissen durchführen. Alle diese Analysen können uns bei der Entscheidung über zwei wichtige Aspekte helfen: die Problemstellung und die Artwork des ML-Modells, das zur Lösung dieses Issues erforderlich ist. Nehmen wir an, die ausgewählten Daten weisen Anomalien auf, beispielsweise eine adverse Korrelation in einem Fall. In diesem Fall müssen wir entscheiden, ob es Auswirkungen auf die Artwork der Daten hat oder ob es ein entscheidender Faktor in unserer Problemstellung sein kann. Man kann mit Sicherheit sagen, dass die Generierung von Klassenbezeichnungen, die die Grundlage für jedes überwachte Lernen bilden, ausschließlich von den Datenfunktionen abhängt. Daher kann die vorherige Analyse der Daten beim ML hilfreich sein. Darüber hinaus gibt es in den meisten Szenarien keine spezifizierten Klassenbezeichnungen für Daten, sodass wir Klassenbezeichnungen basierend auf der definierten Problemstellung generieren müssen. Um Klassenbezeichnungen zu generieren, müssen wir Faktoren wie die Verteilung der Daten und die Artwork der Beziehungen zwischen den Options verstehen.

Das klare Workflow-Diagramm für detailliertes Verständnis aller ML-Modelle

Vollständiger ML-Workflow

Datenerfassung und Datenanalyse: Nachdem wir eine bestimmte Domäne für Projekt- oder ML-Aufgaben ausgewählt haben, müssen wir den Datensatz aus der Quelle im CSV- oder Excel-Format (meistens) importieren, entweder über APIs oder Webquellen oder über Datenbankverbindungen. Sobald wir die Datenprobe gesammelt haben, müssen wir mit der Analyse der Daten auf verschiedene Implikationen wie Pattern, Saisonalität und Zyklen für zeitreihenbezogene Daten beginnen. Bei regulären Daten können wir mit der Analyse beginnen, indem wir die Verteilung gefolgt von den Daten mithilfe eines Histogramms beobachten. Zunächst können uns Histogramme dabei helfen, eine grobe Schätzung darüber zu erhalten, ob unsere Daten auf verschiedene Arten verteilt sind, z. B. schiefe Verteilung, Normalverteilung, Exponentialverteilung usw. Visuelle Darstellung und Analyse können uns auch dabei helfen, die Umrisse oder Anomalien und Beziehungen zwischen Datenattributen wie Korrelationen zu identifizieren .

Problemstellung und Funktionsauswahl definieren: Die Definition einer Problemstellung erfordert ein klares Verständnis der Analyseergebnisse und auch Domänenkenntnisse, die uns bei der Entscheidung helfen können, welches bestimmte Drawback gelöst werden soll, oder ein bestimmtes Analyseergebnis unterstützen. Bei der Merkmalsauswahl handelt es sich um den Prozess der Auswahl oder Einbeziehung bestimmter Attribute der Daten als Merkmale und der Bestimmung der Klassenbezeichnung (für halb- oder unbeschriftete Daten) auf der Grundlage des verhaltensbezogenen Verständnisses von Daten durch Analyse.

Function-Engineering: Es ist einer der am häufigsten wiederholten Aspekte jeder ML-Modellvorbereitung und kann als integraler Bestandteil von Datenvorverarbeitungstechniken betrachtet werden. In diesem Szenario habe ich es jedoch als einen weiteren Schritt des Arbeitsablaufs geändert, um seine Bedeutung zu spezifizieren. Function Engineering hilft uns, die Erkenntnisse in den Datenbeispielen zu verstehen, indem es ein neues Function aus dem vorhandenen Beispiel erstellt oder die vorhandenen Options umwandelt, z. B. kategoriale Merkmale der Daten in numerische Merkmale umwandelt, sodass sie leicht durch ein ML-Modell trainiert werden können.

Datenvorverarbeitung: Es handelt sich um einen Schritt im ML-Workflow, bei dem wir die fehlenden Werte der Daten behandeln, die sich auf die Leistung des Modells auswirken können, indem wir sie mithilfe der Syntax entweder vollständig löschen dropna() oder indem man diese fehlenden Werte entweder durch den 0-Wert oder durch zentrale Tendenzmaße wie den Mittelwert mit Hilfe von füllt fillna(), oder wir können sogar Methoden wie ffill oder Interpolationsmechanismen verwenden. Die Skalierungsverfahren wie z Min-Max-Skalierung oder Normal-Skalierung gelten ebenfalls als Teil der Datenvorverarbeitung. Obwohl sie dazu verwendet werden, Rohdaten in ein für die Modellierung geeignetes Format umzuwandeln, zielen sie darauf ab, sicherzustellen, dass die Merkmale vergleichbar sind und ähnliche Bereiche haben, weshalb sie als Teil der Daten betrachtet werden Vorverarbeitung.

Welche Skalierungsmethode soll verwendet werden?

Skalierungsverfahren wie die logarithmische Skalierung, die Min-Max-Skalierung und die Standardskalierung weisen unterschiedliche Mechanismen und Ziele der Skalierung der Werte auf, um zu entscheiden, welches Verfahren für Daten am besten geeignet ist. Wir benötigen ein klares Verständnis der Zielmerkmalsbereiche, der Datenverteilungen und auch von Faktoren wie dem Vorhandensein von Outlinern, Domänenkenntnissen und ML-Modellanforderungen.

Aufteilen der Daten: Es ist auch ein integraler Bestandteil der Datenvorverarbeitung, bei der Daten im Verhältnis 70:30 oder 80:20 in Zug- und Testsätze aufgeteilt werden. In einigen Fällen teilen wir die Daten auch in Zug-, Take a look at- und Validierungssätze auf, in solchen Fällen die Verhältnisse kann 70:15:15 oder 60:20:20 usw. sein.

Modellauswahl und Schulung: Dieser Teil der Aufgabe basiert vollständig auf der Zielaussage und die Trainingsbeispiele werden dem ML-Modell zugeführt, um die erwarteten Aufgaben auszuführen. ML-Modellen liegen mathematischen Berechnungen zugrunde, daher kann eine Individual mit mathematischem Verständnis mathematischer Techniken Modelle leicht implementieren und eine bessere Leistung erzielen. Beispielsweise hilft uns ein einfaches lineares Regressionsmodell, die Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen mithilfe der folgenden Zielfunktion zu verstehen:

y = β₀ + β₁x + ε wobei y die abhängige Variable ist (auch Antwortvariable oder Zielvariable genannt),

  • x ist die unabhängige Variable (auch Prädiktorvariable oder Merkmal genannt),
  • β₀ ist der y-Achsenabschnitt (der Wert von y, wenn x Null ist),
  • β₁ ist die Steigung (die Änderung von y, die einer Änderung von x um eine Einheit entspricht),
  • ε ist der Fehlerterm (Residuen), der die Abweichung der tatsächlichen Werte von den vorhergesagten Werten darstellt.

Daher kann uns ein einfaches Verständnis mathematischer Verfahren helfen zu verstehen, warum ein Modell eine bessere Leistung erbringt, während andere Modelle möglicherweise versagen.

Vorhersage und inverse Transformation von Etiketten: Die meisten ML-Modelle, die zur Klassifizierung oder Regression verwendet werden, erzeugen numerische Ergebnisse, die nicht beschreibender Natur sind. Für Klassifizierungsaufgaben machen wir sie beschreibend, indem wir das numerische Ergebnis der Vorhersage invers transformieren, wodurch sie in kategoriale Bezeichnungen umgewandelt werden.

Validierungsmetriken: Dabei handelt es sich um einfache Metriken, die in ML verwendet werden, um zu bestimmen, wie intestine das Modell im Vergleich zu Testetiketten Vorhersagen treffen kann. Genauigkeit ist eine häufig verwendete Metrik zur Bewertung der Leistung von Klassifizierungsmodellen. Es misst den Anteil korrekt klassifizierter Instanzen an der Gesamtzahl der Instanzen im Datensatz. Die Genauigkeit wird in Prozent ausgedrückt.

Die Formel zur Berechnung der Genauigkeit lautet:

Genauigkeit = (Anzahl der korrekt klassifizierten Instanzen / Gesamtzahl der Instanzen) * 100

Die am häufigsten verwendete Validierungsmetrik für die Regression ist der mittlere quadratische Fehler (MSE). MSE wird häufig verwendet, da es ein umfassendes Maß für die durchschnittliche quadratische Differenz zwischen den vorhergesagten und den tatsächlichen Werten liefert. Aufgrund der Quadrierungsoperation werden größere Fehler stärker bestraft, was in bestimmten Anwendungen wünschenswert sein kann. Niedrigere MSE-Werte weisen auf eine bessere Modellleistung hin.

Vielen Dank fürs Lesen! Für weitere Diskussionen, Fragen oder Anregungen können Sie sich jederzeit an uns wenden Linkedin.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here