Entschlüsselung des Machine Learning Development Lifecycle (MLDLC) | von Paresh Patil | Juni 2023

0
25


Inhaltsverzeichnis:-

· Was ist MLDLC?
· 1. Das Problem formulieren
· 2. Daten sammeln
· 3. Datenvorverarbeitung
· 4. Explorative Datenanalyse
· 5. Feature-Engineering und -Auswahl
· 6. Modelltraining, Bewertung und Auswahl
· 7. Modelltests
· 8. Modellbereitstellung

Es handelt sich um eine Reihe von Richtlinien, die Sie befolgen müssen, während Sie ein auf maschinellem Lernen basierendes Softwareprodukt erstellen. Dabei kann es sich um ein Empfehlungssystem oder ein Kreditprognosemodell für eine Financial institution handeln

Wenn Sie etwas machen wollen, müssen Sie einige Dinge entscheiden und dann weitermachen.

Sie machen kein Schul- oder Hochschulprojekt. Sie arbeiten für ein Unternehmen, und dieses Unternehmen bedient seinen Kunden

Sie können das nicht tun, als ob Sie angefangen hätten und auf halbem Weg feststellen würden, dass Sie etwas Falsches gedacht haben. Fangen wir noch einmal an. Sie können das nicht tun, weil es für das Unternehmen kostspielig ist. Es liegt in Ihrer Verantwortung, das Drawback richtig zu formulieren

In dieser Part entscheiden Sie, was das Drawback ist und wie Sie es lösen können. Wer ist Ihr Kunde? Wie viel wird es kosten? Wie viele Leute werden im Group sein? Wie wird das Endprodukt aussehen? Welches maschinelle Lernmodell werden Sie verwenden? Wo soll es bereitgestellt werden? Welcher Rahmen wird verwendet? Woher kommt das Datum? Was wird die Datenquelle sein?

Nachdem alle Dinge richtig geklärt sind, können nur wir mit dem weiteren Schritt fortfahren

Daten sind wichtig. Während Sie an einem maschinellen Lernprojekt arbeiten, benötigen Sie die Daten, um das Modell zu erstellen. Ohne Daten geht es nicht

Für Hochschulprojekte sind die Daten leicht von verschiedenen Web sites verfügbar, am wahrscheinlichsten von Kaggle, aber im Fall von Unternehmen sieht das anders aus. Es gibt verschiedene Möglichkeiten für Unternehmen, Daten zu sammeln.

ich. APIs-Rufen Sie die API mit Python-Code auf und rufen Sie Daten im JSON-Format ab.

ii.Internet-Scraping: Manchmal sind Daten nicht öffentlich verfügbar, z. B. auf einer Web site, sodass wir sie von dort extrahieren müssen. Beispielsweise verwendet Trivago diese Methode, um Hotelpreisdaten von jeder Web site zu sammeln

iii.Information Warehouse-Daten werden auch in Datenbanken gespeichert. Diese Daten können jedoch nicht direkt verwendet werden, da es sich um laufende Daten handelt. Daher werden Daten aus einer Datenbank in einem Information Warehouse gespeichert und dann verwendet.

iv.Cluster: Außerdem Daten werden manchmal in Instruments wie Spark in Type von Clustern gespeichert, bei denen es sich im Grunde um Large Information handelt, sodass Daten über diese Cluster abgerufen werden.

wenn Sie Daten aus externen Quellen beziehen, die zwangsläufig unsauber oder schmutzig sind. Sie können diese Daten nicht direkt verwenden.

Sie können diese Daten nicht direkt an ein Machine-Studying-Modell weitergeben, da das Ergebnis nicht intestine ist. Daten können strukturelle Probleme haben. Es können fehlende Daten vorhanden sein, es können Ausreißer und Störungen enthalten sein

Hier ist additionally eine Datenvorverarbeitung erforderlich. Dazu gehört das Entfernen von Duplikaten, das Entfernen fehlender Werte, das Entfernen von Ausreißern und das Skalieren der Werte (Standardisierung).

Die Kernidee der Datenvorverarbeitung besteht darin, Daten in ein solches Format zu bringen, dass sie von Ihrem maschinellen Lernmodell problemlos verarbeitet werden können.

In dieser Part analysieren Sie Daten, das heißt, Sie versuchen, die Beziehung zwischen Eingabe- und Ausgabevariablen zu untersuchen.

Die ganze Idee ist, dass man ML-basierte Software program erstellen muss. Bevor Sie es erstellen, müssen Sie wissen, „was in Ihren Daten enthalten ist“. Wenn Sie dies nicht wissen, können Sie das Modell nicht richtig erstellen

In dieser Part müssen Sie Leistung erbringen. Bei vielen Experimenten mit Daten müssen Sie verborgene Zusammenhänge aus den Daten extrahieren. Diese Part liefert Dateneinblicke durch Visualisierung von Daten, univariate Analyse, bivariate Analyse, multivariate Analyse, Ausreißererkennung und Umgang mit unausgeglichenen Datensätzen

Der Grundgedanke dieser Part besteht darin, eine konkrete Vorstellung von der Pflicht zu bekommen. Je mehr Zeit wir mit EDA verbringen, desto mehr erfahren wir über Daten, was uns bei der Entscheidungsfindung bei der Implementierung von Modellen hilft.

Options sind die Eingabespalten. Funktionen sind wichtig, da die Ausgabe von der Eingabe (Funktionen) abhängt.

Die Idee hinter dem Characteristic-Engineering besteht darin, dass Sie manchmal neue Spalten in Daten erstellen, indem Sie vorhandene Spalten verwenden, um intelligente Änderungen an vorhandenen Spalten vorzunehmen und so die Analyse zu vereinfachen.

Angenommen, Sie möchten Immobilienpreise vorhersagen und verfügen über Eingabespalten wie die Anzahl der Zimmer, die Anzahl der Badezimmer, den Ort usw.

In diesem Szenario entfernen Sie die Anzahl der Zimmer und Badezimmer und ersetzen sie durch eine einzelne Spalte namens „Quadratmeter“, die die Anzahl der Zimmer und Badezimmer darstellt.

Was ist additionally der Vorteil? Sie haben nur eine statt zwei Spalten. Dies wird als Characteristic-Engineering bezeichnet

Merkmalsauswahl-

Manchmal verfügen Sie über mehr Funktionen, beispielsweise 100 oder 200, können aber aus zwei Gründen nicht mit allen Funktionen fortfahren.

  1. Diese Funktionen sind nicht hilfreich. Zum Erstellen eines Modells ist es nicht erforderlich, dass sich jede Eingabe auf die Ausgabe auswirkt. Sie müssen die Options entfernen, die sich nicht auf Ihre Auswahl auswirken
  2. Bei mehr Spalten nimmt das Trainieren des Modells mehr Zeit in Anspruch. Durch das Entfernen irrelevanter Spalten können Sie additionally Zeit sparen.

Sowohl das Characteristic-Engineering als auch die Auswahl sind entscheidend

Sobald Sie sich über Ihre Daten sicher sind, können Sie das Modell trainieren. Du versuchst es mit einem anderen Diff. Algorithmus für maschinelles Lernen: Sie trainieren diesen Algorithmus anhand Ihrer Daten für jeden Algorithmus

Im Allgemeinen macht so etwas niemand. dass jemand nur einen trainiert. Um ehrlich zu sein, weiß das jeder. Jeder Algorithmus ist für jeden Datentyp intestine. Aber man weiß nie, welcher Algorithmus sich für bestimmte Daten als intestine erweist

Zum Beispiel

Der Algorithmus von Naive Baye schneidet am besten bei Textdaten ab, aber vielleicht kann ein anderer Algorithmus eine bessere Leistung erbringen. Wir trainieren die verschiedenen Modelle mit verschiedenen Do-Algorithmen und bewerten sie dann anhand von Differenzmetriken wie Genauigkeit, quadratischem Fehler usw.

Das beste Modell wird ausgewählt und die Parameter werden so abgestimmt, dass die Leistung des Modells verbessert wird.

Sobald unser maschinelles Lernmodell anhand eines bestimmten Datensatzes trainiert wurde, testen wir das Modell. In diesem Schritt überprüfen wir die Genauigkeit unseres Modells, indem wir einen Testdatensatz bereitstellen.

Durch das Testen des Modells wird die prozentuale Genauigkeit des Modells gemäß den Anforderungen des Projekts oder Issues ermittelt.

In diesem Schritt stellen wir das Modell in einem realen System bereit. Wenn das oben vorbereitete Modell mit akzeptabler Geschwindigkeit ein genaues Ergebnis gemäß unseren Anforderungen liefert, stellen wir das Modell im realen System bereit. Aber bevor wir das Projekt einsetzen, prüfen wir anhand der verfügbaren Daten, ob es seine Leistung verbessert oder nicht.

Für die Bereitstellung können wir Heroku, Amazon Internet Companies, Google Cloud Platform usw. verwenden. Nun ist unser Modell on-line und bedient Nutzerwünsche.

Für eine Individual, die an einem persönlichen Projekt oder Hochschulprojekt arbeitet, sind dies die vollständigen Schritte.

Die nächsten beiden Schritte werden von Unternehmen genutzt.

A. Testen von Apps oder Software program: In diesem Schritt führt das Unternehmen Alpha-/Betaversionen des bereitgestellten Modells für eine bestimmte Gruppe von Benutzern oder Kunden ein, um zu überprüfen, ob das Modell den Anforderungen entspricht. Das Suggestions dieser Benutzer wird gesammelt und dann bearbeitet. Wenn das Modell ordnungsgemäß funktioniert, wird es für alle ausgerollt.

B. Optimieren: In In dieser Part verwenden Unternehmen Server, um Backups von Modellen und Daten zu erstellen, den Lastausgleich durchzuführen (die Anforderung zu bedienen, wenn viele Benutzer sie anfordern) und zu verrotten (häufig Modelle neu zu trainieren, wenn sich die Daten mit der Zeit weiterentwickeln). Dieser Schritt ist im Allgemeinen automatisiert .



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here