„Feature Engineering: Der Schlüssel zur Erschließung des wahren Potenzials des maschinellen Lernens“… | von Vishal Shelar | Juni 2023

0
23


Unter Characteristic Engineering versteht man den Prozess, bei dem Domänenwissen genutzt wird, um Options aus Rohdaten zu extrahieren. Diese Funktionen können verwendet werden, um die Leistung von Algorithmen für maschinelles Lernen zu verbessern.

Unter Characteristic Engineering versteht man den Prozess der Umwandlung von Rohdaten in aussagekräftige Options, die zur Verbesserung der Leistung von Modellen für maschinelles Lernen verwendet werden können. Dabei geht es darum, Variablen (Merkmale) in einem Datensatz auszuwählen, zu erstellen oder umzuwandeln, um ihre Vorhersagekraft zu verbessern und die zugrunde liegenden Muster und Beziehungen innerhalb der Daten zu erfassen.

  1. Characteristic-Transformation:- Dabei werden mathematische oder statistische Transformationen auf die vorhandenen Merkmale angewendet, um die Daten zu normalisieren, die Schiefe zu verringern oder sie besser an die zugrunde liegenden Annahmen des Modells anzupassen.

Techniken:-

Characteristic-Skalierung →

Umgang mit kategorialen Merkmalen →

Mathematische Transformation →

Umgang mit numerischen Merkmalen →

Umgang mit gemischten Datums- und Zeitvariablen →

Umgang mit fehlenden Daten →

Ausreißererkennung und -entfernung →

2. Funktionskonstruktion: – Manchmal erfassen vorhandene Funktionen die zugrunde liegenden Muster in den Daten möglicherweise nicht ausreichend. In solchen Fällen umfasst die Characteristic-Konstruktion die Erstellung neuer Options durch die Kombination oder Manipulation vorhandener Options, um dem Modell zusätzliche Informationen bereitzustellen.

3. Funktionsauswahl: – Ziel dieses Prozesses ist es, die relevantesten und informativsten Merkmale zu identifizieren, die erheblich zur Vorhersagekraft des Modells beitragen, während irrelevante oder redundante Merkmale verworfen werden. Es trägt dazu bei, die Dimensionalität zu reduzieren, die Interpretierbarkeit des Modells zu verbessern und das Risiko einer Überanpassung zu verringern.

4. Merkmalsextraktion:- In Szenarien, in denen der Originaldatensatz eine große Anzahl von Options oder hochdimensionale Daten enthält, werden Characteristic-Extraktionsmethoden eingesetzt, um eine komprimierte Darstellung abzuleiten, die die relevantesten Informationen enthält.

Techniken:-

Hauptkomponentenanalyse (PCA) →

Lineare Diskriminanzanalyse (LDA) →

t-SNE (t-Distributed Stochastic Neighbor Embedding) →



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here