Kategoriale Kodierung: Ein kurzer Überblick über beliebte Techniken | von Diana Nersesyan | Juni 2023

0
22


Autorin: Diana Nersesyan

Bei der kategorialen Codierung werden kategoriale Daten (Daten mit nicht numerischen Werten) in ein numerisches Format konvertiert, damit sie von Modellen für maschinelles Lernen verwendet werden können. Es gibt verschiedene Methoden der kategorialen Kodierung, jede mit ihren eigenen Merkmalen und Anwendungsfällen. Lassen Sie uns einige gängige Methoden der kategorialen Kodierung untersuchen:

1. Etikettenkodierung oder Ordinalkodierung: Diese Kodierungstechnik weist jeder Kategorie der kategorialen Variablen einen eindeutigen ganzzahligen Wert zu. Es wird verwendet, wenn die kategoriale Variable eine inhärente Reihenfolge oder Hierarchie aufweist. Kodieren Sie beispielsweise T-Shirt-Größen als 0 für Small, 1 für Medium und 2 für Giant.

Abb.1: Beispiel einer Etikettenkodierung

2. One-Scorching-Codierung: One-Scorching Encoding erstellt für jede Kategorie der kategorialen Variablen neue Binärvariablen (Dummy-Variablen). Jede Kategorie wird durch ein binäres Merkmal dargestellt, wobei 1 das Vorhandensein dieser Kategorie und 0 das Fehlen dieser Kategorie angibt. Diese Methode eignet sich für nominale Variablen, bei denen keine inhärente Reihenfolge zwischen den Kategorien besteht. Kodieren Sie beispielsweise Farben als Rot [1, 0, 0]Grün [0, 1, 0]Blau [0, 0, 1].

Abb.2: Beispiel für One-Hot-Encoding

3. Effektkodierung: Die Effektkodierung (auch als Helmert-Kodierung bekannt) ähnelt der One-Scorching-Kodierung, weist jedoch einen kleinen Unterschied auf. Bei der Effektkodierung wird jede Kategorie durch eine Reihe von Werten (-1, 0, 1) dargestellt, die den Kontrast zwischen dieser Kategorie und dem Durchschnitt der nachfolgenden Kategorien angeben. Es wird häufig in Regressionsmodellen verwendet.

4. Binäre Kodierung: Die binäre Kodierung vereint die Vorteile von Hashing und One-Scorching-Kodierung. Es stellt jede Kategorie mit Binärziffern dar, wobei jede Ziffer einer neuen Binärvariablen entspricht. Diese Codierung reduziert die Dimensionalität im Vergleich zur One-Scorching-Codierung, während einige Informationen erhalten bleiben.

Abb. 3: Beispiel einer binären Kodierung

5. Base-N-Kodierung: Die Base-N-Kodierung wandelt jede Kategorie basierend auf einer angegebenen Foundation oder Foundation in eine numerische Kind um. Beispielsweise wird in Foundation 2 (binär) jede Kategorie mithilfe ihrer binären Darstellung codiert. Eine Änderung der Foundation kann zu unterschiedlichen Zahlendarstellungen führen.

6. Hash-Kodierung: Die Hash-Kodierung wandelt Kategorien mithilfe von Hashing-Techniken in eine feste Anzahl neuer Variablen um. Die Anzahl der neuen Variablen ist vordefiniert und Hashing ermöglicht die Zuordnung der Kategorien zu diesen Variablen. Es besteht jedoch die Möglichkeit eines Informationsverlusts aufgrund von Kollisionen im Hashing-Prozess.

7. Zielkodierung: Zielkodierung (auch als Mittelwertkodierung bekannt) verwendet die Zielvariable zum Kodieren der kategorialen Werte. Es ersetzt jede Kategorie durch den Mittelwert der Zielvariablen für diese Kategorie. Die Zielkodierung ist nützlich, wenn angenommen wird, dass die kategoriale Variable eine prädiktive Beziehung zur Zielvariablen hat.

Abb.6: Beispiel einer Zielkodierung

Nachdem wir nun verstanden haben, wie die Kodierungstechniken funktionieren, gehen wir nun zu ihren Vor- und Nachteilen über.

Vorteile:

  • Behält die Ordnungsbeziehung zwischen Kategorien bei.
  • Erhöht nicht die Dimensionalität des Datensatzes.

Nachteile:

  • Kann bei Verwendung auf nominalen Variablen zu unbeabsichtigter Ordinalität führen.
  • Könnte zu einer Modellverzerrung führen, wenn die Codierung ein falsches Ordnungsgefühl erzeugt.

Vorteile:

  • Behält die Unterscheidungskraft von Kategorien bei.
  • Zwingt keine Ordinalität oder Hierarchie auf.
  • Geeignet für nominale Variablen.

Nachteile:

  • Erhöht die Dimensionalität des Datensatzes, was möglicherweise zum Fluch der Dimensionalität führt.
  • Kann Multikollinearität verursachen, wenn alle generierten Options in einem Modell verwendet werden.

Vorteile:

  • Erfasst den Kontrast zwischen Kategorien und den Durchschnitt nachfolgender Kategorien.
  • Nützlich für Regressionsmodelle.

Nachteile:

  • Erfordert eine sorgfältige Interpretation der codierten Merkmale.
  • Kann empfindlich auf die Wahl der Referenzkategorie reagieren.

Vorteile:

  • Reduziert die Dimensionalität im Vergleich zur One-Scorching-Codierung.
  • Behält einige Informationen zu den Kategorien.

Nachteile:

  • Erfasst möglicherweise nicht die volle Einzigartigkeit der Kategorien.
  • Abhängig von der Anzahl der Kategorien kann die Dimensionalität noch erhöht werden.

Vorteile:

  • Bietet ein Gleichgewicht zwischen Dimensionalität und Einzigartigkeit.
  • Ermöglicht Flexibilität bei der Auswahl der Foundation für die Kodierung.

Nachteile:

  • Die Wahl der Foundation kann sich auf die Interpretierbarkeit codierter Merkmale auswirken.
  • Die codierten Werte stimmen möglicherweise nicht mit den inhärenten Merkmalen der Kategorien überein.

Vorteile:

  • Reduziert die Dimensionalität auf eine vordefinierte Anzahl von Variablen.
  • Kann hochdimensionale kategoriale Daten effizient verarbeiten.

Nachteile:

  • Informationsverlust aufgrund möglicher Kollisionen während des Hashing-Prozesses.
  • Hash-Funktionen sind nicht leicht zu interpretieren.

Vorteile:

  • Erfasst die Beziehung zwischen kategorialen Variablen und der Zielvariablen.
  • Kann nützliche Informationen für die Vorhersagemodellierung liefern.

Nachteile:

  • Anfällig für Überanpassung, wenn Zielleckage auftritt.
  • Empfindlich gegenüber unausgeglichenen Datensätzen und Ausreißern in der Zielvariablen.

Es ist wichtig zu beachten, dass dies nur einige Beispiele für kategoriale Kodierungstechniken sind und noch weitere Methoden verfügbar sind. Jede Kodierungsmethode hat ihre eigenen Vorteile und Überlegungen. Die Wahl der Kodierungstechnik hängt von der Artwork der kategorialen Variablen, der Beziehung zwischen den Kategorien und den spezifischen Anforderungen der jeweiligen maschinellen Lernaufgabe ab.

Verwendete Ressourcen:
Hier finden Sie alles, was Sie über die Kodierung kategorialer Daten (mit Python-Code) wissen müssen.

Alles über kategoriale Variablenkodierung

Ein Überblick über kategoriale Kodierungsmethoden

Hinweis: Alle aus den aufgeführten Quellen abgerufenen Bilder enthalten die entsprechenden Hyperlinks.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here