„One-Hot-Codierung: Ein umfassender Leitfaden mit Python-Code und Beispielen für eine effektive kategoriale Datendarstellung“ | von Shivang Gupta | Juli 2023

0
28


Im Bereich des maschinellen Lernens und der Datenanalyse ist es von entscheidender Bedeutung, kategoriale Daten in einem Format darzustellen, das von Algorithmen effektiv verarbeitet werden kann. Eine beliebte Technik für diesen Zweck ist die sogenannte One-Scorching-Codierung. One-Scorching-Codierung wandelt kategoriale Variablen in eine binäre Darstellung um und ermöglicht es Modellen des maschinellen Lernens, diese Informationen effektiv zu interpretieren und zu nutzen. In diesem Artikel werden wir das Konzept der One-Scorching-Codierung untersuchen, seine Vorteile diskutieren und Codebeispiele für die Implementierung bereitstellen.

One-Scorching-Codierung verstehen:

Kategoriale Variablen sind Variablen, die verschiedene Kategorien oder Klassen repräsentieren, beispielsweise Farben (Rot, Blau, Grün), Städte (London, Paris, New York) oder Tierarten (Katze, Hund, Vogel). Diese Variablen können nicht direkt in mathematischen Berechnungen oder Algorithmen für maschinelles Lernen verwendet werden, da sie keine natürliche numerische Reihenfolge oder keinen natürlichen numerischen Wert besitzen.

Die One-Scorching-Codierung behebt dieses Drawback, indem für jede Kategorie eine binäre Vektordarstellung erstellt wird. Jeder Kategorie wird ein eindeutiger Index zugewiesen, und der entsprechende Index im Vektor wird auf 1 gesetzt, während die anderen auf 0 gesetzt werden. Dadurch wird eine dünn besetzte Matrix erstellt, in der jede Zeile eine eindeutige Instanz darstellt und die Spalten das Vorhandensein oder Fehlen einer Instanz darstellen bestimmte Kategorie.

Vorteile der One-Scorching-Codierung:

  1. Kompatibilität mit Algorithmen für maschinelles Lernen: One-Scorching-Codierung ist für viele Algorithmen für maschinelles Lernen unerlässlich, da sie normalerweise numerische Eingaben erfordern. Durch die Umwandlung kategorialer Variablen in binäre Vektoren kann der Algorithmus die Daten effektiv verarbeiten.
  2. Beibehaltung wichtiger Informationen: Die One-Scorching-Codierung behält die kategorialen Informationen bei, ohne eine Ordinalität oder Hierarchie aufzuerlegen. Dadurch wird sichergestellt, dass das Modell keine Annahmen über die Beziehungen zwischen verschiedenen Kategorien trifft.

Implementierung mit Python:

Lassen Sie uns nun in eine praktische Implementierung der One-Scorching-Codierung mit Python eintauchen. Wir verwenden die beliebte Scikit-Be taught-Bibliothek, die verschiedene Instruments für maschinelle Lernaufgaben bereitstellt.

from sklearn.preprocessing import OneHotEncoder
import pandas as pd
# Create a pattern dataframe with categorical variables
information = {'Shade': ['red', 'blue', 'green', 'blue']}
df = pd.DataFrame(information)
# Initialize the OneHotEncoder
encoder = OneHotEncoder()
# Match and rework the dataframe
encoded_data = encoder.fit_transform(df[['Color']])
# Convert the encoded information to a pandas dataframe
encoded_df = pd.DataFrame(encoded_data.toarray(), columns=encoder.get_feature_names_out(['Color']))
# Print the encoded dataframe
print(encoded_df)

Ausgang:

      Color_blue  Color_green  Color_red
0 0.0 0.0 1.0
1 1.0 0.0 0.0
2 0.0 1.0 0.0
3 1.0 0.0 0.0

In diesem Beispiel erstellen wir einen Beispieldatenrahmen mit der kategorialen Variablen „Farbe“. Anschließend initialisieren wir den OneHotEncoder und verwenden ihn fit_transform Methode zum Kodieren der kategorialen Daten. Schließlich konvertieren wir die codierten Daten zur besseren Visualisierung in einen Pandas-Datenrahmen.

Wie in der Ausgabe zu sehen ist, wird jede Kategorie der Variable „Farbe“ nun durch eine Binärspalte dargestellt. Das Vorhandensein einer Kategorie wird mit 1 und das Fehlen mit 0 bezeichnet.

Abschluss:

One-Scorching-Codierung ist eine leistungsstarke Technik zur Darstellung kategorialer Variablen in einem Format, das für Algorithmen des maschinellen Lernens geeignet ist. Durch die Umwandlung kategorialer Daten in binäre Vektoren können Algorithmen die Informationen effektiv verarbeiten und interpretieren. In diesem Artikel haben wir das Konzept der One-Scorching-Codierung und seine Vorteile besprochen und ein Codebeispiel für die Implementierung mit Python und scikit-learn bereitgestellt. Durch die Integration von One-Scorching-Codierung in Ihre Datenvorverarbeitungspipeline können Sie das volle Potenzial kategorialer Daten in Anwendungen für maschinelles Lernen nutzen.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here