In diesem Artikel werde ich grundlegende Schritte zur Textvorverarbeitung behandeln
Sie umfassen die Kleinschreibung von Textual content, das Entfernen von HTML-Tags, das Entfernen von URLs, das Entfernen von Satzzeichen, die Behandlung von Chat-Wörtern, die Rechtschreibkorrektur, das Entfernen von Stoppwörtern, den Umgang mit Emojis im Textual content, die Tokenisierung von Textual content, die Wortstammerkennung und die Lemmatisierung.
Hier verwende ich den IMDB-Datensatz, der 50.000 Filmkritiken enthält.
Den Datensatz finden Sie hier – Datensatz
Der Datensatz enthält zwei Spalten: Bewertung, Stimmung
Wandelt Textual content in Kleinbuchstaben um
Warum müssen wir Textual content in Kleinbuchstaben umwandeln?
Wenn wir einen Satz Wort für Wort tokenisieren, werden dasselbe Wort, das in Groß- und Kleinschreibung dargestellt wird, als unterschiedliche Wörter identifiziert. Beispielsweise werden „Fundamental“ und „Fundamental“ als unterschiedlich betrachtet, sind aber beide gleich, da Python die Groß-/Kleinschreibung beachtet und das Modell komplexer macht. Um es zu vereinfachen, schreiben wir Kleinbuchstaben.
Dies ist der erste Textvorverarbeitungsschritt, der unbedingt durchgeführt werden muss.
Nehmen wir das Entfernen unerwünschter Daten aus dem Textual content. Nehmen wir den Fall des Scrapings von Daten aus dem Net, bei dem wir HTML-Tags erhalten, die für die Daten unnötig sind. Diese sollten entfernt werden.
Wenn wir die Sätze tokenisieren, werden Satzzeichen zu unterschiedlichen Wörtern, zum Beispiel „Hallo!“ Wie geht es dir?‘ Wenn wir es tokenisieren, kann es zu „Hallo !, wie geht es dir?“ werden. Hier werden Satzzeichen als unterschiedliche Wörter verstanden. Es erhöht die Komplexität des Modells, indem es mehr Operationen am Code durchführt, und Satzzeichen weisen dem Satz keine Bedeutung zu.
Wörter wie ROFL, LMAO, FYI, GD, ASAP finden sich in Chatnachrichten vieler Social-Media-Plattformen wie WhatsApp, Instagram, Twitter. Beim Zusammenfassen des Textes sollten diese kurzen Wörter durch lange Formen ersetzt werden, um die Bedeutung des Wortes zu verstehen.
Betrachten Sie das Beispiel „Bitte lesen Sie das Notizbuch und liken Sie das Notizbuch“.
Wenn wir den obigen Satz tokenisieren, werden die Wörter „Pocket book“ und „ntebook“ als unterschiedliche Wörter betrachtet. Um solche Dinge zu vermeiden, muss eine Rechtschreibkorrektur vorgenommen werden.
Wörter, die bei der Satzbildung helfen, dem Satz jedoch keine Bedeutung verleihen, wie „ein“, „ein“, „der“, „ist“ usw.
Bei der Analyse von Chat-Nachrichten, zur Textklassifizierung oder Stimmungsanalyse haben insbesondere Emojis eine Bedeutung. Wir können den Emoji-Ausdruck durch die entsprechende Bedeutung ersetzen. Wenn unsere Problemstellung nichts mit Gefühlen oder Gefühlen zu tun hat, können wir sie entfernen.
Emojis entfernen:
Emojis durch ihre entsprechende Bedeutung ersetzen:
Indem wir den Textual content in Sätze und Wörter aufteilen, verstehen wir den Kontext des Textes und können auch das Thema des Textes und vieles mehr finden.
Wir können den Textual content auf verschiedene Arten tokenisieren, wie zum Beispiel:
Verwendung der Cut up-Funktion:
Verwendung regulärer Ausdrücke:
Mit nltk.tokenize:
Unter Stemming versteht man den Prozess, bei dem die Flexion von Wörtern auf ihre Stammformen reduziert wird, z. B. indem eine Gruppe von Wörtern demselben Wortstamm zugeordnet wird, selbst wenn der Wortstamm selbst kein gültiges Wort in der Sprache ist.
Flexion ist die Modifikation eines Wortes, um verschiedene grammatikalische Kategorien wie Zeitform, Stimme, Aspekt, Particular person, Geschlecht und Stimmung auszudrücken.
Bei der Wortstammerkennung wird kaum auf die Flexion geachtet, außer darauf, das Wort auf seinen Stamm zu reduzieren.
Bei der Lemmatisierung werden im Gegensatz zur Wortstammerkennung flektierte Wörter ordnungsgemäß reduziert, um sicherzustellen, dass das Wurzelwort zur Sprache gehört. Bei der Lemmatisierung heißt das Wurzelwort Lemma.
vollständiger Code
Ich hoffe, das hilft, zögern Sie nicht, sich mit mir in Verbindung zu setzen LinkedIn und folge mir weiter Mittel