- Natürlicher Sprachprozess
NLP ist ein Thema, das mit künstlicher Intelligenz und Informatik zusammenhängt. Es ermöglicht Computern das Verstehen natürlicher Sprache und führt eine Reihe von Aufgaben aus. Zur Veranschaulichung, Vormerken, Zusammenfassen eines Textes, Chatbots, Einordnen eines Textes usw.
Warum ist es sehr schwer?
- Natürliche Sprachen haben mehr Wörter als Maschinensprachen.
- Ein Wort kann mehr als eine Bedeutung haben.
- Das Verstehen von Wortspielen ist für Laptop sehr schwierig.
- Obwohl natürliche Sprachen einige Regeln haben, gehen sie manchmal über die Regeln hinaus.
- Weltweit gibt es etwa 6500 Sprachen.
2. NLTK
Dank der NLTK-Bibliothek können Sie Ihre Daten vorbereiten.
Sie sollten alle NLTK-Pakete wie in den folgenden Bildern schreiben.
2.1 Tokenisierung
- Durch die Tokenisierung können lange Sätze verschiedene Wörter oder verschiedene Sätze trennen. Wenn wir verschiedene Wörter trennen möchten, sollten Sie „word_tokenize“ verwenden.
Solange Sie Sätze trennen möchten, sollten Sie „sent_tokenize“ schreiben.
2.2 Stoppwort
Stoppwörter bedeuten unnötige Wörter wie „ein“, „ein“ oder „der“ usw. Wie Sie im folgenden Bild sehen, können wir unnötige Wörter erreichen.
Im folgenden Code haben wir einen Tokenisierungsprozess durchgeführt und unnötige Wörter entfernt.
2.3 Stemming
Die Wortstammerkennung ist ein vorheriger Prozess, um den Wortstamm zu erreichen. Beispielsweise ist die Wurzel des Wortes „Fahren“ „Antrieb“. Um dieses Drawback zu lösen, wurde es in den 70er Jahren geschaffen. Diese Methode ruft PorterStemmer in Phython auf. Das folgende Bild zeigt ein Beispiel für das Erreichen der Wortwurzel.
2.4 Teil-der-Sprache-Tagging
Wir finden Elemente eines Satzes. Nach Verwendung der Sprachkennzeichnung beschriftet das Programm alle Wörter in einem Satz. Sie können die Bedeutung des Etiketts sehen.
„““
CC-koordinierende Konjunktion
CD-Kardinalziffer
DT-Ermittler
EX existenziell dort (wie: „es gibt“ … stellen Sie es sich vor wie „es existiert“)
FW-Fremdwort
IN Präposition/untergeordnete Konjunktion
JJ Adjektiv „groß“
JJR Adjektiv, Komparativ „größer“
JJS Adjektiv, Superlativ „am größten“
LS-Listenmarkierung 1)
MD Modal könnte, wird
NN Substantiv, Singular „Schreibtisch“
NNS Substantiv Plural „Schreibtische“
NNP Eigenname, Singular „Harrison“
NNPS Eigenname, Plural „Amerikaner“
PDT-Vorherbestimmung „Alle Kinder“
Possessiv Endung Eltern
PRP-Personalpronomen I, er, sie
PRP$ Possessivpronomen mein, sein, ihr
RB-Adverb sehr, nonetheless,
RBR-Adverb, Komparativ besser
RBS-Adverb, Superlativ am besten
RP-Partikel geben auf
TO, um in den Laden zu gehen.
UH Interjektion errrrrrrrm
VB-Verb, Grundform nehmen
VBD-Verb, Vergangenheitsform nahm
VBG-Verb, Gerundium/Partizip Präsens
VBN-Verb, Partizip Perfekt genommen
VBP-Verb, singen. Gegenwart, Nicht-3D-Aufnahme
VBZ-Verb, 3. Particular person singen. Gegenwart dauert
WDT wh-Ermittler welcher
WP wh-Pronomen wer, was
WP$ Possessiv-Wh-Pronomen wessen
WRB wh-Abverb wo, wann
„““
Notiz: Wenn Ihre Sätze Grammatikfehler enthalten, ist dieser Vorgang möglicherweise nicht 100 % korrekt.
2.5 Anerkennung benannter Entitäten
Mithilfe der Entitätserkennung möchten wir Datum, Ort, Organisationsnamen usw. ermitteln.
Wenn wir den Befehl nltk.ne_chunk verwenden, erhalten wir das Ergebnis der Entitätserkennung. Wir zeichnen Ergebnisse, weil das Ergebnis nach der Verwendung eine Baumfigur ist.
Basierend auf dem bereitgestellten Bild sind die Namen der Particular person, der geografische Standort (GPE) und die Organisation korrekt.
2.6 Lemmatisierung
Lemmatisierung ist ähnlich wie Stemming ein vorheriger Prozess, um den Wortstamm zu erreichen. Die Lemmatisierung ist besser als die Stemming-Methode, da sie den Wortstamm genauer erreicht.
2.7 Korpus und Korpora
Unter Corpus versteht man einen Satz, der im natürlichen Sprachprozess verwendet wird. Corpora ist der Plural des Korpus. Beispiele für Korpus, Bücher, Wikipedia oder das Schreiben auf einer Webseite