Eingabekodierung
Der Pc ist mit numerischen Daten ausgestattet, aber es ist nicht einfach, Daten aus der digitalen Welt zu lesen, da er numerische Daten enthält, die das Modell darstellen. kita dapat melakukannya dengan cara meng-“kodieren„Nja.
Es ist wichtig, dass Sie Kata-Kata mit Vokabeln kodieren, indem Sie sie mit anderen Worten verknüpfen:
1-Sizzling-Kodierung Dimana Setiap Kata Yang Kita Miliki Akan Di Konversi Menjadi 1-Sizzling Vector
Atau juga Binäre Kodierung Dimana Knowledge Kita ist eine Binärkonvertierungsdatei
Atau juga Etikettenkodierung Dimana Setiap Kata Dapat Kita Konversi Kedalam Integer Seperti Ini
Dieser Artikel wird in diesem Fall mit der Konvertierungsmethode „Integer“ (Label-Codierung) und mit der Erweiterung „Integer (Label-Codierung)“ kombiniert, da die Bibliothek „TensorFlow“ und „TextVectorization“ enthält.tf.information.TextVectorization).
Worteinbettung
Setelah kita berhasil merubah data-data kita yang awalnya Zeichenfolge menjadi VektorSie müssen die Daten nur kurz zusammenfassen, um das Modell eines neuronalen Netzwerks zu verwenden, und die Codierung, die Sie benötigen, ist nur eine kurze Zusammenfassung der semantischen Daten, die Sie benötigen, um die Codierung für die folgenden drei Schritte durchzuführen:
Ayam = [43]
Raja = [44]
Ratu = [51]
Dalam hal ini hasil kodierung für Kata Raja lebih dekat dengan kata Ayam Dibandingkan mit Kata Ratuyang pada kenyataan nya seharusnya kata Raja Die semantische Bedeutung wird durch die Kata bestimmt Ratu Dibandingkan Kata Ayam.
Oleh karena itu kita memerlukan Worteinbettung Um dies zu erreichen, müssen Sie sich die Vokabeln ansehen, die Sie benötigen arti secara Semantik, Das Wort „Einbettung“ bedeutet, dass das Wort nicht in der Lage ist, den richtigen Vektor zu verwenden, um die benötigte Vektor-Datei zu verwenden, sondern auch die benötigte Vektor-Datei „Ratu“ Dies ist der Vektor, den Sie hier finden „Perempuan“ und ditambah Vektor-Kata „Pria“ Dies bedeutet, dass die Vektor-Kata „Raja“.
Dies ist das Ergebnis vorab trainierter Worteinbettungen in Modellen, die häufig verwendet werden: Word2Vec, GloVe, ELMO, BERT, dll. Dieser Artikel enthält keine weiteren Artikel, die von Modell-Modell-Initialen erstellt wurden.
Berdasarkan-Quellcode-Resmi-Nya, Pada-Modell GPT-2 Und juga BERT Dies ist ein vorab trainiertes Modell pada Worteinbettung nya, melainkan menggunakan Worteinbettung yang akan „belajar” Pada setiap iterasi nya. Dies ist die erste Möglichkeit, die Tensorflow-Bibliothek mit der Layer-Einbettung auszustatten (tf.keras.layers.Embedding).