Word2Vec battle einst die hochmoderne Technik (in der Zeit vor dem Transformer), um Worteinbettungen zu erhalten. Und es gibt zahlreiche Blogs darüber. Daher werde ich nicht diskutieren, was Word2Vec ist oder wie es funktioniert. Stattdessen werde ich mich auf die Demonstration einer interessanten Eigenschaft von Word2Vec-Einbettungen konzentrieren.
Sie haben vielleicht gehört, dass Word2Vec in der Lage ist, die semantische Bedeutung von Wörtern zu erfassen. Möglicherweise sind Ihnen auch Beispiele wie die folgenden begegnet:
Hier können wir beobachten, dass Word2Vec semantisch ähnliche Wörter erfolgreich identifiziert, wenn ihm das Wort „Snacks“ gegeben wird. Dies lässt sich leicht verifizieren, indem man die entsprechenden Kosinus-Ähnlichkeitswerte untersucht, die besonders hoch sind.
Möglicherweise haben Sie auch gehört, dass Word2Vec-Einbettungen analoges Denken unterstützen. Die Worteinbettungen ermöglichen analoges Denken und ermöglichen es uns, mathematische Beziehungen zu erfassen, wie zum Beispiel „Der König verhält sich zur Königin wie der Mann zur Frau.“
Das klassische Beispiel ist die Analogie „Der König verhält sich zur Königin wie der Mann zur Frau“, was impliziert, dass die Beziehung zwischen „König“ und „Königin“ der Beziehung zwischen „Mann“ und „Frau“ ähnelt.
Um analoge Überlegungen mit Worteinbettungen durchzuführen, verwenden Sie normalerweise vektoralgebraische Operationen wie Addition und Subtraktion. Die Analogie „Der König verhält sich zur Königin wie der Mann zur Frau“ lässt sich mathematisch wie folgt darstellen:
v('king') - v('man') + v('girl') ≈ v('queen')
Hier, v(‘king’)
stellt den Wortvektor für „König“ dar, v(‘man’)
stellt den Wortvektor für „Mensch“ dar und so weiter. Durch Subtrahieren des Vektors für „Mann“ vom Vektor für „König“ und Hinzufügen des Vektors für „Frau“ wird erwartet, dass der resultierende Vektor der Vektordarstellung von „Königin“ nahe kommt. Mit diesem Ansatz können Sie Wörter finden, die der erwarteten Analogiebeziehung ähneln.
Lassen Sie uns nun die obige Gleichung etwas anpassen:
v('relationship') = v('man') - v('girl')
v('queen') ≈ v('king') - v('relationship')
v('mom') ≈ v('father') - v('relationship')
Der v(‘relationship’)
Der Vektor repräsentiert die Beziehung oder das analoge Denken. Additionally, wenn wir das wissen v(‘relationship’)
Für eine Artwork analoger Argumentation wie Landeshauptstadt können wir dasselbe verwenden v(‘relationship’)
Kapital für einen beliebigen Ländernamen zu bekommen.
Beachten Sie, dass wir hier das Näherungszeichen (≈) in der Gleichung verwendet haben. Das liegt daran, dass wir auf der Grundlage der analogen Argumentation nicht in der Lage sein werden, die genaue Einbettung des transformierten Wortes zu erhalten.
In den folgenden Beispielen möchten wir diese Fähigkeit demonstrieren. Wir bieten mehrere Optionen für das transformierte Wort. Und berechnen Sie die Kosinusähnlichkeit zwischen dem transformierten Wort und den Optionen. Indem wir die maximale Kosinusähnlichkeit ermitteln, können wir die richtige Zuordnung identifizieren.
In Beispiel 1 demonstrieren wir die Beziehung zwischen Land und Hauptstadt, indem wir die Einbettung von „Ottawa“ von „Kanada“ subtrahieren und dieselbe Methode anwenden, um die Hauptstadt von „Australien“ zu bestimmen. Unter den 8 angebotenen Optionen stellen wir fest, dass die Kosinusähnlichkeit zwischen dem geschätzten Kapital und dem tatsächlichen Kapital „Canberra“ am höchsten ist.
In ähnlicher Weise nutzen wir in Beispiel 2 erfolgreich die Beziehung „König-Königin“, um die Beziehung „Vater-Mutter“ abzuleiten.