Darstellung von Daten in einem nichteuklidischen Raum
Es Es ist schwer zu verstehen, wie wir Daten auf andere Weise als mit Vektoren darstellen können Rn. Und wie können wir uns von der euklidischen Distanz entfernen, die wir so intestine kennen, um zwei Vektordarstellungen zu vergleichen?
Eine Lösung wird in der Riemannschen Geometrie durch Mannigfaltigkeiten beschrieben. Verteiler sind Objekte, die aussehen wie Rn aber nur lokal. Das bedeutet, dass wir lokal Vektoren zur Darstellung unserer Datenpunkte verwenden können. Aber nur vor Ort!
Der Begriff der Ähnlichkeit oder Distanz ist der Schlüssel zum maschinellen Lernen. Wenn wir beispielsweise ein NLP-Modell erstellen, möchten wir den Begriff der Ähnlichkeit in der Semantik innerhalb des Einbettungsraums bewahren, der die Texteingabe darstellt. Mit anderen Worten: Wir wollen, dass zwei Wörter mit ähnlicher Bedeutung auch im euklidischen Raum ähnlich sind, additionally einen geringen euklidischen Abstand haben. Ebenso sollten zwei Wörter mit unterschiedlicher Bedeutung im euklidischen Raum weit voneinander entfernt sein, additionally einen großen euklidischen Abstand haben.
Daher muss es einen gleichwertigen Ansatz geben, wenn man der euklidischen Geometrie entkommt. Dieser Ansatz wird beschrieben von a Riemannsche Metrik. Der Die Riemannsche Metrik ermöglicht es uns, zwei Einheiten im nichteuklidischen Raum zu vergleichen und diese intuitive Vorstellung von Distanz beizubehalten.
👀 Ich erinnere mich.
Nun müssen wir bedenken, dass wir in diesem nichteuklidischen Rahmen Operationen lokal an unseren Datendarstellungen durchführen können und über eine Metrik zum Messen von Entfernungen verfügen. Somit sind wir in der Lage, ML in nichteuklidischen Räumen durchzuführen.
🙌🏻 Warum sollte ich mehr über ML in einem nichteuklidischen Raum erfahren?
Bisher wissen wir, dass ML ohne das Genie ist Euklid ist tatsächlich etwas. Es gibt tatsächlich Projekte, die unsere traditionellen Probleme des maschinellen Lernens mit einem anderen Geometrie-Framework angehen.
Nun stellt sich natürlich die Frage: Lohnt es sich, mehr als nur die Existenz dieses Fachgebiets zu erfahren?
Es ist ein ziemlich beängstigender Bereich, in dem es um nicht triviale Mathematik geht. Aber mein Freund, Aniss Medbouhi, ML-Doktorand an der KTHwird uns helfen, die diesem Raum innewohnende Komplexität zu überwinden.
Der andere Grund, warum ich von diesem Bereich nicht überzeugt battle, ist, dass ich gelesen habe, dass er hauptsächlich für hierarchische Daten geeignet sei, die durch Bäume beschrieben werden können. Auf den ersten Blick geht es nicht um die Daten, mit denen ich täglich arbeite.
Die folgenden Zusammenfassungen geben uns jedoch eine Vorstellung von relevanten Datensätzen, die für uns von Interesse sind:
„Jedoch, Neuere Arbeiten haben gezeigt, dass der geeignete isometrische Raum zur Einbettung komplexer Netzwerke nicht der flache euklidische Raum ist, aber negativ gekrümmter, hyperbolischer Raum. Wir stellen ein neues Konzept vor, das diese jüngsten Erkenntnisse nutzt und schlagen das Erlernen neuronaler Einbettungen von Graphen im hyperbolischen Raum vor. Wir liefern experimentelle Beweise dafür, dass die Einbettung von Graphen in ihre natürliche Geometrie die Leistung bei nachgelagerten Aufgaben für mehrere erheblich verbessert öffentliche Datensätze aus der realen Welt.“ Chamberlain et al.
„Allerdings, während Da komplexe symbolische Datensätze oft eine latente hierarchische Struktur aufweisen, lernen moderne Methoden typischerweise Einbettungen in euklidische Vektorräume, die diese Eigenschaft nicht berücksichtigen. Zu diesem Zweck stellen wir einen neuen Ansatz zum Lernen hierarchischer Darstellungen symbolischer Daten vor Einbettung in den hyperbolischen Raum – oder genauer gesagt in eine n-dimensionale Poincaré-Kugel.“ Nickel und Kiela
Die oben genannten Datensätze sind wie folgt aufgelistet: Chamberlain et al. :
(1) Karate: Zacharys Karate-Membership besteht aus 34 Spitzen, die in zwei Fraktionen aufgeteilt sind. [4]
(2) Polbooks: Ein Netzwerk von Büchern über US-Politik, die etwa zur Zeit der Präsidentschaftswahlen 2004 veröffentlicht und vom On-line-Buchhändler Amazon.com verkauft wurden. Kanten zwischen Büchern stellen einen häufigen gemeinsamen Kauf von Büchern durch dieselben Käufer dar.
(3) Fußball: Ein Netzwerk von American-Soccer-Spielen zwischen Faculties der Division IA während der regulären Saison im Herbst 2000. [2]
(4) Adjnomen: Adjazenznetzwerk gebräuchlicher Adjektive und Substantive im Roman David Coppereld von Charles Dickens. [3]
(5) Polblogs: Ein Netzwerk von Hyperlinks zwischen Weblogs zur US-Politik, aufgezeichnet im Jahr 2005. [1]
Darüber hinaus finden wir in der Biologie diesen Referenzdatensatz:
- Biologie: Evolutionsdaten wie Proteine. [5]
Schließlich sind NLP-Daten, additionally Textdaten, eine weitere Artwork hierarchischer Daten. Daher könnten viele Bereiche vom Verständnis der Fortschritte im nichteuklidischen maschinellen Lernen profitieren.
Da wir nun wissen, wie wir bestimmte Datensätze besser darstellen können, ist es wichtig, sie mit maschinellem Lernen zu verknüpfen. Für alle nachgelagerten ML-Aufgaben müssen zunächst Daten erfasst werden. Es wird viel Zeit darauf verwendet, unsere zugrunde liegenden Daten zu bereinigen und korrekt darzustellen. Die Qualität der Datendarstellung ist von entscheidender Bedeutung, da sie sich direkt auf die Leistung unserer Modelle auswirkt. Im NLP zum Beispiel fee ich meinen Schülern, sich auf Architekturen zu konzentrieren, die gute Einbettungen ermöglichen, z. B. kontextuelle Einbettungen. Es wurden umfangreiche Untersuchungen zur Verbesserung von Einbettungen durchgeführt, ausgehend von flachen neuronalen Netzen (Fasttext, Word2vec) zu tiefen neuronalen Netzen und Transformatoren (Satztransformatoren, BERT, RoBERTa, XLM). Es ist jedoch auch erwähnenswert, dass die Datendarstellung stark mit der jeweiligen Aufgabe verknüpft ist und Untersuchungen zeigen, dass bestimmte flache neuronale Netze für bestimmte Aufgaben bessere Ergebnisse liefern als tiefe neuronale Netze.
Abschluss
In In diesem Artikel haben wir gesehen, dass wir nichteuklidische Geometrie nutzen können, um bestehende Probleme zu lösen, die speziell für sphärische Daten und hierarchische Datensätze wie Diagramme gelten. Bei der Einbettung solcher Datensätze in einen euklidischen Raum ist der zu zahlende Preis eine Verzerrung, die es nicht ermöglicht, Abstände vom ursprünglichen Raum zum Einbettungsraum beizubehalten. Eine solche Verzerrung ist in unserer Erddarstellung intuitiv, wo wir viele Möglichkeiten haben, unseren Globus darzustellen, von denen einige die erwarteten Kerneigenschaften nicht bewahren, wie z Flächenerhaltend. Ebenso müssen bei Diagrammen die Kerneigenschaften erhalten bleiben, und eine Verzerrung des zugrunde liegenden Raums kann zu einer schlechteren Leistung für nachgelagerte maschinelle Lernaufgaben führen.
Im nächsten Kapitel erfahren wir mehr über sphärische und hyperbolische Geometrien. Wir werden uns mehr auf Letzteres konzentrieren und eine Vorstellung davon vermitteln, wie Modelle in einem solchen Raum hierarchische Daten besser einbetten können.