Dieser Beitrag fasst einen wichtigen Aspekt meines Vortrags zusammen GIDS 2020 An Informationsextraktion für Fachleute aus Finanzdokumenten.
Die Feinheiten von Finanzdokumenten
Der Kunden-Onboarding-Prozess im Finanzsektor erfordert oft den Umgang mit Dokumenten, die viele juristische Personen und ihre jeweiligen Rollen befassen. Diese häufig umfangreichen Dokumente umfassen sowohl strukturierte als auch unstrukturierte Daten. Aus diesen Dokumenten ergeben sich wesentliche Fragen, wie z. B. die Artwork des Kundendokuments, die Identifizierung der genannten Personen und Organisationen, ihre Verbindungen zu den Auftraggebern, die einbezogen werden, ihre Rollen, Adressen und mehr. Darüber hinaus muss festgestellt werden, ob die Gegenpartei die Fähigkeit besitzt, bestimmte Produkte zu erwerben, ob der wirtschaftliche Eigentümer die Gegenpartei ermächtigt hat, in ihrem Namen zu handeln, und ob das Dokument ordnungsgemäß mit einem Wirksamkeitsdatum erstellt wurde. Das Verständnis der Semantik dieser Dokumente ist von entscheidender Bedeutung, um solche wichtigen Erkenntnisse abzuleiten.
Die Beantwortung dieser Fragen stellt eine Fülle technischer Herausforderungen dar, die vielfältig, immens und anregend sind. Einige können mit bestehenden Marktlösungen bewältigt werden, während andere die Anpassung bestehender Technologien erfordern, wie etwa die Umschulung von Modellen mithilfe proprietärer Datensätze oder die Entwicklung neuer Iterationen dieser Techniken. Darüber hinaus erfordern einige Herausforderungen neuartige Forschung, andere erfordern die Entwicklung völlig neuer Methoden. Mal sehen, wie wir sie gelöst haben.
Identifizieren wichtiger benannter Elemente
Die Namenserkennung (Named Entity Recognition, NER) ist eine entscheidende Aufgabe, deren Komplexität variieren kann, von der Identifizierung einiger Token, wie z. B. Personen oder Organisationen, bis hin zur Erkennung langer Adressen. Das Hauptinteresse besteht darin, die verschiedenen in diesen Dokumenten erwähnten Unternehmen sowie ihre registrierten Adressen und Postanschriften zu verstehen. Zur Identifizierung von Organisationen und Personen stehen zwar Open-Supply-Instruments und -Bibliotheken zur Verfügung, es mangelt ihnen jedoch an einer speziellen Ausbildung im Finanzbereich. Dennoch ist es wichtig, den Nutzen dieser Modelle anzuerkennen, da sie anhand umfangreicher Datensätze trainiert wurden und latente Darstellungen für Entitäten entwickelt haben. Mithilfe von Transferlernen kann ein proprietärer Datensatz zur Feinabstimmung vorhandener Modelle erstellt werden, beispielsweise Spacy, das eine CNN-basierte neuronale Architektur verwendet. Bemerkenswert ist die aktuelle Model Spacy 3.0 mit ihrer Unterstützung für die Feinabstimmung transformatorbasierter Architekturen.
Komplizierte Adressen extrahieren
Die Adressextraktion ist eine Aufgabe mit höherer Komplexität und erfordert ein BERT-Foundation-Spine mit einem Token-Klassifizierungskopf. Die Adressdarstellung variiert von Land zu Land und weist zusätzliche Komplexitäten wie Präfixzeilen wie C/O Org oder Adressen in Inselregionen auf, in denen möglicherweise keine Standardkonzepte für Städte und Bundesstaaten existieren. Zur Analyse dieser Adressbereiche können Instruments wie Libpostal oder ein Ortsverzeichnis eingesetzt werden.
Identifizieren von Beziehungen zwischen Elementen
Aufgaben zur Beziehungsextraktion, etwa die Identifizierung der Adresse oder der Aliase einer Organisation, sind eine weitere entscheidende Komponente für das Verständnis dieser Dokumente. Die Beziehungen können sowohl in strukturierten als auch in unstrukturierten Formaten dargestellt werden, und die Komplexität nimmt aufgrund der Variabilität der Eingaben schnell zu. Die Anzahl der Beziehungen in einem Satz kann sich durch das Hinzufügen eines einzelnen Wortes leicht ändern, wie in den Beispielen zu sehen ist:
A, B acts as C, D to E and F
A, B acts as C, D to E and F respectively
Aus diesen Dokumenten kann ein ternärer Beziehungsextraktionsdatensatz kuratiert werden, der sich auf Organisationen, Personennamen und Rollen konzentriert. Zur Lösung dieses Issues könnte ein BERT-basiertes Spine mit einem Relation Head eingesetzt werden. Ein wichtiger Aspekt dieser Aufgabe ist die Entscheidung, welche spezifische Token-Einbettung an den Relationskopf weitergeleitet werden soll. Es können verschiedene Techniken eingesetzt werden, darunter Max-Pooling oder die Mittelung aller Token-Einbettungen, die die Entitäten repräsentieren, und deren Einspeisung in die Beziehungsschicht. Durch die Verwendung von Entitätsmarkierungen rund um die Organisationen und Rollen lässt sich das Netzwerkbewusstsein für bestimmte Token verbessern und so die Ergebnisse verbessern.“