Anmerkung des Autors: Dies warfare eine Rezension, die auf der veröffentlicht wurde Übersetzungs-Nerd Weblog aus dem Jahr 2017. Das jüngste Aufkommen generativer KI, insbesondere großer Sprachmodelle (LLM), macht das Verständnis grundlegender NLP-Kenntnisse immer wichtiger. Für Unternehmen, Organisationen und Regierungen gleichermaßen, die die Fortschritte im LLM nutzen möchten, ist ein fundiertes Verständnis der Taxonomien und Prozesse von NLP und Textanalyse von größter Bedeutung.
Text in Gold verwandeln: Taxonomien und Textanalysevon Invoice Inmon deckt eine Fülle von Grundlagen der Textanalyse und der Verarbeitung natürlicher Sprache (NLP) ab. Inmon macht im ersten Kapitel seines Buches deutlich, dass Unternehmen ihre Daten nicht ausreichend nutzen. Er behauptet, dass 98 Prozent der Unternehmensentscheidungen basieren auf nur 20 Prozent der verfügbaren Daten. Diese Daten, die aufgrund ihrer Fähigkeit, in Matrizen, Tabellenkalkulationen und relationale Datenbanken zu passen und leicht in Modelle für maschinelles Lernen zu integrieren, als strukturierte Daten bezeichnet werden, sind intestine verstanden. Unstrukturierte Daten, Texte und Wörter, die unsere Welt täglich generiert, werden jedoch selten verwendet. Ähnlich wie die Alchemisten des Mittelalters, die nach einer Methode suchten, gewöhnliche Metalle in Gold umzuwandeln, beschreibt Inmon einen Prozess, um unstrukturierte Daten in Entscheidungen umzuwandeln; Textual content in Gold verwandeln.
Taxonomien sind die Wörterbücher, die wir verwenden, um die Wörter in einem Dokument, Buch oder Materialkorpus in ein geschäftsbezogenes Verständnis einzubinden. Wenn ich beispielsweise ein Autohersteller wäre, hätte ich eine Taxonomie verschiedener autobezogener Konzepte, damit ich diese Konzepte im Textual content identifizieren könnte. Dann beginnen wir, Wiederholungen und Muster im Textual content zu erkennen. Möglicherweise tauchen im Textual content neue Wörter auf, die sich auf die Automobilherstellung beziehen. Wir können diese Begriffe dann zu unserer Taxonomie hinzufügen. Während die ursprüngliche Taxonomie möglicherweise 70 Prozent der autobezogenen Wörter im Dokument erfasst, sind 90 Prozent normalerweise eine geschäftsgerechte Ebene für den Übergang von der Taxonomie/Ontologie zur Datenbankmigration.
Sobald wir die notwendigen Eingaben aus unserer langen Liste von Taxonomien haben. Durch textuelle Disambiguierung wird der Rohtext aus unserem Dokument mit der von uns erstellten Taxonomie verglichen. Liegt eine Übereinstimmung vor, wird dieser Textual content aus dem Dokument entfernt und in einer Verarbeitungsstufe gespeichert. In dieser Part wird nach deutlicheren Mustern im neu verschobenen Textual content gesucht. Mithilfe regulärer Ausdrücke oder einer Artwork Untersuchungsmethode beim Codieren können wir deutlichere Muster im Textual content erkennen. Anschließend können wir diesen Rohtext in eine Matrix verschieben, oder in eine Tabellenkalkulation, mit der viele Menschen vertraut sind. Die Übertragung des Textes in eine Matrix erfordert die Umwandlung des Textes in Zahlen, die beim Einpassen in eine Matrix ziemlich groß sein können. Es gibt zwar spezifische Schritte, die unternommen werden können (z. B. dünn besetzte Matrix vs. dichte Matrix), der Prozess ist jedoch derselbe: Textual content maschinenlesbar machen. Wörter werden zu Nullen und Einsen und analytische Modelle können nun auf das Dokument angewendet werden. Algorithmen für maschinelles Lernen, wie Ableger des Bayes-Theorems und andere Klassifizierungstechniken, können zum Kategorisieren und Clustern von Textual content verwendet werden.
Stellen Sie sich vor, Sie gehen eines Tages in die Notaufnahme und es wird ein Bericht erstellt, wenn Sie entlassen werden. Diese Akte enthält viele wichtige Elemente Ihrer Krankengeschichte. Es würde jedoch viel Zeit in Anspruch nehmen, wenn jemand den Namen, die Adresse, Ihre Medikamente, Ihren Zustand, die Informationen Ihres behandelnden Arztes, Ihre Gesundheitsdaten usw. herausholt. Mehr Zeit, als ein überlastetes Krankenhauspersonal mit einem begrenzten Funds bewältigen kann. Mittels Textanalyse werden all diese Informationen in einer Tabelle verknüpft, die dann in die Datenbank des Krankenhauses eingepasst werden kann. Addieren Sie genügend dieser Datensätze und Sie können mit der Suche nach Mustern beginnen.
- Ihr Besuch in der Notaufnahme wird als Textual content dokumentiert
- Das Krankenhaus verwendet ein vordefiniertes „Wörterbuch“ oder eine Taxonomie medizinischer Begriffe
- Die Taxonomie wird mit Ihrer medizinischen Beurteilung verglichen und in einer Tabelle/Matrix verarbeitet.
- Die Tabelle wird in eine relationale Datenbank hochgeladen, die das Krankenhaus verwaltet
- Ein Analyst fragt die Datenbankdaten ab, um ein Modell für maschinelles Lernen zu erstellen, das Mehrwertvorhersagen erstellen kann.
- Basierend auf Ihrem Modell wird ein Wert erzeugt, der zu einer Entscheidung führt.
Bildquellen:
www.medicalexpo.comhttp://openres.ersjournals.com/content/2/1/00077-2015https://www.sharesight.com/blog/ode-to-the-spreadsheet/