Dieser Weblog dient dazu, den Fortschritt des Capstone-Projekts unseres Groups zu teilen. Wir freuen uns, unser wunderbares Projekt zur Identifizierung von Polizeieinsätzen, an denen Personen mit psychischen Erkrankungen (PWMI) beteiligt sind, mithilfe von Giant Language Fashions (LLMs) vorzustellen.
Angesichts der Tatsache, dass Fälle mit PWMI quick ein Fünftel der Zeit der Polizei in Anspruch nehmen, ist es von entscheidender Bedeutung, effizientere Wege zu finden, um diese Fälle zu identifizieren und zu klassifizieren und frühzeitige Klassifizierungen vorzunehmen. In diesem Projekt nutzten wir LLMs, um frühe Signale aus Anrufprotokollen zu erkennen und so einen potenziellen Weg für ein effektiveres Anrufmanagement zu eröffnen und über umfassendere Daten zu verfügen, um den Ressourcen- und Schulungsbedarf der Polizei zu informieren.
Bei der Definition unseres Zielwerts und Trainingsfensters haben wir viele Kategorien einbezogen, die zusammen 3 % der Ereignisse ausmachen. Diese ungleiche Verteilung stellte eine Herausforderung dar, da herkömmliche Algorithmen für maschinelles Lernen tendenziell die Mehrheitsklasse bevorzugen. Um dies abzumildern, haben wir der Minderheitenklasse höhere Gewichte zugewiesen. Wir haben diesen Ansatz mit der Unterabtastung verglichen, einer Technik, bei der wir einen 50–50-Anteil an Typen erstellen, indem wir eine Teilmenge aus dem Originaldatensatz auswählen.
Unsere Bewertungsmaßstäbe zur Beurteilung der Leistung unseres Modells waren der F1-Rating und der F2-Rating. Diese Bewertungen sind in Situationen mit unausgeglichenen Daten von Vorteil, in denen herkömmliche Genauigkeitsbewertungen möglicherweise genauer sein müssen. Außerdem gibt der F2-Rating der Erinnerung mehr Gewicht als der Präzision. Durch die Verwendung des F2-Scores kann sich das Modell stärker auf die Suche nach allen positiven Fällen konzentrieren.
Unsere Untersuchung der Merkmalsattribute ergab spannende Erkenntnisse. Obwohl es keine Konsistenz in der Worthäufigkeit zwischen PWMI-bezogenen Ereignissen und anderen gab, stellten wir einen signifikanten Unterschied in der Textlänge und Ereignisdauer fest. Bei PWMI-bezogenen Ereignissen gab es tendenziell quick doppelt so viele Anrufprotokolleinträge und die Lösung nahm 70 % mehr Zeit in Anspruch, was die Belastung unterstreicht, die diese Ereignisse für das Polizeisystem darstellen.
Für den Aufbau unseres Modells begannen wir mit einem TF-IDF + Naive Bayes- und einem TF-IDF + linearen Regressionsmodell als Foundation, aber es struggle klar, dass wir bessere Ergebnisse erzielen konnten. Additionally sind wir dazu übergegangen, LLMs der BERT-Serie zu verwenden, die wir mit Textfunktionen verfeinert haben. Um die Robustheit zu verbessern, haben wir Below-Sampling- und Bagging-Techniken in Verbindung mit BERT-Foundation- und RoBERTa-Foundation-Modellen eingeführt.
Das haben wir dann gefunden DeBERTa-V3 Modell. DeBERTa-V3 ist ein Modell, das DeBERTa durch Vortraining im ELECTRA-Stil mit Gradient-Disentangled Embedding Sharing verbessert. Während DeBERTa Verbessert die BERT- und RoBERTa-Modelle durch entwirrte Aufmerksamkeit und verbesserten Maskendecoder. Es hat große Fähigkeiten bei Aufgaben zum Verstehen natürlicher Sprache gezeigt, die sehr intestine zu unserem Textkategorisierungs- und Inhaltsanalyseproblem passen sollten.
Wir haben verschiedene Methoden angewendet, um die Leistung von DeBERTa-V3 während des Feinabstimmungsprozesses zu verbessern:
Schichtgefrieren: Wir haben nur 25 % der Parameter trainiert, indem wir die ersten neun Schichten des Modells eingefroren haben. Wenn wir diesen Wert erhöhen, tendiert das Modell zu einer Überanpassung. Wenn wir ihn hingegen verringern, wird die Leistung des Modells aufgrund der Unteranpassung schlechter.
Gewichtsverlust: Dies ist eine Regularisierungstechnik, die in Modellen des maschinellen Lernens verwendet wird, um eine Überanpassung zu verhindern, indem der Verlustfunktion eine Strafe hinzugefügt wird. Diese Strafe wird als Konstante multipliziert mit der Summe der Quadrate der Modellgewichte berechnet. Dadurch wird unser Modell dazu ermutigt, die Gewichte so klein wie möglich zu halten, was zu einfacheren Modellen führt und dazu beiträgt, das Risiko einer Überanpassung zu verringern.
Aufwärm- und Kosinus-Lernratenplaner: Hierbei handelt es sich um Strategien zur Anpassung der Lernrate während des Trainings von Modellen des maschinellen Lernens, insbesondere neuronaler Netze. Durch die Kombination dieser beiden Techniken wird unser Modell besser konvergieren.
Gradientenakkumulation: Beim maschinellen Lernen ist die Batchgröße ein entscheidender Hyperparameter. Manchmal benötigen wir eine große Stapelgröße, um das Modell weniger empfindlich gegenüber Rauschen in den Trainingsdaten zu machen. Bei der Feinabstimmung von LLM ist die Abstimmung des Modells mit Client-{Hardware} jedoch immer ein komplexes Drawback. In dieser Übung haben wir die Gradientenakkumulation angewendet, um größere Stapelgrößen effektiv zu nutzen, auch wenn unser GPU-Speicher begrenzt ist.
Letztendlich schnitt unser Modell intestine ab und kategorisierte weitere ca. 20 % der Ereignisse effektiv auf der Grundlage von Textchronologien als potenzielle PWMI-Ereignisse.
Wir haben einen zweiteiligen Systemworkflow vorgeschlagen, der Inferenz und MLOps umfasst, um diesen Prozess zu rationalisieren. Der Inferenzteil verarbeitete akkumulierte Anrufprotokolleinträge und klassifizierte Ereignisse vor, während der MLOps-Teil Vorhersagen mit dem Gold-Label verglich und die Modellleistung maß. Wenn die Leistung unter einen bestimmten Schwellenwert sinkt, wird das Modell anhand der neuesten Anrufprotokolleinträge neu trainiert.
Mit Blick auf die Zukunft sehen wir Potenzial darin, die Validierung mithilfe des Personendatensatzes zu verfeinern, Textual content- und Nichttextdaten für ein robusteres Modell zu kombinieren, die Datenverarbeitungspipeline zu verbessern und von Menschen kommentierte Daten für eine höhere Genauigkeit einzubeziehen. Letztendlich verdeutlicht unser Projekt das Potenzial von KI und maschinellem Lernen bei der Verbesserung der Polizeieffizienz und der Bearbeitung von PWMI-Fällen. Wir hoffen, dass unsere Ergebnisse weitere Untersuchungen auf diesem Gebiet anregen.