Künstliche Intelligenz (KI) hat sich in zahlreichen Branchen zu einer bedeutenden disruptiven Kraft entwickelt, von der Funktionsweise von Technologieunternehmen bis hin zur Erschließung von Innovationen in verschiedenen Teilbereichen des Gesundheitssektors. Insbesondere der biomedizinische Bereich hat mit der Einführung der KI erhebliche Fortschritte und Veränderungen erlebt. Ein solcher bemerkenswerter Fortschritt lässt sich auf die Verwendung selbstüberwachter Seh-Sprach-Modelle in der Radiologie reduzieren. Radiologen verlassen sich in hohem Maße auf radiologische Berichte, um bildgebende Beobachtungen zu übermitteln und klinische Diagnosen zu stellen. Bemerkenswert ist, dass vorherige bildgebende Untersuchungen bei diesem Entscheidungsprozess häufig eine Schlüsselrolle spielen, da sie einen entscheidenden Kontext für die Beurteilung des Krankheitsverlaufs und die Festlegung geeigneter Medikamentenoptionen liefern. Aktuelle KI-Lösungen in der Marke können jedoch aufgrund des eingeschränkten Zugriffs auf frühere Scans Bilder nicht erfolgreich mit Berichtsdaten abgleichen. Darüber hinaus berücksichtigen diese Methoden häufig nicht die chronologische Entwicklung von Krankheiten oder bildgebende Befunde, die typischerweise in biologischen Datensätzen vorhanden sind. Dieser Mangel an Kontextinformationen birgt Risiken in nachgelagerten Anwendungen wie der automatisierten Berichterstellung, bei denen Modelle ohne Zugriff auf frühere medizinische Scans möglicherweise ungenaue zeitliche Inhalte generieren.
Mit der Einführung von Imaginative and prescient-Sprach-Modellen zielen Forscher darauf ab, mithilfe von Bild-Textual content-Paaren informative Trainingssignale zu generieren und so die Notwendigkeit manueller Beschriftungen zu beseitigen. Durch diesen Ansatz können die Modelle lernen, Entdeckungen in den Bildern präzise zu identifizieren und zu lokalisieren sowie Verbindungen zu den in radiologischen Berichten dargestellten Informationen herzustellen. Microsoft Analysis hat kontinuierlich daran gearbeitet, die KI für die Berichterstattung und Radiographie zu verbessern. Ihre frühere Forschung zum multimodalen selbstüberwachten Lernen von radiologischen Berichten und Bildern hat zu ermutigenden Ergebnissen bei der Identifizierung medizinischer Probleme und der Lokalisierung dieser Ergebnisse in den Bildern geführt. Als Beitrag zu dieser Forschungswelle veröffentlichte Microsoft BioViL-T, ein selbstüberwachtes Trainingsframework, das frühere Bilder und Berichte berücksichtigt, wenn sie während des Trainings und der Feinabstimmung verfügbar sind. BioViL-T erzielt bahnbrechende Ergebnisse bei verschiedenen nachgelagerten Benchmarks, wie z. B. der Fortschrittsklassifizierung und der Berichterstellung, indem es die vorhandene zeitliche Struktur in Datensätzen nutzt. Die Studie wird 2023 auf der renommierten Pc Imaginative and prescient and Sample Recognition Convention (CVPR) vorgestellt.
Das Unterscheidungsmerkmal von BioViL-T liegt in der expliziten Berücksichtigung vorheriger Bilder und Berichte während des Trainings und der Feinabstimmungsprozesse, anstatt jedes Bild-Bericht-Paar als separate Einheit zu behandeln. Der Grundgedanke der Forscher bei der Einbeziehung früherer Bilder und Berichte bestand in erster Linie darin, die Nutzung der verfügbaren Daten zu maximieren, was zu umfassenderen Darstellungen und einer verbesserten Leistung bei einem breiteren Aufgabenspektrum führte. BioViL-T stellt einen einzigartigen CNN-Transformer-Multibild-Encoder vor, der gemeinsam mit einem Textmodell trainiert wird. Dieser neuartige Multibild-Encoder dient als grundlegender Baustein des Pre-Coaching-Frameworks und bewältigt Herausforderungen wie das Fehlen vorheriger Bilder und Posenschwankungen in Bildern im Laufe der Zeit.
Zur Erstellung des hybriden Multibild-Encoders zum Extrahieren räumlich-zeitlicher Merkmale aus Bildsequenzen wurden ein CNN- und ein Transformatormodell ausgewählt. Wenn frühere Bilder verfügbar sind, ist der Transformator für die Erfassung der Patch-Einbettungsinteraktionen im Zeitverlauf zuständig. Auf der anderen Seite geht es bei CNN darum, visuelle Token-Eigenschaften einzelner Bilder bereitzustellen. Dieser hybride Bildencoder verbessert die Dateneffizienz und eignet sich daher für Datensätze noch kleinerer Größe. Es erfasst effizient statische und zeitliche Bildeigenschaften, was für Anwendungen wie die Decodierung von Berichten, die über einen längeren Zeitraum hinweg eine dichte visuelle Argumentation erfordern, von entscheidender Bedeutung ist. Das Vortrainingsverfahren des BioViL-T-Modells kann in zwei Hauptkomponenten unterteilt werden: einen Mehrbild-Encoder zum Extrahieren räumlich-zeitlicher Merkmale und einen Textual content-Encoder, der optionale Queraufmerksamkeit mit Bildmerkmalen einbezieht. Diese Modelle werden gemeinsam unter Verwendung modalübergreifender globaler und lokaler Kontrastziele trainiert. Das Modell nutzt auch multimodale Fusionsdarstellungen, die durch Kreuzaufmerksamkeit für die bildgesteuerte maskierte Sprachmodellierung gewonnen werden, und nutzt so visuelle und textliche Informationen effektiv. Dies spielt eine zentrale Rolle bei der Lösung von Unklarheiten und der Verbesserung des Sprachverständnisses, was für eine Vielzahl nachgelagerter Aufgaben von größter Bedeutung ist.
Der Erfolg der Strategie der Microsoft-Forscher wurde durch eine Vielzahl experimenteller Auswertungen unterstützt, die sie durchführten. Das Modell erreicht modernste Leistung für eine Vielzahl nachgelagerter Aufgaben wie Fortschrittskategorisierung, Phrasenerdung und Berichtserstellung in Einzel- und Mehrbildkonfigurationen. Darüber hinaus verbessert es sich gegenüber früheren Modellen und liefert beachtliche Ergebnisse bei Aufgaben wie der Klassifizierung von Krankheiten und der Satzähnlichkeit. Microsoft Analysis hat das Modell und den Quellcode der Öffentlichkeit zugänglich gemacht, um die Group zu ermutigen, ihre Arbeit weiter zu untersuchen. Ein brandneuer multimodaler zeitlicher Benchmark-Datensatz namens MS-CXR-T wird von den Forschern ebenfalls veröffentlicht, um weitere Forschung zur Quantifizierung anzuregen, wie intestine visuelle Sprachdarstellungen zeitliche Semantik erfassen können.
Besuche die Papier Und Microsoft-Artikel. Vergessen Sie nicht, mitzumachen unser 23k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
Empfohlene Instruments Aus AI Tools Club
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Khushboo Gupta ist Beratungspraktikant bei MarktechPost. Derzeit absolviert sie ihren B.Tech am Indian Institute of Know-how (IIT) in Goa. Ihre Leidenschaft gilt den Bereichen maschinelles Lernen, Verarbeitung natürlicher Sprache und Webentwicklung. Es macht ihr Spaß, mehr über den technischen Bereich zu lernen, indem sie an verschiedenen Herausforderungen teilnimmt.