Es gibt viele Potenziale für generative Konversations-KI, um Medizinern zu helfen, aber bisher konzentrierte sich die Forschung nur auf Textual content. Während die Fortschritte in der multimodalen Konversations-KI aufgrund von Milliarden öffentlich zugänglicher Bild-Textual content-Paarungen schnell voranschreiten, erfordern solche Imaginative and prescient-Sprach-Modelle im allgemeinen Bereich immer noch mehr Komplexität bei der Interpretation und dem Chatten über biologische Bilder. Das Forschungsteam von Microsoft schlägt eine Methode mit geringem Aufwand vor, um einem Sprachassistenten beizubringen, auf Freiformanfragen zu biomedizinischen Bildern zu antworten. Das Workforce schlägt einen neuartigen Lehrplan-Lernansatz zur Feinabstimmung eines großen, allgemeinen visuellen Sprachmodells unter Verwendung eines groß angelegten, breit angelegten biomedizinischen Bildunterschriften-Datensatzes vor, der aus PubMed Central und GPT-4 extrahiert wurde, um das Öffnen selbst zu erlernen -endete Anweisungsfolgedaten aus den Bildunterschriften.
Das Modell ahmt den fortschreitenden Prozess nach, durch den ein Laie biologisches Wissen erlangt, indem er zunächst lernt, das biomedizinische Vokabular unter Verwendung der Abbildungs-Bildunterschrift-Paare so auszurichten, wie es ist, und dann lernt, offene Konversationssemantik mithilfe von GPT-4 generierten Anweisungsfolgedaten zu beherrschen. In weniger als 15 Stunden (mit acht A100) können Forscher einen Massive Language and Imaginative and prescient Assistant for BioMedicine (LLaVA-Med) ausbilden. Mit seiner multimodalen Konversationsfähigkeit und der Fähigkeit, frei formulierten Anweisungen zu folgen, ist LLaVA-Med intestine geeignet, Fragen zu biologischen Bildern zu beantworten. Das fein abgestimmte LLaVA-Med erreicht Spitzenleistungen bei drei Benchmark-Datensätzen zur biomedizinischen visuellen Frage-Antwort-Beantwortung. Die Daten darüber, wie intestine Menschen Anweisungen befolgen, und das LLaVA-Med-Modell werden veröffentlicht, um die multimodale Forschung in der Biomedizin voranzutreiben.
Die wichtigsten Beiträge des Groups lassen sich wie folgt zusammenfassen:
- Statistiken zur Compliance multimodaler medizinischer Schulungen. Indem sie biomedizinische Bild-Textual content-Paare aus PMC-15M auswählen und GPT-4 ausführen, um Anweisungen allein aus dem Textual content zu generieren, beschreiben sie eine einzigartige Datenerstellungspipeline zur Generierung verschiedener (Bild, Anweisung, Ausgabe) Instanzen.
- LLaVA-Med. Mithilfe des selbst generierten biomedizinischen multimodalen Datensatzes zur Anweisungsbefolgung bieten sie eine neuartige Lehrplan-Lernmethode zur Anpassung von LLaVA an den biomedizinischen Bereich.
- Open Supply. Der biomedizinische multimodale Befehlsfolgedatensatz und die Software program für die Datengenerierung und das Modelltraining werden öffentlich zugänglich sein, um weitere Studien zum biomedizinischen multimodalen Lernen zu fördern.
Die Wirksamkeit von LLaVA-Med und die Genauigkeit der gewonnenen multimodalen biomedizinischen Instruktionsfolgedaten standen im Mittelpunkt der Untersuchungen des Groups. Forscher betrachten zwei verschiedene Kontexte für die Bewertung von Forschung:
- Wie effektiv ist LLaVA-Med als universeller biomedizinischer visueller Chatbot?
- Wie schneidet LLaVA-Med im Vergleich zu den modernsten Methoden bei Branchen-Benchmarks ab?
Das Workforce schlägt zunächst eine neuartige Datengenerierungspipeline vor, die 600.000 Bild-Textual content-Paare von PMC-15M abtastet, verschiedene Daten zur Befehlsfolge über GPT-4 kuratiert und die erstellten Anweisungen an das Modell anpasst, um das Drawback des Mangels an Multi-Daten zu lösen. Modale biomedizinische Datensätze zur Schulung eines Assistenten zur Befolgung von Anweisungen.
Anschließend stellen die Forscher eine neue Methode zur Vermittlung des Lehrplans von LLaVA-Med vor. Konkret trainieren sie das multimodale Gesprächsmodell von LLaVA in weiten Bereichen und verlagern ihren Schwerpunkt schrittweise auf den biomedizinischen Bereich. Der Trainingsprozess besteht aus zwei Phasen:
- Die Spezifikation einer biomedizinischen Idee. Die Worteinbettung ist auf die relevanten Bildattribute einer großen Anzahl innovativer biologischer visueller Konzepte abgestimmt.
- Mit seinem fein abgestimmten Modell, das auf biomedizinischen Sprach-Bild-Anweisungen basiert, zeigt LLaVA-Med beeindruckende Aufgabenübertragungsfähigkeiten ohne Schuss und erleichtert eine natürliche Benutzerinteraktion.
Etwas zusammenfassen
Das Forschungsteam von Microsoft stellt LLaVA-Med bereit, ein großes Sprach- und Sehmodell für den biomedizinischen Bereich. Sie verwenden eine Selbstanweisungsstrategie, um eine Datenkurationspipeline mit rein sprachlichem GPT-4 und externem Wissen aufzubauen. Anschließend trainieren sie das Modell anhand eines hochwertigen biomedizinischen Sprach-Bild-Anweisungsfolge-Datensatzes. LLaVA-Med übertrifft das zuvor überwachte SoTA bei drei VQA-Datensätzen zu spezifischen Maßnahmen nach der Feinabstimmung und demonstriert hervorragende Konversationsfähigkeiten mit Domänenwissen. Während LLaVA-Med ein großer Schritt in die richtige Richtung ist, erkennen sie auch, dass es Halluzinationen und einen Mangel an Argumentationstiefe mit sich bringt, die viele LMMs plagen. Zukünftige Initiativen werden darauf abzielen, die Dinge zuverlässiger und hochwertiger zu machen.
Besuche die Papier Und Github. Vergessen Sie nicht, mitzumachen unser 23k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Dhanshree Shenwai ist Informatikingenieur und verfügt über gute Erfahrung in FinTech-Unternehmen in den Bereichen Finanzen, Karten & Zahlungen und Bankwesen mit großem Interesse an Anwendungen von KI. Sie ist begeistert davon, neue Technologien und Fortschritte in der sich entwickelnden Welt von heute zu erforschen, um das Leben aller einfacher zu machen.