Die Herausforderung, zu verstehen, wie unser Gehirn funktioniert, fasziniert uns schon seit langem. Das Gebiet der Neurowissenschaften hat sich stark weiterentwickelt, aber es mangelt uns immer noch an fundierten Informationen darüber, wie unser Gehirn im Element funktioniert. Wir arbeiten hart daran, es herauszufinden, aber wir haben noch einen langen Weg vor uns.
Ein Thema, mit dem sich die Neurowissenschaften beschäftigten, conflict die Entschlüsselung des komplexen Zusammenhangs zwischen Gehirnaktivität und kognitiven Zuständen. Ein tieferes Verständnis darüber, wie Umwelteinflüsse in neuronale Prozesse kodiert werden, birgt großes Potenzial für die Erweiterung unseres Wissens über das Gehirn und seine Mechanismen. Jüngste Fortschritte bei rechnerischen Ansätzen haben neue Möglichkeiten zur Lösung dieser Rätsel eröffnet, wobei sich die funktionelle Magnetresonanztomographie (fMRT) als leistungsstarkes Werkzeug in diesem Bereich herausstellt. Durch die Erkennung von Veränderungen im Blutsauerstoffgehalt ermöglicht fMRI die Messung neuronaler Aktivität und hat bereits Anwendungen in klinischen Echtzeitumgebungen gefunden.
Eine besonders vielversprechende Anwendung der fMRT ist ihr Potenzial zum Gedankenlesen in Gehirn-Laptop-Schnittstellen. Durch die Entschlüsselung neuronaler Aktivitätsmuster wird es möglich, Informationen über den mentalen Zustand einer Individual abzuleiten und sogar Bilder aus ihrer Gehirnaktivität zu rekonstruieren. Frühere Studien in diesem Bereich verwendeten überwiegend einfache Kartierungen wie die Ridge-Regression, um die fMRT-Aktivität mit Bilderzeugungsmodellen in Beziehung zu setzen.
Wie in allen anderen Bereichen hat das Aufkommen erfolgreicher KI-Modelle jedoch zu enormen Fortschritten bei der Rekonstruktion von Gehirnbildern geführt. Wir haben gesehen einige Methoden die versuchen, mithilfe von fMRT-Scans und Diffusionsmodellen zu rekonstruieren, was wir gesehen haben. Heute können wir über eine weitere Methode sprechen, die versucht, die Dekodierung von Gehirnscans mithilfe von KI-Modellen in Angriff zu nehmen. Zeit zum Treffen MindEye.
MindEye zielt darauf ab, Umwelteinflüsse und kognitive Zustände aus der Gehirnaktivität zu entschlüsseln. Mithilfe einer Kombination aus groß angelegten MLPs, kontrastivem Lernen und Diffusionsmodellen ordnet es die fMRT-Aktivität dem bildeinbettenden latenten Raum eines vorab trainierten CLIP-Modells zu. Das Modell besteht aus zwei Pipelines: einer Excessive-Stage-Pipeline (semantische Pipeline) und einer Low-Stage-Pipeline (Wahrnehmungspipeline).
In der Excessive-Stage-Pipeline werden fMRI-Voxel dem CLIP-Bildraum zugeordnet, der eher semantischer Natur ist. Anschließend wird kontrastives Lernen verwendet, um das Modell zu trainieren und fMRT als zusätzliche Modalität in den Einbettungsraum des vorab trainierten CLIP-Modells einzuführen. Zur Verbesserung der Modellleistung wird eine bidirektionale Model der kontrastiven Mixup-Datenerweiterung verwendet.
Die Low-Stage-Pipeline hingegen ordnet fMRI-Voxel dem Einbettungsraum des Variational Autoencoder (VAE) von Steady Diffusion zu. Die Ausgabe dieser Pipeline kann zur Rekonstruktion verschwommener Bilder verwendet werden, die hochmoderne Bildmetriken auf niedriger Ebene aufweisen. Da die Ausgabe nicht von hoher Qualität ist, wird am Ende die Methode img2img verwendet, um die Bildrekonstruktionen weiter zu verbessern und gleichzeitig Metriken auf hoher Ebene beizubehalten.
MindEye erzielt modernste Ergebnisse sowohl bei der Bildrekonstruktion als auch bei der Bildwiederherstellung. Es erzeugt hochwertige Rekonstruktionen, die den Low-Stage-Merkmalen der Originalbilder entsprechen und eine gute Leistung bei Low- und Excessive-Stage-Bildmetriken erbringen. Die disjunkten CLIP-fMRI-Einbettungen, die von erhalten wurden MindEye zeigen auch hervorragende Leistungen bei Bild- und Gehirnabrufaufgaben.
Besuche die Papier Und Code. Vergessen Sie nicht, mitzumachen unser 23k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Ekrem Çetinkaya erhielt seinen B.Sc. im Jahr 2018 und M.Sc. im Jahr 2019 von der Ozyegin-Universität, Istanbul, Türkiye. Er schrieb seinen M.Sc. Diplomarbeit über Bildrauschen mithilfe tiefer Faltungsnetzwerke. Er erhielt seinen Ph.D. Abschluss im Jahr 2023 an der Universität Klagenfurt, Österreich, mit seiner Dissertation mit dem Titel „Video Coding Enhancements for HTTP Adaptive Streaming Utilizing Machine Studying“. Seine Forschungsinteressen umfassen Deep Studying, Laptop Imaginative and prescient, Videokodierung und Multimedia-Netzwerke.