Infrastrukturherausforderungen: Maschinelles Lernen in der Cloud als zukunftsorientierte Lösung mithilfe der britischen Biobank | von DNAnexus | DNAnexus Science Frontiers | Juni 2023

0
29


Ondrej Klempir, Ph.D., Sr. Group Engagement Scientist, DNAnexus & Ben Busby, PhD, leitender Wissenschaftler, DNAnexus

Ich werde zu einem beitragen Panel und eine Emerging-Session auf der diesjährigen Jahrestagung der Organisation für Human Brain Mapping im Juli in Montreal. Bei der Vorbereitung dieser Sitzung wurde ich daran erinnert, dass ich eine kurze Zusammenfassung meiner Präsentation vom letztjährigen Treffen zusammenstellen wollte, in der Hoffnung, das Bewusstsein für die vielen Möglichkeiten zu schärfen, die sich daraus ergeben UKB-RAP präsentiert maschinelles Lernen mit (Neuro-)Bildgebungsdaten.

Herausforderungen und Lösungen für die Arbeit mit maschinellem Lernen und KI für biomedizinische Daten

Der Einsatz fortschrittlicher Analysetechniken wie Deep Studying und maschinelles Lernen verspricht, die Genauigkeit und Effizienz von Bildanalysealgorithmen zu verbessern und letztendlich eine frühere und effektivere Diagnose und Behandlung von Krankheiten zu ermöglichen. Die Arbeit mit maschinellem Lernen oder KI für biomedizinische Daten birgt jedoch einige Herausforderungen, und diese Herausforderungen können bei der Arbeit mit Neuroimaging-Daten noch ausgeprägter sein.

Die erste Herausforderung ist einfach der Zugriff/die Verfügbarkeit von Daten. Jeder Wissenschaftler wird Ihnen sagen, dass unabhängig von der experimentellen Anwendung immer eine Menge hochwertiger Daten benötigt wird. Diese Anforderung gilt jedoch insbesondere, wenn computergestützte Techniken eingesetzt werden sollen. Fortgeschrittene Algorithmen für maschinelles Lernen funktionieren am besten, wenn sie Tausende, wenn nicht Millionen von Datenpunkten nutzen. Diese Daten müssen mit anderen Teilnehmerinformationen (insbesondere phänotypischen Daten) und standardisierten Metadaten abgeglichen werden, um für die meisten Anwendungen nützlich zu sein. Leider stehen bei der Untersuchung menschlicher Probanden nur selten solche Datenmengen (insbesondere Bilddaten) zur Verfügung.

Glücklicherweise verfügt die UK Biobank über eine umfangreiche Sammlung biomedizinischer Daten von mehr als 500.000 Menschen aus ganz Großbritannien und umfasst eine Vielzahl von Bilddatentypen (z. B. Gehirn, Herz, ganzer Körper, Auge usw.). Darüber hinaus wurden viele der Bildsammlungen in der Biobank durch standardisierte Verarbeitungspipelines (z. B. einschließlich Qualitätskontrolle, Vorverarbeitung wie Filterung und Bildsegmentierung) in eine Kind von Picture Derived Phenotypes (IDPs) vorverarbeitet, die als verwendet werden können die Eingaben für das Coaching von Modellen für maschinelles Lernen. Als Referenz und detaillierte Erklärung dessen, was IDP ist, haben wir in unseren beiden Webinaren „Bildanalyse auf der UK Biobank Analysis Evaluation Platform (UKB-RAP)“ eine Einführung in IDPs gegeben:

[https://www.youtube.com/watch?v=d6uEl4U8NEM]

[https://www.youtube.com/watch?v=BMAgenSxF_o].

Für diejenigen, die sich speziell für Alterungs- oder andere Gehirnforschung interessieren: Die britische Biobank hat bisher über 50.000 Teilnehmer für Neuroimaging gescannt. Rohbilder wie Magnetresonanztomographie (MRT) für das Gehirn oder PNG-Dateien für die optische Kohärenztomographie können direkt in Modelle für maschinelles Lernen eingespeist werden. Darüber hinaus umfassen die phänotypischen Daten der britischen Biobank eine Reihe von Umwelt-, zusammenfassenden Diagnose-, physiologischen und kognitiven Testdaten, einschließlich Informationen zur Internationalen Klassifikation von Krankheiten (ICD), die für diejenigen von Nutzen sein können, die mit bestimmten Kohorten arbeiten oder Daten analysieren möchten eine bestimmte Krankheit von Interesse.

Eine weitere Herausforderung beim Einsatz von KI-Techniken für die biomedizinische Forschung ist die wissenschaftliche Zusammenarbeit und die sichere Speicherung von Daten. Für die sichere Speicherung und den sicheren Zugriff hat die UK Biobank uns bei DNAnexus ausgewählt, um das bereitzustellen Britische Biobank-Forschungsanalyseplattform für Forschende (UKB-RAP). UKB-RAP ist eine sichere Forschungsumgebung, die den Forscher zu den Daten bringt und den Datenzugriff und die Rechenleistung geprüften und autorisierten Forschern allgemein zugänglich macht.

Um zu veranschaulichen, wie ein Datenwissenschaftler für maschinelles Lernen UKB-RAP verwenden könnte, um Modelle auf bildabgeleiteten Phänotypen zu trainieren, während er mit Genomwissenschaftlerkollegen zusammenarbeitet, werde ich ein Beispiel für die Analyse bildabgeleiteter Phänotypen mit dem DNAnexus Cohort Browser und JupyterLab innerhalb von UKB-RAP liefern.

Trainingsmodelle für bildbasierte Phänotypen

In diesem Beispiel wurden die Bilddaten des Gehirns bereits mithilfe spezifischer Neuroimaging-Pipelines vorverarbeitet [https://doi.org/10.1016/j.neuroimage.2017.10.034] Und jetzt ist es an der Zeit, diese Daten der britischen Biobank mit krankheitsspezifischen Forschern oder Kollegen von Genomwissenschaftlern zu teilen. Dazu werden die Daten in die UKB-RAP-Datenbank aufgenommen, sodass meine Kollegen die Daten über den Kohortenbrowser erkunden können [https://dnanexus.gitbook.io/uk-biobank-rap/getting-started/working-with-ukb-data#browsing-dataset-fields-using-the-cohort-browser]. Meine Genomwissenschaftler oder krankheitsspezifischen Forscherkollegen können dieses Instrument dann verwenden, um Kohorten basierend auf der Quantifizierung von Gewebemodellen zu erstellen. Diese definierten Kohorten können dann in die Algorithmen des maschinellen Lernens eingespeist werden oder für genom-/phänomenweite Assoziationsstudien verwendet werden.

Die folgende Abbildung (Abbildung 1) ist ein Screenshot der Daten, nachdem sie in den UKB-RAP-Kohortenbrowser geladen wurden. Wir können eine Liste spezifischer Volumina oder extrahierter Daten aus den spezifischen Gehirnregionen sehen. Basierend auf diesen Feldern können wir dann Kohorten erstellen und durch die Anwendung von Filtern bestimmte Teilnehmer auswählen. Auch Informationen zu den Datenfeldern können visualisiert werden.

ABBILDUNG 1.

Screenshot der in den UKB-RAP-Kohortenbrowser geladenen Daten. Filterfelder werden ausgewählt und oben angezeigt. Eine vollständige Liste der Daten aus bestimmten Gehirnregionen wird zusammen mit Particulars zu Datenfeldern und einer Vorschau der Daten angezeigt.

ABBILDUNG 1. Screenshot der in den UKB-RAP-Kohortenbrowser geladenen Daten.  Filterfelder werden ausgewählt und oben angezeigt.  Eine vollständige Liste der Daten aus bestimmten Gehirnregionen wird zusammen mit Details zu Datenfeldern und einer Vorschau der Daten angezeigt.

Wenn die Filterung aktiv ist, können wir einige einfache Diagramme erstellen und unsere Daten visuell untersuchen. Wir können beispielsweise ein Streudiagramm erstellen und mögliche Korrelationen in den Daten bewerten. Ein Beispieldiagramm ist in Abbildung 2 dargestellt.

FIGUR 2.

Beispiel-Streudiagramm mit Daten von 46392 Personen.

Die UK Biobank enthält nicht nur, wie oben erwähnt, Informationen über gesunde Personen, sondern auch eine Reihe von Diagnosedaten, die nach ICD-Codes klassifiziert sind. Mithilfe dieser Informationen können wir uns auf eine bestimmte Krankheitskategorie wie Demenz und Alzheimer konzentrieren und die spezifische Kohorte der Teilnehmer untersuchen (Abbildung 3).

FIGUR 3.

Der Kohorten-Browser ermöglicht die Erstellung von Kohorten für bestimmte ICD10-Krankheitskategorien.

Um einige Experimente zum maschinellen Lernen mit dem Datensatz durchzuführen, haben wir beschlossen, ein Proof-of-Idea-Modell zu trainieren, um das Alter basierend auf mehreren Merkmalen des Gehirnvolumens vorherzusagen. Die Vorhersage des Gehirnalters ist klinisch wichtig und mehrere neuere Studien verwendeten Gehirnbilddaten der UK Biobank, um Gehirnaltersmodelle zu entwickeln und verschiedene altersbezogene Hypothesen zu testen, um nur einige zu nennen [https://elifesciences.org/articles/81067, https://onlinelibrary.wiley.com/doi/full/10.1002/hbm.25368, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7280786/, https://elifesciences.org/articles/52677, https://pubmed.ncbi.nlm.nih.gov/31201988/].

In diesem Experiment konzentrierten wir uns auf zufällig ausgewählte 3.000 Teilnehmer mit vollständigen verfügbaren Informationen zur Bildgebung des Gehirns und bewerteten unsere Modelle mithilfe einer 10-fachen Kreuzvalidierung. Unser Modell wurde anhand einer Liste vorab ausgewählter Phänotypdaten aus der Neurobildgebung trainiert, die im Tabellenformat vorliegen. Wir haben Kohorten programmgesteuert in JupyterLab™ definiert [https://dnanexus.gitbook.io/uk-biobank-rap/working-on-the-research-analysis-platform/using-spark-to-analyze-tabular-data]. Für die Modellierungsphase haben wir das LASSO-Modell von scikit-learn verwendet. Um die Leistung unseres Modells zu messen, wurden die folgenden Metriken berechnet: Pearson-Korrelationskoeffizient, r-Quadrat-Metrik und mittlerer absoluter Fehler. Wir haben kein Hyperparameter-Tuning durchgeführt. Aus Gründen der Reproduzierbarkeit haben wir dann die gesamte Berechnungsumgebung (Pocket book + trainiertes Modell + geladene Bibliotheken) im permanenten Projektspeicher im UKB-RAP gespeichert.

Jetzt sind wir bereit, uns einige Pilotergebnisse anzusehen. Zunächst betrachten wir die Daten in Tabellenform und erhalten Korrelationen ausgewählter einzelner Neuroimaging-Merkmale mit dem Alter (Abbildung 4). Wir haben auch Diagramme erstellt, die die Ergebnisse unseres trainierten Modells zeigen. In Abbildung 5 haben wir die Daten zunächst in zwei Dimensionen reduziert und ein Diagramm der Hauptkomponentenanalyse (PCA) untersucht. In Abbildung 6 können wir schließlich die Leistung des trainierten LASSO-Regressionsmodells zur Vorhersage des Alters anhand des Gehirnvolumens sehen.

FIGUR 4.

Eine Tabellenansicht der Korrelationen einzelner Gehirnvolumenmerkmale mit dem Alter bei der Rekrutierung

ABBILDUNG 5

Diagramm der Hauptkomponentenanalyse. Einzelne Datenpunkte sind bei der Einstellung nach Alter gefärbt.

ABBILDUNG 6.

Modellleistung bei Testdaten. Jede einzelne Farbe im Diagramm stellt einen Kreuzvalidierungslauf dar.

Zusammenfassung

Ich hoffe, dass Ihnen dieses kurze Beispiel einen Eindruck davon vermittelt hat, was im Hinblick auf maschinelles Lernen unter Verwendung von UKB-RAP-Bildgebungsdaten möglich ist und wie die Plattform es Benutzern ermöglicht, Modelle in einer sicheren und reproduzierbaren Umgebung bereitzustellen. Weitere Informationen zu maschinellem Lernen und KI in UKB-RAP oder DNAnexus finden Sie im Bereich „Bildgebung“ unserer Community-Portal

Danksagungen

Die vorgestellten Materialien wurden unter Verwendung der UK Biobank-Antragsnummern 46926 und 82561 erstellt, und wir danken den Teilnehmern der UK Biobank-Bildgebungsstudie. Dieses Projekt wäre ohne das großartige und unterstützende DNAnexus-Marketingteam und das Biobank-Group-Workforce unter der Leitung von Asha Collins, PhD, und Chai Fungtammasan, PhD, nicht möglich gewesen.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here