Erfolgreiche Steuerung des Kernfusionsplasmas in einem Tokamak mit Deep Reinforcement Studying
Um die globale Energiekrise zu lösen, suchen Forscher seit langem nach einer Quelle sauberer, unbegrenzter Energie. Ein Kandidat ist die Kernfusion, die Reaktion, die die Sterne des Universums antreibt. Durch das Zerschlagen und Verschmelzen von Wasserstoff, einem häufigen Bestandteil von Meerwasser, setzt der leistungsstarke Prozess riesige Energiemengen frei. Hier auf der Erde haben Wissenschaftler diese extremen Bedingungen unter anderem durch die Verwendung eines Tokamaks nachgebildet, eines donutförmigen Vakuums, das von Magnetspulen umgeben ist und dazu dient, ein Wasserstoffplasma zu enthalten, das heißer ist als der Kern der Sonne. Allerdings sind die Plasmen in diesen Maschinen von Natur aus instabil, was die Aufrechterhaltung des für die Kernfusion erforderlichen Prozesses zu einer komplexen Herausforderung macht. Beispielsweise muss ein Steuersystem die vielen Magnetspulen des Tokamaks koordinieren und die Spannung an ihnen tausende Male professional Sekunde anpassen, um sicherzustellen, dass das Plasma niemals die Wände des Gefäßes berührt, was zu Wärmeverlusten und möglicherweise zu Schäden führen würde. Um zur Lösung dieses Issues beizutragen und im Rahmen der Mission von DeepMind, die Wissenschaft voranzutreiben, haben wir mit zusammengearbeitet das Schweizer Plasmazentrum bei EPFL das erste Deep Reinforcement Studying (RL)-System zu entwickeln, um autonom herauszufinden, wie diese Spulen gesteuert und das Plasma erfolgreich in einem Tokamak gehalten werden können, und so neue Wege zur Weiterentwicklung der Kernfusionsforschung zu eröffnen.
In einem Heute in Nature veröffentlichter ArtikelWir beschreiben, wie wir Kernfusionsplasma erfolgreich steuern können, indem wir Steuerungen auf dem Tokamak mit variabler Konfiguration (TCV) in Lausanne, Schweiz, bauen und betreiben. Mithilfe einer Lernarchitektur, die Deep RL und eine simulierte Umgebung kombiniert, haben wir Controller entwickelt, die sowohl das Plasma stabil halten als auch dazu verwendet werden können, es präzise in verschiedene Formen zu formen. Diese „Plasmaskulptur“ zeigt, dass das RL-System die überhitzte Materie erfolgreich kontrolliert hat und – was wichtig ist – ermöglicht es Wissenschaftlern zu untersuchen, wie das Plasma unter verschiedenen Bedingungen reagiert, was unser Verständnis von Fusionsreaktoren verbessert.
„In den letzten zwei Jahren hat DeepMind gezeigt, dass KI das Potenzial hat, den wissenschaftlichen Fortschritt zu beschleunigen und völlig neue Forschungswege in der Biologie, Chemie, Mathematik und jetzt auch in der Physik zu eröffnen.“
Demis Hassabis, Mitbegründerin und CEO von DeepMind
Diese Arbeit ist ein weiteres eindrucksvolles Beispiel dafür, wie maschinelles Lernen und Expertengemeinschaften zusammenkommen können, um große Herausforderungen zu bewältigen und wissenschaftliche Entdeckungen zu beschleunigen. Unser Workforce arbeitet hart daran, diesen Ansatz auf so unterschiedliche Bereiche wie Quantenchemie, reine Mathematik, Materialdesign, Wettervorhersage und mehr anzuwenden, um grundlegende Probleme zu lösen und sicherzustellen, dass KI der Menschheit zugute kommt.
Lernen, wenn Daten schwer zu beschaffen sind
Die Erforschung der Kernfusion wird derzeit durch die Fähigkeit der Forscher, Experimente durchzuführen, begrenzt. Obwohl es auf der ganzen Welt Dutzende aktiver Tokamaks gibt, sind sie teure Maschinen und sehr gefragt. Beispielsweise kann TCV das Plasma in einem einzigen Experiment nur bis zu drei Sekunden lang aufrechterhalten, danach benötigt es 15 Minuten zum Abkühlen und Zurücksetzen vor dem nächsten Versuch. Darüber hinaus nutzen häufig mehrere Forschungsgruppen den Tokamak gemeinsam, was die für Experimente verfügbare Zeit zusätzlich einschränkt.
Angesichts der aktuellen Hindernisse beim Zugang zu einem Tokamak haben Forscher auf Simulatoren zurückgegriffen, um die Forschung voranzutreiben. Beispielsweise haben unsere Companion an der EPFL einen leistungsstarken Satz Simulationstools entwickelt, die die Dynamik von Tokamaks modellieren. Wir konnten diese nutzen, um unserem RL-System zu ermöglichen, die Steuerung des TCV in der Simulation zu erlernen und dann unsere Ergebnisse am realen TCV zu validieren und zu zeigen, dass wir das Plasma erfolgreich in die gewünschten Formen bringen konnten. Dies ist zwar eine kostengünstigere und bequemere Möglichkeit, unsere Controller zu schulen; Wir mussten noch viele Hürden überwinden. Plasmasimulatoren sind beispielsweise langsam und benötigen viele Stunden Computerzeit, um eine Sekunde Echtzeit zu simulieren. Darüber hinaus kann sich der Zustand von TCV von Tag zu Tag ändern, sodass wir algorithmische Verbesserungen entwickeln müssen, sowohl physische als auch simulierte, und uns an die Realitäten der {Hardware} anpassen müssen.
Erfolg durch Priorität auf Einfachheit und Flexibilität
Bestehende Plasmakontrollsysteme sind komplex und erfordern separate Controller für jede der 19 Magnetspulen des TCV. Jeder Controller verwendet Algorithmen, um die Eigenschaften des Plasmas in Echtzeit abzuschätzen und die Spannung der Magnete entsprechend anzupassen. Im Gegensatz dazu verwendet unsere Architektur ein einziges neuronales Netzwerk, um alle Spulen gleichzeitig zu steuern und automatisch direkt von Sensoren zu lernen, welche Spannungen am besten sind, um eine Plasmakonfiguration zu erreichen.
Zur Demonstration haben wir zunächst gezeigt, dass wir viele Aspekte des Plasmas mit einem einzigen Controller manipulieren können.
Im Video oben sehen wir das Plasma an der Spitze des TCV in dem Second, in dem unser System die Kontrolle übernimmt. Unser Controller formt das Plasma zunächst entsprechend der gewünschten Type, verschiebt das Plasma dann nach unten, löst es von den Wänden und hängt es auf zwei Beinen in der Mitte des Gefäßes auf. Das Plasma wird stationär gehalten, wie es zur Messung der Plasmaeigenschaften erforderlich wäre. Anschließend wird das Plasma schließlich zurück zum oberen Ende des Gefäßes gelenkt und dort sicher zerstört.
Anschließend haben wir eine Reihe von Plasmaformen entwickelt, die von Plasmaphysikern auf ihre Nützlichkeit bei der Energieerzeugung untersucht werden. Beispielsweise haben wir eine „Schneeflocken“-Type mit vielen „Beinen“ geschaffen, die dazu beitragen könnte, die Kühlkosten zu senken, indem die Abgasenergie auf verschiedene Kontaktpunkte an den Gefäßwänden verteilt wird. Wir haben auch eine Type demonstriert, die dem Vorschlag für nahe kommt ITER, der im Bau befindliche Tokamak der nächsten Era, da die EPFL Experimente durchführte, um das Verhalten von Plasmen in ITER vorherzusagen. Wir haben sogar etwas geschafft, was es bei TCV noch nie zuvor gegeben hat, indem wir ein „Tröpfchen“ stabilisiert haben, bei dem sich gleichzeitig zwei Plasmen im Gefäß befinden. Unser einziges System struggle in der Lage, Controller für all diese unterschiedlichen Bedingungen zu finden. Wir haben einfach das gewünschte Ziel geändert und unser Algorithmus hat selbstständig einen geeigneten Controller gefunden.

Die Zukunft der Fusion und darüber hinaus
Ähnlich den Fortschritten, die wir bei der Anwendung von KI in anderen wissenschaftlichen Bereichen gesehen haben, zeigt unsere erfolgreiche Demonstration der Tokamak-Kontrolle die Fähigkeit der KI, die Fusionswissenschaft zu beschleunigen und zu unterstützen, und wir gehen davon aus, dass der Einsatz von KI in Zukunft immer ausgefeilter wird. Diese Fähigkeit zur autonomen Erstellung von Controllern könnte genutzt werden, um neue Arten von Tokamaks zu entwerfen und gleichzeitig ihre Controller zu entwerfen. Unsere Arbeit weist auch auf eine vielversprechende Zukunft für verstärktes Lernen bei der Steuerung komplexer Maschinen hin. Es ist besonders spannend, Bereiche in Betracht zu ziehen, in denen KI das menschliche Fachwissen erweitern und als Werkzeug zur Entdeckung neuer und kreativer Ansätze für schwierige Probleme der realen Welt dienen könnte. Wir gehen davon aus, dass Reinforcement Studying in den kommenden Jahren eine transformative Technologie für industrielle und wissenschaftliche Steuerungsanwendungen sein wird, mit Anwendungen, die von der Energieeffizienz bis zur personalisierten Medizin reichen.