banner
Heim / Nachricht / Magnetische Kontrolle von Tokamak-Plasmen durch tiefes Verstärkungslernen
Nachricht

Magnetische Kontrolle von Tokamak-Plasmen durch tiefes Verstärkungslernen

Dec 21, 2023Dec 21, 2023

Nature Band 602, Seiten 414–419 (2022)Diesen Artikel zitieren

182.000 Zugriffe

131 Zitate

2389 Altmetrisch

Details zu den Metriken

Die Kernfusion mittels magnetischem Einschluss, insbesondere in der Tokamak-Konfiguration, ist ein vielversprechender Weg zu nachhaltiger Energie. Eine zentrale Herausforderung besteht darin, ein Hochtemperaturplasma im Tokamak-Gefäß zu formen und aufrechtzuerhalten. Dies erfordert eine hochdimensionale Hochfrequenz-Regelung mit magnetischen Aktuatorspulen, was durch die unterschiedlichen Anforderungen in einem breiten Spektrum von Plasmakonfigurationen noch komplizierter wird. In dieser Arbeit stellen wir eine bisher unbeschriebene Architektur für den Entwurf magnetischer Tokamak-Controller vor, die autonom lernt, den gesamten Satz von Steuerspulen zu steuern. Diese Architektur erfüllt auf hohem Niveau spezifizierte Kontrollziele und erfüllt gleichzeitig physische und betriebliche Einschränkungen. Dieser Ansatz bietet eine beispiellose Flexibilität und Allgemeingültigkeit bei der Problemspezifikation und führt zu einer deutlichen Reduzierung des Designaufwands zur Herstellung neuer Plasmakonfigurationen. Wir produzieren und steuern erfolgreich eine Vielzahl von Plasmakonfigurationen auf dem Tokamak à Configuration Variable1,2, einschließlich länglicher, konventioneller Formen sowie erweiterter Konfigurationen wie negativer Dreieckigkeit und „Schneeflocken“-Konfigurationen. Unser Ansatz ermöglicht eine genaue Verfolgung des Standorts, der Strömung und der Form dieser Konfigurationen. Wir demonstrieren auch anhaltende „Tröpfchen“ auf TCV, bei denen zwei separate Plasmen gleichzeitig im Gefäß aufrechterhalten werden. Dies stellt einen bemerkenswerten Fortschritt für die Tokamak-Rückkopplungssteuerung dar und zeigt das Potenzial des Reinforcement Learning zur Beschleunigung der Forschung im Fusionsbereich. Es handelt sich um eines der anspruchsvollsten realen Systeme, auf die Reinforcement Learning angewendet wurde.

Tokamaks sind torusförmige Geräte für die Kernfusionsforschung und ein Spitzenkandidat für die Erzeugung nachhaltiger elektrischer Energie. Eine Hauptrichtung der Forschung besteht darin, die Auswirkungen der Formung der Verteilung des Plasmas in verschiedene Konfigurationen3,4,5 zu untersuchen, um die Stabilität, den Einschluss und die Energieabgabe zu optimieren und insbesondere als Grundlage für das erste Experiment mit brennendem Plasma, ITER, zu dienen. Um jede Konfiguration innerhalb des Tokamaks einzuschränken, muss ein Rückkopplungsregler entworfen werden, der das Magnetfeld6 durch präzise Steuerung mehrerer magnetisch mit dem Plasma gekoppelter Spulen manipulieren kann, um den gewünschten Plasmastrom, die gewünschte Position und Form zu erreichen. Dieses Problem wird als Tokamak-Magnetsteuerungsproblem bezeichnet .

Der herkömmliche Ansatz für dieses zeitveränderliche, nichtlineare, multivariate Steuerungsproblem besteht darin, zunächst ein inverses Problem zu lösen, um einen Satz vorwärtsgerichteter Spulenströme und -spannungen vorab zu berechnen7,8. Dann wird eine Reihe unabhängiger PID-Regler mit einem Eingang und einem Ausgang entwickelt, um die vertikale Position des Plasmas zu stabilisieren und die radiale Position und den Plasmastrom zu steuern, die alle so ausgelegt sein müssen, dass sie sich nicht gegenseitig stören6. Die meisten Steuerungsarchitekturen werden zusätzlich durch einen äußeren Regelkreis für die Plasmaform ergänzt, der die Implementierung einer Echtzeitschätzung des Plasmagleichgewichts9,10 zur Modulation der Feedforward-Spulenströme8 beinhaltet. Die Regler werden auf der Grundlage linearisierter Modelldynamik entworfen und eine Verstärkungsplanung ist erforderlich, um zeitlich veränderliche Regelungsziele zu verfolgen. Obwohl diese Regler in der Regel effektiv sind, erfordern sie bei jeder Änderung der Zielplasmakonfiguration einen erheblichen technischen Aufwand, Designaufwand und Fachwissen sowie komplexe Echtzeitberechnungen zur Gleichgewichtsschätzung.

Durch die Verwendung von Reinforcement Learning (RL) zur Generierung nichtlinearer Feedback-Regler wird ein radikal neuer Ansatz für den Reglerentwurf ermöglicht. Der RL-Ansatz, der bereits in mehreren anspruchsvollen Anwendungen in anderen Bereichen erfolgreich eingesetzt wird11,12,13, ermöglicht die intuitive Festlegung von Leistungszielen und verlagert den Fokus auf das, was erreicht werden soll, und nicht darauf, wie. Darüber hinaus vereinfacht RL das Steuerungssystem erheblich. Ein einzelner rechenintensiver Controller ersetzt die verschachtelte Steuerungsarchitektur, und eine internalisierte Zustandsrekonstruktion macht eine unabhängige Gleichgewichtsrekonstruktion überflüssig. Diese kombinierten Vorteile verkürzen den Controller-Entwicklungszyklus und beschleunigen die Untersuchung alternativer Plasmakonfigurationen. Tatsächlich wurde künstliche Intelligenz kürzlich als „vorrangige Forschungsmöglichkeit“ für die Fusionskontrolle identifiziert14, aufbauend auf nachgewiesenen Erfolgen bei der Rekonstruktion von Plasmaformparametern15,16, der Beschleunigung von Simulationen mithilfe von Ersatzmodellen17,18 und der Erkennung drohender Plasmastörungen19. RL wurde jedoch nicht für den Entwurf magnetischer Steuerungen verwendet, was aufgrund hochdimensionaler Messungen und Betätigung, langer Zeithorizonte, schneller Instabilitätswachstumsraten und der Notwendigkeit, die Plasmaform durch indirekte Messungen abzuleiten, eine Herausforderung darstellt.

In dieser Arbeit stellen wir einen von RL entworfenen magnetischen Controller vor und überprüfen experimentell seine Leistung auf einem Tokamak. Die Steuerungsrichtlinien werden durch die Interaktion mit einem Tokamak-Simulator erlernt und erweisen sich als direkt in der Lage, die Tokamak-Magnetsteuerung auf Hardware durchzuführen und so die Lücke zwischen Simulation und Realität erfolgreich zu schließen. Dies ermöglicht einen grundlegenden Wandel von der ingenieurgesteuerten Steuerung eines vorab entworfenen Zustands hin zur durch künstliche Intelligenz gesteuerten Optimierung der von einem Bediener vorgegebenen Ziele. Wir demonstrieren die Wirksamkeit unserer Controller in Experimenten, die am Tokamak à Configuration Variable (TCV)1,2 durchgeführt wurden, in denen wir die Steuerung einer Vielzahl von Plasmaformen demonstrieren, darunter auch längliche, wie sie beispielsweise in ITER vorgesehen sind, sowie fortgeschrittene Konfigurationen wie negative Triangularität und „Schneeflocken“-Plasmen. Darüber hinaus demonstrieren wir eine nachhaltige Konfiguration, bei der zwei separate Plasma-„Tröpfchen“ gleichzeitig im Gefäß aufrechterhalten werden. Die Magnetsteuerung von Tokamak ist eines der komplexesten realen Systeme, auf die RL angewendet wurde. Dies ist eine vielversprechende neue Richtung für das Plasma-Controller-Design mit dem Potenzial, die Fusionswissenschaft zu beschleunigen, neue Konfigurationen zu erkunden und die zukünftige Tokamak-Entwicklung zu unterstützen.

Unsere in Abb. 1 dargestellte Architektur ist ein flexibler Ansatz für die Entwicklung von Tokamak-Controllern für den magnetischen Einschluss. Der Ansatz besteht aus drei Hauptphasen. Zunächst legt ein Designer Ziele für das Experiment fest, möglicherweise begleitet von zeitlich variierenden Kontrollzielen. Zweitens interagiert ein Deep-RL-Algorithmus mit einem Tokamak-Simulator, um eine nahezu optimale Steuerungsrichtlinie zum Erreichen der festgelegten Ziele zu finden. Drittens wird die Kontrollpolitik, dargestellt als neuronales Netzwerk, direkt („Zero Shot“) auf der Tokamak-Hardware in Echtzeit ausgeführt.

a, Darstellung der Lernschleife. Der Controller sendet Spannungsbefehle auf der Grundlage des aktuellen Plasmazustands und der Steuerziele. Diese Daten werden an den Wiedergabepuffer gesendet, der Daten an den Lernenden weiterleitet, um die Richtlinie zu aktualisieren. b, Unsere Umgebungsinteraktionsschleife, bestehend aus einem Stromversorgungsmodell, einem Erfassungsmodell, einer Variation physikalischer Umgebungsparameter und einer Belohnungsberechnung. c, Unsere Steuerungsrichtlinie ist ein MLP mit drei verborgenen Schichten, der Messungen durchführt, Ziele steuert und Spannungsbefehle ausgibt. d–f, Die Interaktion von TCV und dem in Echtzeit bereitgestellten Steuerungssystem, das entweder mithilfe eines herkömmlichen Controllers implementiert wird, der aus vielen Unterkomponenten besteht (f), oder unserer Architektur, die ein einzelnes tiefes neuronales Netzwerk verwendet, um alle 19 Spulen direkt zu steuern (e). g, Eine Darstellung des TCV und der 19 betätigten Spulen. Das Schiff ist 1,5 m hoch, hat einen kleineren Radius von 0,88 m und eine halbe Schiffsbreite von 0,26 m. h, Ein Querschnitt des Gefäßes und des Plasmas mit der Beschriftung der wichtigen Aspekte.

In der ersten Phase wird das experimentelle Ziel durch eine Reihe von Zielen spezifiziert, die eine Vielzahl gewünschter Eigenschaften enthalten können (Extended Data Table 4). Diese Eigenschaften reichen von der grundlegenden Stabilisierung der Position und des Plasmastroms bis hin zu anspruchsvollen Kombinationen mehrerer zeitlich variierender Ziele, einschließlich eines präzisen Formumrisses mit spezifizierter Elongation, Dreieckigkeit und X-Punkt-Position. Diese Ziele werden dann zu einer „Belohnungsfunktion“ zusammengefasst, die dem Zustand in jedem Zeitschritt ein skalares Qualitätsmaß zuweist. Diese Funktion bestraft auch die Kontrollrichtlinie für das Erreichen unerwünschter Endzustände, wie unten erläutert. Entscheidend ist, dass eine gut gestaltete Belohnungsfunktion nur minimal spezifiziert wird, um dem Lernalgorithmus maximale Flexibilität zu geben, um das gewünschte Ergebnis zu erzielen.

In der zweiten Phase sammelt ein leistungsstarker RL-Algorithmus Daten und findet durch Interaktion mit einer Umgebung eine Kontrollrichtlinie, wie in Abb. 1a, b dargestellt. Wir verwenden einen Simulator, der über genügend physikalische Genauigkeit verfügt, um die Entwicklung der Plasmaform und des Plasmastroms zu beschreiben, und gleichzeitig für das Lernen ausreichend rechentechnisch günstig bleibt. Insbesondere modellieren wir die Dynamik, die die Entwicklung des Plasmazustands unter dem Einfluss der poloidalen Feldspulenspannungen bestimmt, mithilfe eines Plasmaentwicklungsmodells mit freien Grenzen20. In diesem Modell entwickeln sich die Ströme in den Spulen und passiven Leitern unter dem Einfluss extern angelegter Spannungen von den Netzteilen sowie induzierter Spannungen von zeitlich veränderlichen Strömen in anderen Leitern und im Plasma selbst. Das Plasma wird wiederum durch die Grad-Shafranov-Gleichung21 modelliert, die sich aus dem Gleichgewicht zwischen der Lorentz-Kraft und dem Druckgradienten innerhalb des Plasmas auf den interessierenden Zeitskalen ergibt. Die Entwicklung des Gesamtplasmastroms Ip wird mithilfe einer konzentrierten Schaltungsgleichung modelliert. Dieser Gleichungssatz wird vom FGE-Softwarepaket22 numerisch gelöst.

Der RL-Algorithmus verwendet die gesammelten Simulatordaten, um eine nahezu optimale Richtlinie in Bezug auf die angegebene Belohnungsfunktion zu finden. Die Datenrate unseres Simulators ist aufgrund der Rechenanforderungen für die Entwicklung des Plasmazustands deutlich langsamer als die einer typischen RL-Umgebung. Wir überwinden den Mangel an Daten, indem wir die Richtlinie mithilfe der Maximum-a-posteriori-Policy-Optimierung (MPO)23 optimieren, einem akteurkritischen Algorithmus. MPO unterstützt die Datenerfassung über verteilte parallele Streams und lernt auf dateneffiziente Weise. Darüber hinaus nutzen wir die dem akteurkritischen Design von MPO innewohnende Asymmetrie, um die Einschränkungen der magnetischen Steuerung zu überwinden. In Akteur-Kritiker-Algorithmen lernt der „Kritiker“ anhand der verfügbaren Daten die abgezinste erwartete zukünftige Belohnung für verschiedene Aktionen, und der „Akteur“ verwendet die Vorhersagen des Kritikers, um die Kontrollrichtlinie festzulegen. Die Darstellung der Kontrollpolitik des Akteurs ist eingeschränkt, da sie auf TCV mit Echtzeitgarantien laufen muss, während der Kritiker uneingeschränkt ist, da er nur während des Trainings verwendet wird. Wir verwenden daher ein schnelles, vierschichtiges Feedforward-Neuronales Netzwerk im Aktor (Abb. 1c) und ein viel größeres rekurrentes Neuronales Netzwerk im Kritiker. Diese Asymmetrie ermöglicht es dem Kritiker, aus Messungen auf den zugrunde liegenden Zustand zu schließen, mit komplexen Zustandsübergangsdynamiken über verschiedene Zeitskalen umzugehen und den Einfluss von Systemmessungen und Aktionsverzögerungen zu bewerten. Die Informationen aus der gekoppelten Dynamik werden dann in einen echtzeitfähigen Regler destilliert.

In der dritten Phase wird die Steuerungsrichtlinie mit den zugehörigen Steuerungszielen des Experiments in einer ausführbaren Datei gebündelt, wobei ein Compiler verwendet wird, der auf Echtzeitsteuerung bei 10 kHz zugeschnitten ist, wodurch Abhängigkeiten minimiert und unnötige Berechnungen vermieden werden. Diese ausführbare Datei wird vom TCV-Steuerungsframework24 geladen (Abb. 1d). Jedes Experiment beginnt mit Standardverfahren zur Plasmabildung, bei denen ein herkömmlicher Controller die Position des Plasmas und den Gesamtstrom verwaltet. Zu einem vorab festgelegten Zeitpunkt, der als „Übergabe“ bezeichnet wird, wird die Steuerung auf unsere Steuerrichtlinie umgestellt, die dann die 19 TCV-Steuerspulen betätigt, um die Plasmaform und den Strom auf die gewünschten Ziele umzuwandeln. Die Experimente werden ohne weitere Abstimmung der Netzwerkgewichte der Kontrollpolitik nach dem Training durchgeführt, d. h. es erfolgt eine „Zero-Shot“-Übertragung von der Simulation auf die Hardware.

Die Kontrollrichtlinien werden durch mehrere Schlüsselattribute des Lernverfahrens zuverlässig auf TCV übertragen, wie in Abb. 1b dargestellt. Wir haben ein Aktuator- und Sensormodell identifiziert, das Eigenschaften berücksichtigt, die die Regelstabilität beeinflussen, wie z. B. Verzögerungen, Messrauschen und Steuerspannungs-Offsets. Wir haben während des Trainings eine gezielte Parametervariation über einen geeigneten Bereich für den Plasmadruck, das Stromdichteprofil und den Plasmawiderstand durch Analyse von Versuchsdaten vorgenommen, um variierende, unkontrollierte Versuchsbedingungen zu berücksichtigen. Dies sorgt für Robustheit und gewährleistet gleichzeitig die Leistung. Obwohl der Simulator im Allgemeinen genau ist, gibt es bekannte Bereiche, in denen die Dynamik bekanntermaßen schlecht dargestellt wird. Wir haben die Vermeidung gelernter Regionen in die Trainingsschleife integriert, um diese Regime durch die Verwendung von Belohnungen und Beendigungsbedingungen (erweiterte Datentabelle 5) zu vermeiden, die die Simulation stoppen, wenn bestimmte Bedingungen erfüllt sind. Beendigungsbedingungen werden auch zur Durchsetzung betrieblicher Grenzen verwendet. Die Steuerungsrichtlinien lernen, innerhalb der vorgegebenen Grenzen zu bleiben, beispielsweise beim maximalen Spulenstrom oder beim Kantensicherheitsfaktor25.

Die von unserer Architektur entworfenen Controller sind im Vergleich zu herkömmlichen Designs strukturell stark vereinfacht, wie in Abb. 1e, f dargestellt. Anstelle einer Reihe von Controllern erstellt das RL-gesteuerte Design einen einzelnen Netzwerkcontroller.

Wir demonstrieren die Leistungsfähigkeit unserer Architektur für Kontrollziele in realen Experimenten zum TCV. Wir zeigen zunächst die genaue Kontrolle der grundlegenden Eigenschaften von Plasmagleichgewichten. Anschließend kontrollieren wir ein breites Spektrum an Gleichgewichten mit komplexen, zeitlich variierenden Zielen und physikalisch relevanten Plasmakonfigurationen. Abschließend demonstrieren wir die Kontrolle einer Konfiguration mit mehreren Plasma-„Tröpfchen“ gleichzeitig im Gefäß.

Wir testen zunächst die grundlegenden Aufgaben der Plasmakontrolle anhand einer Reihe von Änderungen, die repräsentativ für diejenigen sind, die für eine vollständige Plasmaentladung erforderlich sind. Übernehmen Sie zunächst ab der Übergabe bei 0,0872 s Ip und stabilisieren Sie es bei −110 kA. Als nächstes erhöhen Sie den Plasmastrom auf –150 kA und verlängern dann das Plasma von 1,24 auf 1,44, wodurch die Wachstumsrate der vertikalen Instabilität auf 150 Hz erhöht wird. Als nächstes demonstrieren Sie die Positionskontrolle durch Verschieben der vertikalen Plasmaposition um 10 cm und lenken dann das Plasma unter Kontrolle der aktiven X-Punkt-Position um (siehe Abb. 1h). Bringen Sie schließlich das Plasma wieder in den Übergabezustand und senken Sie Ip auf –70 kA, um sicher herunterzufahren. Obwohl die Genauigkeitsanforderungen im Allgemeinen vom genauen Experiment abhängen, besteht ein vernünftiges Ziel darin, den Ip auf innerhalb von 5 kA (3 % des endgültigen 150-kA-Ziels) und die Form auf innerhalb von 2 cm (8 % der radialen Halbwertsbreite des Gefäßes) zu kontrollieren 26cm). Beachten Sie, dass die verwendete Gleichgewichtsrekonstruktion einer visuell rekonstruierten Grenze mit einer typischen Genauigkeit26 von 1 cm entspricht.

Die Leistung der Kontrollrichtlinie ist in Abb. 2 dargestellt. Alle Aufgaben werden erfolgreich ausgeführt, wobei die Verfolgungsgenauigkeit unter den gewünschten Schwellenwerten liegt. In der anfänglichen begrenzten Phase (0,1 s bis 0,45 s) beträgt der Ip-Root-Mean-Square-Fehler (RMSE) 0,71 kA (0,59 % des Ziels) und der Form-RMSE beträgt 0,78 cm (3 % der halben Gefäßbreite). . In der umgeleiteten Phase (0,55 s bis 0,8 s) betragen Ip und Form-RMSE 0,28 kA bzw. 0,53 cm (0,2 % bzw. 2,1 %), was einen RMSE über das gesamte Fenster (0,1 s bis 1,0 s) von 0,62 kA ergibt 0,75 cm (0,47 % und 2,9 %). Dies zeigt, dass unsere RL-Architektur in der Lage ist, das Plasma in allen relevanten Phasen eines Entladungsexperiments genau zu steuern.

Demonstration von Plasmastrom, vertikaler Stabilität, Positions- und Formkontrolle. Oben: Zielformpunkte mit einem Radius von 2 cm (blaue Kreise), verglichen mit der Gleichgewichtsrekonstruktion nach dem Experiment (schwarze durchgehende Linie im Konturdiagramm). Unten links: Zielzeitspuren (blaue Spuren) im Vergleich zur rekonstruierten Beobachtung (orangefarbene Spuren), wobei das Fenster des umgeleiteten Plasmas markiert ist (grünes Rechteck). Unten rechts, Bild im Inneren des Gefäßes bei 0,6 s, das das umgeleitete Plasma mit seinen Beinen zeigt.

Quelldaten

Als nächstes demonstrieren wir die Fähigkeit unserer Architektur, komplexe Konfigurationen für wissenschaftliche Studien zu erstellen. Jede Demonstration hat ihre eigenen zeitlich variierenden Ziele, verwendet aber ansonsten denselben Architekturaufbau, um eine Kontrollrichtlinie zu generieren, einschließlich der Trainings- und Umgebungskonfiguration, mit nur geringfügigen Anpassungen an der Belohnungsfunktion (siehe Tabelle 3 der erweiterten Daten). Denken Sie daran, dass das Plasma in jedem Experiment vor der Übergabe eine geringe Dehnung aufweist und die Kontrollpolitik das Plasma aktiv auf die interessierende Konfiguration moduliert. Ausgewählte Zeitabschnitte dieser Experimente sind in Abb. 3 dargestellt, mit weiteren Einzelheiten in Abb. 1 für erweiterte Daten und Fehlermetriken in Tabelle 1 für erweiterte Daten.

Kontrolldemonstrationen, die während TCV-Experimenten erhalten wurden. Zielformpunkte mit einem Radius von 2 cm (blaue Kreise), verglichen mit der Gleichgewichtsrekonstruktionsplasmagrenze (schwarze durchgehende Linie). In allen Abbildungen zeigt die erste Zeitscheibe die Übergabebedingung. a, Dehnung von 1,9 mit einer Wachstumsrate der vertikalen Instabilität von 1,4 kHz. b, Ungefähre von ITER vorgeschlagene Form mit Neutralstrahlheizung (NBH), die in den H-Modus übergeht. c, Abgelenkte negative Triangularität von −0,8. d, Schneeflockenkonfiguration mit einer zeitvariablen Steuerung des unteren X-Punkts, wobei die Ziel-X-Punkte blau markiert sind. Erweiterte Spuren für diese Aufnahmen finden Sie in Extended Data Abb. 2.

Quelldaten

Die Dehnung von Plasmen verbessert ihre thermischen Einschlusseigenschaften, ihre erhöhte Wachstumsrate bei vertikaler Instabilität erschwert jedoch die Kontrolle. Unser Ziel war eine hohe Dehnung von 1,9 mit einer beträchtlichen Wachstumsrate. Der Regler konnte diese Dehnung erzeugen und stabilisieren, wie in Abb. 3a dargestellt. Mit einem RMSE von 0,018 haben wir eine gute Übereinstimmung zwischen der angestrebten und der gewünschten Dehnung erzielt. Wir haben auch die Form und den Plasmastrom auf ihre Zielwerte kontrolliert, mit einem Ip RMSE von 1,2 kA und einem Form-RMSE von 1,6 cm. Dies zeigt die Fähigkeit, eine hohe Wachstumsrate der vertikalen Instabilität von mehr als 1,4 kHz zu stabilisieren, obwohl sie nur bei 10 kHz arbeitet.

Als nächstes haben wir die Anwendung von Zusatzheizung durch Neutralstrahlinjektion getestet, um in den „H-Modus“ zu gelangen, der für eine höhere Energieeinschlusszeit wünschenswert ist, aber erhebliche Änderungen an den Plasmaeigenschaften verursacht. Auf der Grundlage der vorgeschlagenen ITER-Konfiguration, die eine solche Zusatzheizung verwendet, wurde uns eine zeitlich variierende Flugbahn zur Verfügung gestellt. Wenn der normalisierte Druck βp auf 1,12 ansteigt (siehe Abb. 3b), wurden die Plasmaposition und der Strom genau beibehalten, mit einem Ip-RMSE von 2,6 kA und einem Form-RMSE von 1,4 cm. Dies zeigt, dass sich unser Controller robust an einen sich ändernden Plasmazustand anpassen und mit beheiztem H-Modus-Plasma unter extern spezifizierten Konfigurationen arbeiten kann.

Plasmen mit negativer Triangularität sind attraktiv, da sie günstige Einschlusseigenschaften ohne den für H-Moden typischen starken Randdruckgradienten haben. Unser Ziel war eine umgeleitete Konfiguration mit einer Dreiecksform von −0,8 und X-Punkten an beiden Ecken. Wir haben diese Konfiguration erfolgreich erreicht, wie in Abb. 3c dargestellt. Die Dreieckigkeit stimmte mit einem RMSE von 0,070 genau überein, ebenso wie der Plasmastrom und die Form mit RMSE-Werten von 3,5 kA bzw. 1,3 cm. Dies zeigt die Fähigkeit, schnell und direkt eine Konfiguration unter aktiver Untersuchung zu erstellen27.

Schneeflockenkonfigurationen werden untersucht28,29, da sie den Partikelausstoß auf mehrere Auftreffpunkte verteilen. Ein entscheidender Parameter ist der Abstand zwischen den beiden X-Punkten, die die Divertorschenkel bilden. Wir haben unsere Fähigkeit demonstriert, diesen Abstand zu kontrollieren, wie in Abb. 3d dargestellt. Die Kontrollrichtlinie erstellte zunächst eine Schneeflockenkonfiguration mit X-Punkten im Abstand von 34 cm. Anschließend manipulierte es den fernen X-Punkt, um sich dem begrenzenden X-Punkt zu nähern, was mit einem Abstand von 6,6 cm endete. Die zeitlich variierenden X-Punkt-Ziele wurden mit einem kombinierten RMSE von 3,7 cm verfolgt. Der Plasmastrom und die Plasmaform wurden während dieses Übergangs mit RMSE-Werten von 0,50 kA bzw. 0,65 cm mit hoher Genauigkeit beibehalten. Dies demonstriert die genaue Steuerung eines komplexen zeitveränderlichen Ziels mit mehreren gekoppelten Zielen.

Insgesamt zeigen diese Experimente, wie einfach neue Konfigurationen erforscht werden können, beweisen die Fähigkeit unserer Architektur, in Hochleistungsentladungen zu arbeiten, und bestätigen die Breite ihrer Leistungsfähigkeit. Im Abschnitt „Methoden“ untersuchen wir das kontrollpolitische Verhalten weiter.

Abschließend demonstrieren wir die Leistungsfähigkeit unserer Architektur zur Erforschung neuer Plasmakonfigurationen. Wir testen die Kontrolle von „Tröpfchen“, einer Konfiguration, bei der gleichzeitig zwei separate Plasmen im Gefäß vorhanden sind. Es ist wahrscheinlich möglich, dass bestehende Ansätze solche Tröpfchen stabilisieren könnten. Dennoch wären große Investitionen erforderlich, um eine Feedforward-Spulenstromprogrammierung zu entwickeln, Echtzeitschätzer zu implementieren, die Reglerverstärkungen abzustimmen und nach der Plasmaerzeugung erfolgreich die Kontrolle zu übernehmen. Im Gegensatz dazu passen wir bei unserem Ansatz einfach den simulierten Übergabezustand an, um die unterschiedlichen Übergabebedingungen bei einachsigen Plasmen zu berücksichtigen, und definieren eine Belohnungsfunktion, um die Position jeder Tröpfchenkomponente stabil zu halten, während die Domänenplasmaströme erhöht werden. Diese lockere Spezifikation gibt der Architektur die Freiheit zu entscheiden, wie sie die Tropfenformen bei steigendem IP am besten anpasst, um die Stabilität aufrechtzuerhalten. Die Architektur war in der Lage, Tröpfchen über das gesamte 200-ms-Steuerungsfenster erfolgreich zu stabilisieren und den Strom innerhalb jeder Domäne zu steigern, wie in Abb. 4 dargestellt. Dies unterstreicht den Vorteil einer allgemeinen, lernbasierten Steuerungsarchitektur zur Anpassung der Steuerung an bisher unbekannte Konfigurationen .

Demonstration der anhaltenden Kontrolle zweier unabhängiger Tröpfchen auf TCV über das gesamte 200-ms-Kontrollfenster. Links: Steuerung von Ip für jeden unabhängigen Lappen bis zum gleichen Zielwert. Rechts ein Bild, auf dem die beiden Tröpfchen sichtbar sind, aufgenommen mit einer Kamera, die bei t = 0,55 in das Gefäß blickt.

Quelldaten

Wir präsentieren ein neues Paradigma für den plasmamagnetischen Einschluss von Tokamaks. Unser Steuerungsdesign erfüllt viele der Hoffnungen der Community an einen auf maschinellem Lernen basierenden Steuerungsansatz14, einschließlich hoher Leistung, Robustheit gegenüber unsicheren Betriebsbedingungen, intuitiver Zielspezifikation und beispielloser Vielseitigkeit. Diese Errungenschaft erforderte die Überwindung von Leistungs- und Infrastrukturlücken durch wissenschaftliche und technische Fortschritte: einen genauen, numerisch robusten Simulator; ein fundierter Kompromiss zwischen Simulationsgenauigkeit und Rechenkomplexität; ein Sensor- und Aktormodell, das auf eine bestimmte Hardwaresteuerung abgestimmt ist; realistische Variation der Betriebsbedingungen während des Trainings; ein äußerst dateneffizienter RL-Algorithmus, der sich auf hochdimensionale Probleme skalieren lässt; ein asymmetrisches Lernsystem mit einer ausdrucksstarken Kritik, aber einer schnell zu bewertenden Politik; ein Prozess zur Kompilierung neuronaler Netze in echtzeitfähigen Code und zur Bereitstellung auf einem digitalen Tokamak-Steuerungssystem. Dies führte zu erfolgreichen Hardware-Experimenten, die grundlegende Fähigkeiten neben einer erweiterten Formkontrolle demonstrierten, ohne dass eine Feinabstimmung an der Anlage erforderlich war. Darüber hinaus zeigt es, dass ein Gleichgewichtsentwicklungsmodell mit freien Grenzen über eine ausreichende Genauigkeit verfügt, um übertragbare Controller zu entwickeln, was eine Rechtfertigung für die Verwendung dieses Ansatzes zum Testen der Steuerung zukünftiger Geräte bietet.

Bemühungen könnten unsere Architektur weiterentwickeln, um ihre Robustheit durch Analyse der nichtlinearen Dynamik zu quantifizieren30,31,32 und die Trainingszeit durch verstärkte Wiederverwendung von Daten und Multi-Fidelity-Lernen33 zu verkürzen. Darüber hinaus kann der Satz von Kontrollzielen erweitert werden, um beispielsweise die Zielwärmelasten durch Flussexpansion5 zu reduzieren, unterstützt durch die Verwendung privilegierter Informationen im Kritiker, um die Notwendigkeit von Echtzeitbeobachtern zu vermeiden. Die Architektur kann mit einem leistungsfähigeren Simulator gekoppelt werden, der beispielsweise Plasmadruck und Stromdichteentwicklungsphysik einbezieht, um die globale Plasmaleistung zu optimieren.

Unser Lernrahmen hat das Potenzial, die zukünftige Fusionsforschung und Tokamak-Entwicklung zu prägen. Unterspezifizierte Ziele können Konfigurationen finden, die ein gewünschtes Leistungsziel maximieren oder sogar die Stromproduktion maximieren. Unsere Architektur kann schnell auf einem neuen Tokamak implementiert werden, ohne dass das komplexe System der heute eingesetzten Steuerungen entworfen und in Betrieb genommen werden muss und vorgeschlagene Designs vor der Konstruktion bewertet werden müssen. Im weiteren Sinne kann unser Ansatz die Entdeckung neuer Reaktordesigns ermöglichen, indem wir gemeinsam die Plasmaform, die Sensorik, die Betätigung, das Wanddesign, die Wärmelast und die magnetische Steuerung optimieren, um die Gesamtleistung zu maximieren.

Der in Abb. 1 dargestellte TCV 1,34 ist ein Forschungstokamak am Swiss Plasma Center mit einem Hauptradius von 0,88 m und einer Schiffshöhe und -breite von 1,50 m bzw. 0,512 m. TCV verfügt über einen flexiblen Satz Magnetspulen, die die Erstellung einer breiten Palette an Plasmakonfigurationen ermöglichen. Elektronenzyklotronresonanz-Erwärmungs- und Neutralstrahlinjektionssysteme35 sorgen für externe Erwärmung und Stromantrieb, wie sie im Experiment in Abb. 3b verwendet werden. TCV ist mit mehreren Echtzeitsensoren ausgestattet und unsere Kontrollrichtlinien nutzen eine Teilmenge dieser Sensoren. Insbesondere verwenden wir 34 der Drahtschleifen, die den magnetischen Fluss messen, 38 Sonden, die das lokale Magnetfeld messen, und 19 Messungen des Stroms in aktiven Steuerspulen (ergänzt durch eine explizite Messung der Stromdifferenz zwischen den ohmschen Spulen). Zusätzlich zu den magnetischen Sensoren ist TCV mit anderen Sensoren ausgestattet, die nicht in Echtzeit verfügbar sind, wie beispielsweise den in den Abbildungen gezeigten Kameras. 2 und 4. Unsere Steuerungsrichtlinie verbraucht die Magnet- und Stromsensoren des TCV mit einer Steuerungsrate von 10 kHz. Die Steuerrichtlinie erzeugt bei jedem Zeitschritt einen Referenzspannungsbefehl für die aktiven Steuerspulen.

Die gekoppelte Dynamik des Plasmas und externer aktiver und passiver Leiter wird mit einem Free-Boundary-Simulator, FGE22, modelliert. Die Leiter werden durch ein Schaltungsmodell beschrieben, bei dem der spezifische Widerstand als bekannt und konstant gilt und die Gegeninduktivität analytisch berechnet wird.

Es wird angenommen, dass sich das Plasma in einem toroidsymmetrischen Gleichgewichtskraftgleichgewicht befindet (Grad-Shafranov-Gleichung21), in dem die Lorentzkraft J × B, die aus der Wechselwirkung der Plasmastromdichte J und dem Magnetfeld B erzeugt wird, ausgeglichen ist der Plasmadruckgradient ∇p. Der Transport von Radialdruck und Stromdichte durch Wärme- und Stromantriebsquellen wird nicht modelliert. Stattdessen werden die radialen Plasmaprofile als Polynome modelliert, deren Koeffizienten durch den Plasmastrom Ip plus zwei freie Parameter eingeschränkt werden: den normalisierten Plasmadruck βp, der das Verhältnis von kinetischem Druck zum magnetischen Druck ist, und den Sicherheitsfaktor an der Plasmaachse qA, das die Stromdichtespitze steuert.

Die Entwicklung des gesamten Plasmastroms Ip wird als Gleichung mit konzentrierten Parametern auf der Grundlage des verallgemeinerten Ohmschen Gesetzes für das Magnetohydrodynamikmodell beschrieben. Für dieses Modell sind der Gesamtplasmawiderstand Rp und die Gesamtplasma-Selbstinduktivität Lp freie Parameter. Schließlich erstellt FGE die synthetischen magnetischen Messungen, die die TCV-Sensoren simulieren, die zum Erlernen der Steuerrichtlinien verwendet werden, wie unten erläutert.

Im Experiment mit den Tröpfchen (Abb. 4) wird das Plasma als drucklos betrachtet, was die numerische Lösung der Kraftgleichgewichtsgleichung vereinfacht. Darüber hinaus wurde die G-Spule in der Simulation deaktiviert, da sie während der Experimente in einem offenen Stromkreis platziert wurde (die schnellen radialen Felder, die sie erzeugt, wurden für diese Plasmen als unnötig erachtet). Dieses Experiment verwendete ein früheres Modell für die Ip-Entwicklung, das für den Plasmabetrieb im stationären Zustand konzipiert war. Dieses Modell hat einen freien Parameter, das radiale Profil der neoklassischen parallelen Plasmaleitfähigkeit \({\sigma }_{\parallel }\) (Lit. 22). Dieses Modell wurde durch das oben beschriebene Modell für das Einzeldomänen-Plasma-Experiment ersetzt, da es die Entwicklung von Ip besser beschreibt, insbesondere wenn es sich schnell ändert.

Wir variieren die oben eingeführten Plasmaentwicklungsparameter während des Trainings, um eine robuste Leistung im wahren, aber unbekannten Zustand des Plasmas zu gewährleisten. Das Ausmaß der Variation wird innerhalb der Bereiche festgelegt, die aus experimentellen Daten ermittelt wurden, wie in der erweiterten Datentabelle 2 gezeigt. In den Einzelplasma-Experimenten variieren wir den Plasmawiderstand Rp sowie die Profilparameter βp und qA. Lp variiert nicht, da es aus einer einfachen Beziehung36 berechnet werden kann. Diese werden alle unabhängig voneinander aus einer Parameter-spezifischen logarithmischen Gleichverteilung abgetastet. Im Experiment mit Tröpfchen variieren wir die anfänglichen Werte des ohmschen Spulenstroms entsprechend einer gleichmäßigen Verteilung. Wir legen zwei unterschiedliche Werte für die Tröpfchen-\({\sigma }_{\parallel }\)-Komponenten fest. Wir nehmen den Logarithmus der Differenz zwischen ihnen aus einer skalierten Beta-Verteilung und die Gesamtverschiebung des kombinierten geometrischen Mittels aus einer logarithmischen Gleichverteilung auf und lösen dann nach dem einzelnen \({\sigma }_{\parallel }\). Parameterwerte werden zu Beginn jeder Episode abgetastet und für die Dauer der Simulation konstant gehalten. Der abgetastete Wert wird bewusst nicht der Lernarchitektur ausgesetzt, da er nicht direkt messbar ist. Daher ist der Agent gezwungen, einen Controller zu erlernen, der alle Kombinationen dieser Parameter robust verarbeiten kann. Diese fundierte und zielgerichtete Domänen-Randomisierungstechnik erwies sich als effektiv, um Richtlinien zu finden, die Zeitziele für Form und Ip verfolgen und gleichzeitig robust gegenüber der Einspeisung externer Erwärmung und den kantenlokalisierten Modenstörungen während des Modus mit hohem Einschluss sind.

Die rohen Sensordaten zum TCV durchlaufen eine Tiefpassfilter- und Signalaufbereitungsstufe37. Wir modellieren diese Phase in der Simulation durch eine Zeitverzögerung und ein Gaußsches Rauschmodell, identifiziert aus Daten während einer Betriebsphase mit stationärem Plasma (erweiterte Datentabelle 2). Dieses Sensormodell (dargestellt in Abb. 1b) erfasst die relevante Dynamik, die sich auf die Regelstabilität auswirkt. Die Stromversorgungsdynamik (ebenfalls in Abb. 1b dargestellt) wird mit einer festen Vorspannung und einer festen Zeitverzögerung modelliert, die aus den Daten ermittelt wird, sowie einem weiteren Offset, der zu Beginn jeder Episode zufällig variiert wird. Die Werte für diese Modifikationen finden Sie in der erweiterten Datentabelle 2. Dies ist eine konservative Annäherung an echte Netzteile auf Thyristorbasis37, erfasst jedoch die wesentliche Dynamik für Steuerungszwecke.

Die Steuerungsrichtlinie kann lernen, robust gegenüber sehr nichtlinearen hardwarespezifischen Phänomenen zu sein. Wenn beispielsweise der Strom in den aktiven Spulen seine Polarität ändert und der Controller eine zu niedrige Spannung anfordert, können die Netzteile „stecken bleiben“ und über einen längeren Zeitraum fälschlicherweise keinen Ausgangsstrom liefern (Erweiterte Daten, Abb. 4b). Dieses Phänomen kann sowohl die Stabilität als auch die Präzision des Controllers beeinträchtigen. Um die Fähigkeit unseres Controllers zur Bewältigung dieses Problems zu demonstrieren, haben wir in der erweiterten Steuerungsdemonstration die „Vermeidung gelernter Bereiche“ angewendet, um anzuzeigen, dass Ströme nahe Null unerwünscht sind. Dadurch lernt die Steuerpolitik effektiv, die Spannungen zu erhöhen, wenn die Strompolarität geändert wird, um festsitzende Spulen in der Anlage zu vermeiden (Extended Data Abb. 4c).

MPO23 verwendet zwei neuronale Netzwerkarchitekturen, um die Richtlinie zu entwerfen und zu optimieren: das kritische Netzwerk und das Richtliniennetzwerk. Während des Trainings werden beide Netzwerke angepasst, auf der Anlage wird jedoch nur das Richtliniennetzwerk bereitgestellt.

Für das kritische Netzwerk werden die Eingaben mit dem hyperbolischen Tangensfunktionswert der letzten befohlenen Aktion kombiniert und einer 256 Einheiten breiten Schicht des Langzeit-Kurzzeitgedächtnisses (LSTM) zugeführt. Die Ausgaben der LSTM-Schicht werden dann mit ihren Eingaben verkettet und einem mehrschichtigen Perzeptron (MLP) zugeführt, d. h. einem Stapel aus zwei dicht verbundenen verborgenen Schichten mit jeweils 256 Latenten. Jede der MLP-Schichten verwendet eine exponentielle lineare Nichtlinearitätseinheit. Schließlich verwenden wir eine letzte lineare Ebene, um den Q-Wert auszugeben.

Das Richtliniennetzwerk ist auf eine Netzwerkarchitektur beschränkt, die innerhalb von 50 μs auf der Zielhardware ausgewertet werden kann, um die erforderliche 10-kHz-Steuerrate zu erhalten. Darüber hinaus muss das Netzwerk diese Schlussfolgerung mit ausreichender numerischer Genauigkeit auf dem Steuerungssystem durchführen, das eine andere Prozessorarchitektur als die für das Training verwendete Hardware verwendet. Daher ist das Richtliniennetzwerk wie folgt aufgebaut. Wir speisen die Eingaben in einen Stapel einer linearen Schicht mit 256 Ausgängen ein. Die Ausgaben dieser linearen Ebene werden mit einer LayerNorm38 normalisiert und mithilfe einer hyperbolischen Tangensfunktion begrenzt. Danach wird die Ausgabe durch einen dreischichtigen MLP mit exponentieller linearer Einheitsnichtlinearität und jeweils 256 Latentdaten geleitet. Die Ausgabe dieses Stapels wird durch eine letzte lineare Schicht geleitet, die pro Aktion zwei Parameter ausgibt: einen Mittelwert der Gaußschen Verteilung und eine Standardabweichung der Gaußschen Verteilung. Die Standardabweichung verwendet eine Softplus-Nichtlinearität, um sicherzustellen, dass sie immer positiv ist. Die Parameter dieser Gaußschen Verteilung über Aktionen sind die Ausgabe des neuronalen Netzwerks. Beachten Sie, dass zur Bewertung der Richtlinie in der Simulation und Ausführung auf TCV nur der Mittelwert der Verteilung verwendet wird. Mit diesem kleinen neuronalen Netzwerk können wir Rückschlüsse innerhalb des L2-Cache der CPU im Steuerungssystem durchführen.

Diese neuronalen Netze werden mit den Gewichten einer abgeschnittenen Normalverteilung initialisiert, skaliert mit der Anzahl der Eingaben und einem Bias von Null. Die Ausnahme bildet die letzte Schicht des Richtliniennetzwerks, die auf die gleiche Weise initialisiert, jedoch mit 0,0001 skaliert wird (Ref. 39). Diese Netzwerke werden mit einer Abrolllänge von 64 Schritten trainiert. Für das Training haben wir eine Chargengröße von 256 und einen Rabatt von 0,99 verwendet.

Erweiterte Daten Abbildung 5a zeigt die Bedeutung eines asymmetrischen Designs zwischen dem Akteursnetzwerk und dem Kritikernetzwerk. Wir vergleichen den Standardaufbau mit einem symmetrischen Aufbau, bei dem der Kritikwert auch durch die Kontrollrate an der Anlage begrenzt ist. Im Standard-Setup ist das kritische Netzwerk viel größer als das Richtliniennetzwerk (718.337 Parameter im Vergleich zu 266.280 Parametern) und verwendet auch ein wiederkehrendes LSTM. Im symmetrischen Aufbau ist der Kritiker ebenfalls ein MLP, der etwa die gleiche Größe wie die Richtlinie hat (266.497 Parameter). Wir sehen, dass das symmetrische Design beim Erlernen einer wirksamen Richtlinie deutlich schlechter abschneidet als das asymmetrische Design. Wir stellen außerdem fest, dass der Hauptvorteil aus dem wiederkehrenden Design des Kritikers resultiert, der die nicht-markovschen Eigenschaften dieser Umgebung berücksichtigt. Wenn wir den Kritiker vergrößern und dabei die Feedforward-Struktur der Richtlinie beibehalten, stellen wir fest, dass eine Erweiterung seiner Breite auf 512 Einheiten (926.209 Parameter) oder sogar 1.024 Einheiten (3.425.281 Parameter) immer noch nicht der Leistung des Setups mit dem kleineren, aber wiederkehrenden Kritiker entspricht .

Unser Ansatz verwendet einen episodischen Trainingsansatz, bei dem Daten gesammelt werden, indem der Simulator mit einer Kontrollrichtlinie in der Schleife ausgeführt wird, wie in Abb. 1a dargestellt. Die Daten aus diesen Interaktionen werden in einem First-In-First-Out-Puffer mit endlicher Kapazität40 gesammelt. Die Interaktionsverläufe werden von einem „Lernenden“ zufällig aus dem Puffer abgetastet, der den MPO-Algorithmus ausführt, um die Kontrollrichtlinienparameter zu aktualisieren. Während des Trainings ist die ausgeführte Kontrollpolitik stochastisch, um erfolgreiche Kontrolloptionen zu erkunden. Diese stochastische Politik wird durch eine diagonale Gauß-Verteilung über Spulenaktionen dargestellt.

Jede Episode entspricht einem einzelnen Simulationslauf, der entweder endet, wenn eine Abbruchbedingung erfüllt ist, auf die wir weiter unten eingehen, oder wenn eine festgelegte Simulationszeit in der Episode verstrichen ist. Diese feste Zeit betrug 0,2 s für die Tröpfchen, 0,5 s im Fall von Extended Data Abb. 2a, c und ansonsten 1 s. Jede Episode wird aus einem Gleichgewichtszustand zum vorprogrammierten Übergabezeitpunkt initialisiert, der aus einem früheren Experiment zum TCV rekonstruiert wurde.

Unsere Trainingsschleife emuliert die Steuerfrequenz von 10 kHz. Bei jedem Schritt wird die Richtlinie anhand der Beobachtung aus dem vorherigen Schritt bewertet. Die resultierende Aktion wird dann auf den Simulator angewendet, der dann schrittweise ausgeführt wird. Beobachtungen und Belohnungen werden ebenfalls mit der 10-kHz-Kontrollfrequenz erfasst, was dazu führt, dass Trainingsdaten in Intervallen von 0,1 ms erfasst werden. Für unsere Simulation haben wir einen Zeitschritt von 50 kHz gewählt. Daher werden für jede Bewertung der Richtlinie fünf Simulationszeitschritte berechnet. Während dieser Teilschritte wird die Aktion, also die gewünschte Spulenspannung, konstant gehalten. Daten aus Zwischenschritten werden nur zur Überprüfung der Abbruchbedingungen verwendet und anschließend verworfen. Dadurch ist es möglich, die Steuerrate und den Zeitschritt des Simulators unabhängig voneinander zu wählen und diesen somit auf der Grundlage numerischer Überlegungen festzulegen.

Wir verwenden eine verteilte Architektur41 mit einer einzelnen Lerninstanz auf einer Tensor-Verarbeitungseinheit und mehreren Akteuren, die jeweils eine unabhängige Instanz des Simulators ausführen. Für unsere Experimente haben wir 5.000 Akteure parallel eingesetzt, was in der Regel zu Trainingszeiten von 1-3 Tagen führte, bei komplexen Zielvorgaben manchmal auch länger. Wir haben die Anzahl der zur Stabilisierung eines Basisplasmas erforderlichen Akteure untersucht und die Ergebnisse sind in Abb. 5 der erweiterten Daten zu sehen. Wir sehen, dass ein ähnliches Leistungsniveau mit einer starken Reduzierung der Anzahl der Akteure für a erreicht werden kann moderate Kosten für Schulungszeit.

Da RL nur probenweise mit der Umgebung interagiert, könnte die Richtlinie anhand von Daten aus der Interaktion mit der Anlage weiter verfeinert werden. Alternativ könnte man sich vorstellen, die Datenbank früherer Experimente zum TCV zu nutzen, um die Richtlinie zu verbessern. Es ist jedoch unklar, ob die Daten angesichts der Vielseitigkeit von TCV und der Tatsache, dass die gleiche Plasmakonfiguration durch verschiedene Spulenspannungskonfigurationen erreicht werden kann, ausreichend vielfältig sind. Insbesondere für bisher unbekannte Plasmaformen liegen keine oder nur sehr begrenzte Daten vor, was diesen Ansatz wirkungslos macht. Umgekehrt kann der Simulator die Dynamik für die interessierenden Konfigurationen direkt modellieren. Dieses Problem, bei dem die Datenerfassung eine gute Richtlinie erfordert, wird noch deutlicher, wenn man eine Richtlinie de novo aus Daten optimieren möchte, ohne sich auf ein Simulatormodell zu verlassen.

Alle unsere Experimente haben mehrere Ziele, die gleichzeitig erfüllt werden müssen. Diese Ziele werden als einzelne Belohnungskomponenten angegeben, die einen Aspekt der Simulation verfolgen – typischerweise eine physikalische Größe – und diese einzelnen Komponenten werden zu einem einzigen skalaren Belohnungswert kombiniert. Beschreibungen der verwendeten Ziele sind in der erweiterten Datentabelle 4 aufgeführt. Die Zielwerte der Ziele variieren oft zeitlich (z. B. der Plasmastrom und Grenzzielpunkte) und werden als Teil der Beobachtungen an die Richtlinie gesendet. Diese zeitlich veränderliche Spur von Zielen wird durch eine Folge von Werten zu bestimmten Zeitpunkten definiert, die für alle Zeitschritte dazwischen linear interpoliert werden.

Formziele für jedes Experiment wurden mit dem Formgenerator42 generiert oder manuell angegeben. Diese Punkte werden dann in 32 gleichmäßig verteilte Punkte entlang eines Splines kanonisiert, die die Ziele sind, die der Richtlinie zugeführt werden. Der Spline ist für geschlossene Formen periodisch, für abgelenkte Formen jedoch nicht periodisch und endet an den X-Punkten.

Der Prozess zum Kombinieren dieser mehreren Ziele in einem einzigen Skalar ist wie folgt. Zunächst wird für jedes Ziel die Differenz zwischen Ist- und Zielwert berechnet und dann mit einer nichtlinearen Funktion in ein Qualitätsmaß zwischen 0 und 1 transformiert. Bei einem vektorwertigen Ziel (z. B. Entfernung zu Für jeden Zielformpunkt werden die einzelnen Unterschiede zunächst durch einen „Kombinator“, eine gewichtete nichtlineare Funktion, zu einem einzigen Skalar zusammengeführt. Schließlich wird eine gewichtete Kombination der einzelnen zielspezifischen Qualitätsmaße mithilfe eines Kombinierers wie oben zu einem einzelnen skalaren Belohnungswert zwischen 0 und 1 berechnet. Diese (stufenweise) Belohnung wird dann normalisiert, sodass die maximale kumulative Belohnung 100 für 1 s Kontrolle beträgt. In Fällen, in denen die Kontrollpolitik eine Kündigung ausgelöst hat, wird eine hohe negative Belohnung gewährt. Weitere Einzelheiten finden Sie in der erweiterten Datentabelle 5.

Normalerweise berechnen wir das Qualitätsmaß aus dem Fehler mithilfe eines Softplus- oder Sigmoid-Algorithmus, der zu Beginn des Trainings ein Lernsignal ungleich Null liefert, wenn die Fehler groß sind, und gleichzeitig die Präzision fördert, wenn sich die Richtlinie verbessert. In ähnlicher Weise kombinieren wir die Belohnungen mithilfe eines (gewichteten) glatten Maximal- oder geometrischen Mittelwerts, der einen größeren Gradienten zur Verbesserung der schlechtesten Belohnung ergibt und gleichzeitig die Verbesserung aller Ziele fördert. Die genauen Belohnungsdefinitionen, die in jedem unserer Experimente verwendet wurden, sind in der erweiterten Datentabelle 3 aufgeführt und die Implementierungen sind im ergänzenden Material verfügbar.

Einige Controller zeigten mehrere interessante Verhaltensweisen, die hier kurz erwähnt werden. Diese Kontrollverhaltensweisen weisen auf weitere potenzielle Fähigkeiten erlernter Kontrollansätze hin.

Während des in Abb. 3b gezeigten Experiments wurde eine externe Erwärmung angewendet. Wir führten zunächst ein Testexperiment ohne Heizung, aber mit genau demselben Controller und denselben Zielen durch. Dies ermöglicht einen einfachen Wiederholbarkeitstest im Kontrollfenster vor der Erwärmung. Ein Leistungsvergleich ist in Extended Data Abb. 3 dargestellt und zeigt, dass der Controller in diesen beiden Experimenten eine ähnliche Leistung erbrachte.

Als das Ziel vorgegeben wurde, nur die Plasmaposition und den Plasmastrom aufrechtzuerhalten, konstruierte unsere Architektur autonom ein Plasma mit geringer Dehnung, das den vertikalen Instabilitätsmodus eliminiert (Extended Data Abb. 4a), ohne ausdrücklich dazu aufgefordert zu werden.

Unsere Steuerungsarchitektur kann sich natürlich dafür entscheiden, eine unterschiedliche Kombination aus poloidalem Feld und ohmschen Spulen zu verwenden, um die zur Aufrechterhaltung des Plasmastroms erforderliche induktive Spannung anzusteuern (erweiterte Daten, Abb. 4b), im Gegensatz zu bestehenden Steuerungsarchitekturen, die normalerweise eine strikte Trennung voraussetzen.

Unsere Architektur kann lernen, nichtlineare physikalische und Kontrollanforderungen einzubeziehen, indem sie der Zielspezifikation Ziele hinzufügt. Dadurch können beispielsweise Einschränkungen in den Stromversorgungen vermieden werden, die beim Umkehren der Polarität gelegentlich zu „steckenden“ Steuerspulenströmen führen (Erweiterte Daten, Abb. 4c) und X-Punkte im Gefäß, aber außerhalb des Plasmas (Erweiterte Daten, Abb. 4d) vermieden werden ) auf Anfrage mit hochstufigen Belohnungen.

Wir sehen, dass es für einige Größen einen stationären Fehler im Zielwert gibt (z. B. κ in Extended Data Abb. 3). Zukünftige Entwicklungen werden darauf abzielen, solche Fehler zu beseitigen, beispielsweise indem die Kontrollpolitik wiederkehrend statt vorwärtsgerichtet wird. Es muss darauf geachtet werden, dass diese leistungsfähigeren wiederkehrenden Richtlinien nicht zu stark auf die spezifische Dynamik des Simulators spezialisiert werden und weiterhin erfolgreich auf TCV übertragen werden.

Da die stochastische Natur der Trainingspolitik nur für die Erkundung nützlich ist, wird die endgültige Kontrollpolitik als Mittelwert der Gaußschen Politik am Ende des Trainings angenommen. Dies gibt eine deterministische Richtlinie zur Ausführung auf der Anlage vor. Während der Schulung überwachen wir die Qualität dieser deterministischen Richtlinie vor der Bereitstellung.

Der Regelkreis von TCV läuft mit 10 kHz, obwohl aufgrund anderer Signalverarbeitung und Protokollierung nur die Hälfte der Zykluszeit, also 50 μs, für den Regelalgorithmus zur Verfügung steht. Deshalb haben wir ein Bereitstellungssystem erstellt, das unser neuronales Netzwerk in echtzeitfähigen Code kompiliert, der garantiert innerhalb dieses Zeitfensters läuft. Um dies zu erreichen, entfernen wir überflüssige Gewichte und Berechnungen (z. B. die Explorationsvarianz) und kompilieren sie dann mit tfcompile43 in Binärcode, wobei wir sorgfältig unnötige Abhängigkeiten vermeiden. Wir haben die Struktur des neuronalen Netzwerks angepasst, um die Nutzung des Prozessor-Cache zu optimieren und vektorisierte Anweisungen für optimale Leistung zu ermöglichen. Zur Vereinfachung der Bereitstellung wird auch die Tabelle der zeitlich veränderlichen Kontrollziele in die Binärdatei kompiliert. In zukünftigen Arbeiten könnten Ziele problemlos zur Laufzeit bereitgestellt werden, um das Verhalten der Kontrollrichtlinie dynamisch anzupassen. Anschließend testen wir alle zusammengestellten Richtlinien vor der Bereitstellung in einem automatisierten, umfassenden Benchmark, um sicherzustellen, dass die Zeitvorgaben konsequent eingehalten werden.

Die Form und Position des Plasmas werden nicht direkt beobachtet und müssen aus den verfügbaren magnetischen Messungen abgeleitet werden. Dies geschieht mit der magnetischen Gleichgewichtsrekonstruktion, die ein inverses Problem löst, um die Plasmastromverteilung zu finden, die das Kräftegleichgewicht (Grad-Shafranov-Gleichung) berücksichtigt und im Sinne der kleinsten Quadrate am besten mit den gegebenen experimentellen magnetischen Messungen zu einem bestimmten Zeitpunkt übereinstimmt .

In einem herkömmlichen magnetischen Steuerungsdesign ist eine echtzeitfähige magnetische Gleichgewichtsrekonstruktion als Plasmaformbeobachter erforderlich, um die Formsteuerungs-Rückkopplungsschleife zu schließen (in Abb. 1f als „Plasmaform“-Beobachter dargestellt). In unserem Ansatz verwenden wir stattdessen nur die Gleichgewichtsrekonstruktion mit LIUQE-Code10 während der Analyse nach der Entladung, um die Leistung des Plasmaformreglers zu validieren und die physikalischen Anfangsbedingungen für die Simulation während des Trainings zu berechnen.

Nach der Durchführung des Experiments verwenden wir diesen Gleichgewichtsrekonstruktionscode, um eine Schätzung des Plasmazustands und des magnetischen Flussfelds zu erhalten. Die Verwendung dieses Ansatzes steht im Einklang mit früherer Literatur zur Leistungsbewertung9,10.

Die Plasmagrenze wird durch die letzte geschlossene Flussoberfläche (LCFS) in der Domäne definiert. Wir extrahieren das LCFS als 32 gleichwinklige Punkte um die Plasmaachse und kanonisieren es dann mit Splines auf 128 äquidistante Punkte. Die Fehlerentfernung wird anhand der kürzesten Entfernung zwischen jedem der Punkte, die die Zielform definiert haben, und dem durch die 128 Punkte auf dem LCFS definierten Polygon berechnet. Der Form-RMSE wird über diese 32 Fehlerabstände über alle Zeitschritte im interessierenden Zeitbereich berechnet.

Fehler bei skalaren Größen wie Ip oder Dehnung werden aus dem Fehler zwischen der Referenz und der jeweiligen Schätzung aus der Gleichgewichtsrekonstruktion über den interessierenden Zeitraum berechnet. Die Schätzung der Wachstumsrate der vertikalen Verschiebungsinstabilität6 wird aus einer spektralen Zerlegung des linearisierten Gleichungssystems des Simulators um das rekonstruierte Gleichgewicht herum berechnet.

In den letzten Jahren wurden fortschrittliche Kontrolltechniken zur Kontrolle des magnetischen Einschlusses eingesetzt. De Tommasi et al.44 beschreiben einen modellbasierten Steuerungsansatz für die Plasmapositionssteuerung unter Verwendung eines linearen Modells und einer kaskadierten Feedback-Steuerungsstruktur. Gerkšič und De Tommasi45 schlagen einen modellprädiktiven Steuerungsansatz vor, der eine lineare modellprädiktive Steuerung für die Plasmapositions- und -formsteuerung in der Simulation demonstriert, einschließlich einer Machbarkeitsschätzung für den Hardwareeinsatz. Boncagni et al.46 haben einen Schaltregler vorgeschlagen, der die Plasmastromverfolgung auf Hardware verbessert, ohne jedoch weitere Fähigkeiten zu demonstrieren. Es gab andere frühere Arbeiten, in denen RL an Plasmamodellen gelernt hat, beispielsweise den Sicherheitsfaktor47 oder den Ionentemperaturgradienten48 zu kontrollieren. Kürzlich haben Seo et al.49 Feedforward-Signale für die Beta-Kontrolle mithilfe von RL entwickelt, die dann am KSTAR-Tokamak verifiziert wurden.

Generell werden auf maschinellem Lernen basierende Ansätze für die Kontrolle des magnetischen Einschlusses und die Fusion im Allgemeinen entwickelt, nicht nur für die Kontrolle. Einen Überblick über diesen Bereich liefern Humphreys et al.14, die Ansätze in sieben vorrangige Forschungsmöglichkeiten kategorisierten, darunter Beschleunigung der Wissenschaft, Diagnostik, Modellextraktion, Kontrolle, große Datenmengen, Vorhersage und Plattformentwicklung. Die frühe Verwendung neuronaler Netze in einem Regelkreis zur Plasmasteuerung wird von Bishop et al.15 vorgestellt, die ein kleinräumiges neuronales Netz zur Schätzung der Plasmaposition und niedrigdimensionaler Formparameter verwendeten, die anschließend als Fehlersignale für die Rückmeldung verwendet wurden Kontrolle.

Unsere Architektur stellt im Hinblick auf die Allgemeingültigkeit einen wichtigen Fortschritt dar, bei dem ein einziges Framework zur Lösung einer Vielzahl von Herausforderungen bei der Fusionskontrolle verwendet wird und mehrere der wichtigsten Versprechen des maschinellen Lernens und der künstlichen Intelligenz für die Fusion erfüllt, die in Lit. dargelegt sind. 14.

Unser Ansatz wurde am TCV erfolgreich demonstriert und wir sind zuversichtlich, dass unser Ansatz mit einigen grundlegenden Modifikationen direkt auf andere Tokamaks anwendbar ist, die einige der unten aufgeführten Annahmen und technischen Anforderungen erfüllen. Es wurde bestätigt, dass alle heutigen Tokamaks aus Sicht der magnetischen Kontrolle die gekoppelten Gleichungen respektieren, die von Free-Boundary-Simulatoren gelöst werden. Gleichgewichtsregler wurden routinemäßig auf der Grundlage dieser Modelle entworfen, und für zukünftige Tokamaks gibt es bisher keinen Grund zu der Annahme, dass dieses Modell nicht mehr gültig sein wird. Natürlich können wir die Leistung unseres Ansatzes auf anderen Gerätetypen nicht vorhersagen.

Um ein anderes Gerät zu simulieren, müssen die Parameter des Free-Boundary-Simulators entsprechend eingestellt werden. Dazu gehören die Maschinenbeschreibung mit den Positionen und elektrischen Eigenschaften von Spulen, Behälter und Begrenzer, die Aktor- und Sensoreigenschaften wie Strom- und Spannungsbereiche, Rauschen und Verzögerung. Auch Betriebsbedingungen wie der erwartete Variationsbereich der Profilparameter müssen ermittelt werden. Schließlich müssen Belohnungen und Ziele aktualisiert werden, um sie an die Geometrie und die gewünschten Formen anzupassen.

Die oben genannten Eigenschaften sollten leicht verfügbar sein, da sie typischerweise Teil des Designprozesses für einen bestimmten Tokamak sind. Tatsächlich werden für den allgemeinen Entwurf und die Analyse eines neuen Tokamaks routinemäßig Grad-Shafranov-Gleichgewichtsberechnungen durchgeführt, die alle erforderlichen Parameter umfassen. Diese Variationen in der Gefäßgeometrie sowie der Anzahl, Platzierung und Reichweite von Sensoren und Spulen sollten über die Anpassung der Designgrenzen hinaus keine Änderungen am Lernalgorithmus erfordern. Der Lernalgorithmus passt die Abmessungen der Eingabe- und Ausgabeebene für das neuronale Netzwerk automatisch an und erlernt automatisch eine Richtlinie, die für das neue Schiff und Steuerungssystem geeignet ist.

Für die Bereitstellung sind weitere Überlegungen erforderlich. Unser Ansatz erfordert ein zentralisiertes Steuerungssystem mit ausreichender Rechenleistung, um ein neuronales Netzwerk mit der gewünschten Steuerungsfrequenz auszuwerten, obwohl eine Desktop-CPU ausreicht, um diese Anforderung zu erfüllen. Außerdem ist ein vorhandener magnetischer Controller erforderlich, um den Plasmaabbau und den frühen Hochlauf durchzuführen, bevor er an den erlernten Controller übergeben wird. Obwohl unsere Controller darauf trainiert sind, Abbrüche in der Simulation entsprechend den Störungskriterien zu vermeiden, können sie nicht garantieren, dass sie Plasmastörungen vermeiden. Wenn der Ziel-Tokamak daher bestimmte Arten von Störungen nicht tolerieren kann, sollte während der Experimente eine Maschinenschutzschicht wie ein einfacherer Fallback-Controller oder ein Verriegelungssystem vorhanden sein.

TCV-Versuchsdaten aus den Bildern in diesem Artikel sind in den Zusatzinformationen verfügbar. Quelldaten werden mit diesem Dokument bereitgestellt.

Der in der Akteur-Kritiker-RL-Methode verwendete Lernalgorithmus ist MPO23, dessen Referenzimplementierung unter einer Open-Source-Lizenz verfügbar ist41. Zusätzlich wurden die Softwarebibliotheken launchpad50, dm_env51, sonnet52, tensorflow53 und reverb40 verwendet, die ebenfalls als Open Source verfügbar sind. Der Code zur Berechnung der Kontrollziele, Belohnungen und Kündigungen ist in den Zusatzinformationen verfügbar. FGE und LIUQE sind vorbehaltlich einer Lizenzvereinbarung des Swiss Plasma Center der EPFL (Antoine Merle [email protected], Federico Felici [email protected]) erhältlich.

Hofmann, F. et al. Erzeugung und Kontrolle unterschiedlich geformter Plasmen im TCV. Plasmaphysik. Kontrolle. Fusion 36, B277 (1994).

Artikel ADS CAS Google Scholar

Coda, S. et al. Physikalische Forschung an der TCV-Tokamak-Anlage: von konventionellen zu alternativen Szenarien und darüber hinaus. Nukl. Fusion 59, 112023 (2019).

Artikel ADS CAS Google Scholar

Anand, H., Coda, S., Felici, F., Galperti, C. & Moret, J.-M. Ein neuartiger Plasma-Positions- und Formregler für die erweiterte Konfigurationsentwicklung am TCV-Tokamak. Nukl. Fusion 57, 126026 (2017).

Artikel ADS Google Scholar

Mele, A. et al. MIMO-Formkontrolle am EAST-Tokamak: Simulationen und Experimente. Fusion Eng. Des. 146, 1282–1285 (2019).

Artikel CAS Google Scholar

Anand, H. et al. Kontrolle der Plasmaflussexpansion am DIII-D-Tokamak. Plasmaphysik. Kontrolle. Fusion 63, 015006 (2020).

Artikel ADS Google Scholar

De Tommasi, G. Plasmamagnetische Steuerung in Tokamak-Geräten. J. Fusion Energy 38, 406–436 (2019).

Artikel Google Scholar

Walker, ML & Humphreys, DA Gültige Koordinatensysteme für linearisierte Plasmaformreaktionsmodelle in Tokamaks. Fusionswissenschaft. Technol. 50, 473–489 (2006).

Artikel CAS Google Scholar

Blum, J., Heumann, H., Nardon, E. & Song, X. Automatisierung des Entwurfs von Tokamak-Experimentsszenarien. J. Comput. Physik. 394, 594–614 (2019).

Artikel ADS MathSciNet Google Scholar

Ferron, JR et al. Echtzeit-Gleichgewichtsrekonstruktion für die Tokamak-Entladungskontrolle. Nukl. Fusion 38, 1055 (1998).

Artikel ADS CAS Google Scholar

Moret, J.-M. et al. Tokamak-Gleichgewichtsrekonstruktionscode LIUQE und seine Echtzeitimplementierung. Fusionstechnik. Dez. Rev. 91, 1–15 (2015).

Artikel CAS Google Scholar

Xie, Z., Berseth, G., Clary, P., Hurst, J. & van de Panne, M. Feedback-Kontrolle für Cassie mit tiefem Verstärkungslernen. Im Jahr 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) 1241–1246 (IEEE, 2018).

Akkaya, I. et al. Zauberwürfel mit einer Roboterhand lösen. Vorabdruck unter https://arxiv.org/abs/1910.07113 (2019).

Bellemare, MG et al. Autonome Navigation von Stratosphärenballons mittels Reinforcement Learning. Natur 588, 77–82 (2020).

Artikel ADS CAS Google Scholar

Humphreys, D. et al. Die Weiterentwicklung der Fusion mit maschinellem Lernen erfordert einen Workshop-Bericht. J. Fusion Energy 39, 123–155 (2020).

Artikel CAS Google Scholar

Bishop, CM, Haynes, PS, Smith, ME, Todd, TN & Trotman, DL Echtzeitsteuerung eines Tokamak-Plasmas mithilfe neuronaler Netze. Neuronale Berechnung. 7, 206–217 (1995).

Artikel Google Scholar

Joung, S. et al. Grad-Shafranov-Löser für tiefe neuronale Netze, eingeschränkt durch gemessene magnetische Signale. Nukl. Fusion 60, 16034 (2019).

Artikel Google Scholar

van de Plassche, KL et al. Schnelle Modellierung des turbulenten Transports in Fusionsplasmen mithilfe neuronaler Netze. Physik. Plasmen 27, 022310 (2020).

Artikel ADS Google Scholar

Abbate, J., Conlin, R. & Kolemen, E. Datengesteuerte Profilvorhersage für DIII-D. Nukl. Fusion 61, 046027 (2021).

Artikel ADS CAS Google Scholar

Kates-Harbeck, J., Svyatkovskiy, A. & Tang, W. Vorhersage störender Instabilitäten in kontrollierten Fusionsplasmen durch Deep Learning. Natur 568, 526–531 (2019).

Artikel ADS CAS Google Scholar

Jardin, S. Computational Methods in Plasma Physics (CRC Press, 2010).

Grad, H. & Rubin, H. Hydromagnetische Gleichgewichte und kraftfreie Felder. J. Nucl. Energie (1954) 7, 284–285 (1958).

Artikel Google Scholar

Carpanese, F. Entwicklung freier Gleichgewichts- und Transportlöser für die Simulation und Echtzeitinterpretation von Tokamak-Experimenten. Doktorarbeit, EPFL (2021).

Abdolmaleki, A. et al. Relative Entropie regulierte Richtlinieniteration. Vorabdruck unter https://arxiv.org/abs/1812.02256 (2018).

Paley, JI, Coda, S., Duval, B., Felici, F. & Moret, J.-M. Architektur und Inbetriebnahme des verteilten Feedback-Steuerungssystems TCV. Im Jahr 2010 17. IEEE-NPSS Real Time Conference 1–6 (IEEE, 2010).

Freidberg, JP Plasmaphysik und Fusionsenergie (Cambridge Univ. Press, 2008).

Hommen, GD et al. Optische Plasmagrenzenrekonstruktion in Echtzeit zur Plasmapositionskontrolle am TCV Tokamak. Nukl. Fusion 54, 073018 (2014).

Artikel ADS CAS Google Scholar

Austin, ME et al. Erzielung einer reaktorrelevanten Leistung in negativer Dreiecksform im DIII-D-Tokamak. Physik. Rev. Lett. 122, 115001 (2019).

Artikel ADS CAS Google Scholar

Kolemen, E. et al. Erste Entwicklung der DIII-D-Schneeflocken-Divertorsteuerung. Nukl. Fusion 58, 066007 (2018).

Artikel ADS Google Scholar

Anand, H. et al. Magnetische Echtzeitsteuerung der Schneeflockenplasmakonfiguration im TCV-Tokamak. Nukl. Fusion 59, 126032 (2019).

Artikel ADS CAS Google Scholar

Wigbers, M. & Riedmiller, M. Eine neue Methode zur Analyse der neuronalen Referenzmodellsteuerung. In Proc. Internationale Konferenz über neuronale Netze (ICNN'97) Bd. 2, 739–743 (IEEE, 1997).

Berkenkamp, ​​F., Turchetta, M., Schoellig, A. & Krause, A. Sicheres modellbasiertes Verstärkungslernen mit Stabilitätsgarantien. Im Jahr 2017 Fortschritte in neuronalen Informationsverarbeitungssystemen 908–919 (ACM, 2017).

Wabersich, KP, Hewing, L., Carron, A. & Zeilinger, MN Probabilistische modellprädiktive Sicherheitszertifizierung für lernbasierte Steuerung. IEEE Tran. Automat. Kontrolle 67, 176–188 (2021).

Artikel MathSciNet Google Scholar

Abdolmaleki, A. et al. Zur mehrzieligen Richtlinienoptimierung als Instrument für verstärktes Lernen. Vorabdruck unter https://arxiv.org/abs/2106.08199 (2021).

Coda, S. et al. Überblick über das TCV-Tokamak-Programm: wissenschaftlicher Fortschritt und Anlagenmodernisierungen. Nukl. Fusion 57, 102011 (2017).

Artikel ADS Google Scholar

Karpushov, AN et al. Neutralstrahlheizung am TCV-Tokamak. Fusionstechnik. Dez. Rev. 123, 468–472 (2017).

Artikel CAS Google Scholar

Lister, JB et al. Modellierung und Validierung der Plasmagleichgewichtsreaktion auf JT-60U. Nukl. Fusion 42, 708 (2002).

Artikel ADS CAS Google Scholar

Lister, JB et al. Die Steuerung von Plasmen mit variabler Tokamak-Konfiguration. Fusionstechnologie. 32, 321–373 (1997).

Artikel CAS Google Scholar

Ulyanov, D., Vedaldi, A. & Lempitsky, V. Instanznormalisierung: die fehlende Zutat für eine schnelle Stilisierung. Vorabdruck unter https://arxiv.org/abs/1607.08022 (2016).

Andrychowicz, M. et al. Worauf kommt es beim richtlinienkonformen Verstärkungslernen an? Eine groß angelegte empirische Studie. In ICLR 2021 Neunte Internationale Konferenz über lernende Repräsentationen (2021).

Cassirer, A. et al. Reverb: ein Rahmen für die Wiedergabe von Erlebnissen. Vorabdruck unter https://arxiv.org/abs/2102.04736 (2021).

Hoffman, M. et al. Acme: ein Forschungsrahmen für verteiltes Verstärkungslernen. Vorabdruck unter https://arxiv.org/abs/2006.00979 (2020).

Hofmann, F. FBT – ein Tokamak-Gleichgewichtscode mit freien Grenzen für stark verlängerte und geformte Plasmen. Berechnen. Physik. Komm. 48, 207–221 (1988).

Artikel ADS CAS Google Scholar

Abadi, M. et al. TensorFlow: ein System für groß angelegtes maschinelles Lernen. In Proc. 12. USENIX-Symposium zum Design und zur Implementierung von Betriebssystemen (OSDI '16) 265–283 (2016).

De Tommasi, G. et al. Modellbasierte Plasma-Vertikalstabilisierung und Positionskontrolle bei EAST. Fusion Eng. Des. 129, 152–157 (2018).

Artikel Google Scholar

Gerkšič, S. & De Tommasi, G. ITER-Plasmastrom- und -formsteuerung mit MPC. Im Jahr 2016 IEEE Conference on Control Applications (CCA) 599–604 (IEEE, 2016).

Boncagni, L. et al. Leistungsbasierte Controller-Umschaltung: eine Anwendung zur Plasmastromsteuerung an der FTU. Im Jahr 2015 54. IEEE-Konferenz zu Entscheidung und Kontrolle (CDC) 2319–2324 (IEEE, 2015).

Wakatsuki, T., Suzuki, T., Hayashi, N., Oyama, N. & Ide, S. Sicherheitsfaktorprofilsteuerung mit reduziertem zentralen Magnetflussverbrauch während der Plasmastrom-Hochlaufphase unter Verwendung einer Reinforcement-Learning-Technik. Nukl. Fusion 59, 066022 (2019).

Artikel ADS CAS Google Scholar

Wakatsuki, T., Suzuki, T., Oyama, N. & Hayashi, N. Kontrolle des Ionentemperaturgradienten mithilfe der Reinforcement-Learning-Technik. Nukl. Fusion 61, 046036 (2021).

Artikel ADS CAS Google Scholar

Seo, J. et al. Feedforward-Beta-Kontrolle im KSTAR-Tokamak durch Deep Reinforcement Learning. Nukl. Fusion 61, 106010 (2021).

Artikel ADS CAS Google Scholar

Yang, F. et al. Launchpad: ein Programmiermodell für verteilte maschinelle Lernforschung. Vorabdruck unter https://arxiv.org/abs/2106.04516 (2021).

Muldal, A. et al. dm_env: eine Python-Schnittstelle für verstärkende Lernumgebungen. http://github.com/deepmind/dm_env (2019).

Reynolds, M. et al. Sonnet: TensorFlow-basierte neuronale Netzwerkbibliothek. http://github.com/deepmind/sonnet (2017).

Martín A. et al. TensorFlow: groß angelegtes maschinelles Lernen auf heterogenen Systemen. Software verfügbar unter https://www.tensorflow.org/ 2015.

Hender, TC et al. Kapitel 3: MHD-Stabilität, Betriebsgrenzen und Störungen. Nukl. Fusion 47, S128–S202 (2007).

Referenzen herunterladen

Wir danken dem TCV-Team (siehe Autorenliste von Coda et al.2) für seine Arbeit und Unterstützung bei der Ermöglichung dieser experimentellen Ergebnisse. Wir danken C. Wüthrich und Y. Andrebe für die Unterstützung bei der Diagnostik. Wir danken C. Jones und E. Smith für die strategische Hilfe und Inspiration zu Beginn des Projekts. Wir danken R. Ahamed, P. Komarek, V. Panneershelvam und F. Song für ihre Unterstützung bei der Vorbereitung und während dieser Forschung. Diese Arbeit wurde teilweise vom Schweizerischen Nationalfonds unterstützt.

Diese Autoren haben gleichermaßen beigetragen: Jonas Degrave, Federico Felici, Jonas Buchli, Michael Neunert, Brendan Tracey, Francesco Carpanese, Timo Ewalds, Roland Hafner, Martin Riedmiller

DeepMind, London, Großbritannien

Jonas Degrave, Jonas Buchli, Michael Neunert, Brendan Tracey, Francesco Carpanese, Timo Ewalds, Roland Hafner, Abbas Abdolmaleki, Diego de las Casas, Craig Donner, Leslie Fritz, Andrea Huber, James Keeling, Maria Tsimpoukelli, Jackie Kay, Seb Noury, David Pfau, Pushmeet Kohli, Koray Kavukcuoglu, Demis Hassabis und Martin Riedmiller

Swiss Plasma Center - EPFL, Lausanne, Schweiz

Federico Felici, Francesco Carpanese, Cristian Galperti, Antoine Merle, Jean-Marc Moret, Federico Pesamosca, Olivier Sauter, Cristian Sommariva, Stefano Coda, Basil Duval und Ambrogio Fasoli

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

BT, FC, FF, JB, JD, MN, MR, RH und TE trugen gleichermaßen bei. DP, FF, JB, JD, MR und RH haben das Projekt konzipiert. AH, BT, FF, JB, JD, LF, MN und MR leiteten das Projekt. AM, BT, CD, CS, FC, FF, FP, JB, J.-MM, MN und OS entwickelten die Physiksimulationen. BT, CD, DC, FF, JD, J. Kay, MN, MT und TE haben die Physiksimulationen in das Lernrahmenwerk integriert. AA, BT, JD, J. Keeling, RH und TE entwickelten den Lernrahmen und führten Lernexperimente durch. CG, DC, FF, JB, JD, MN, SN und TE haben die Echtzeit-Schnittstelle für neuronale Netzwerke entwickelt. CG, FC, FF, JD und SC integrierten das Echtzeit-Neuronale Netzwerk in das Steuerungssystem und führten Tokamak-Experimente durch. CD, DC, FC, FF, JB, J. Keeling, MN und TE entwickelten Datenkurationstools. BT, CG, FC, FF, JB, J. Keeling, MN, RH und TE entwickelten und führten die Datenanalyse durch. AF, BD, DH, SC, KK und PK waren für das Projekt beratend tätig. BT, FC, FF, JB, JD, MN, MR, RH und TE haben das Manuskript geschrieben.

Korrespondenz mit Federico Felici, Jonas Buchli oder Brendan Tracey.

BT, FC, FF, JB, JD, MN, RH und TE haben eine vorläufige Patentanmeldung zum Inhalt dieses Manuskripts eingereicht. Die übrigen Autoren erklären keine konkurrierenden Interessen.

Nature dankt Takuma Wakatsuki und den anderen, anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

a, b Fotos, die den Teil des TCV im Bioschild zeigen. c CAD-Zeichnung des Behälters und der Spulen des TCV. d Blick ins Innere des TCV (Alain Herzog/EPFL) mit Darstellung der Begrenzerkacheln, Leitbleche und der Mittelsäule.

Wir haben die rekonstruierten Werte für den normalisierten Druck βp und den Sicherheitsfaktor qA zusammen mit dem Bereich der Domänen-Randomisierung, den diese Variablen während des Trainings sahen (in Grün), aufgetragen, der in der erweiterten Datentabelle 2 zu finden ist. Wir zeichnen auch die Wachstumsrate γ auf und den Plasmastrom Ip zusammen mit dem zugehörigen Zielwert. Wo relevant, zeichnen wir die Dehnung κ, die Neutralstrahlerwärmung, die Dreieckigkeit δ und die vertikale Position des unteren X-Punkts ZX und seines Ziels auf.

Quelldaten

Um die Variabilität der Leistung zu veranschaulichen, die unser deterministischer Controller in der Umgebung erzielt, haben wir die Trajektorien einer Richtlinie aufgezeichnet, die zweimal in der Anlage angewendet wurde: in Aufnahme 70599 (in Blau) und Aufnahme 70600 (in Orange). Die gestrichelte Linie zeigt, wo die Querschnitte des Gefäßes dargestellt sind. Die Flugbahnen werden von der Übergabe bei 0,0872 s bis 0,65 s nach dem Zusammenbruch gezeigt. Danach wurde bei Schuss 70600 die Neutralstrahlheizung eingeschaltet und die beiden Schüsse divergieren. Die grüne Linie zeigt den RMSE-Abstand zwischen dem LCFS in den beiden Experimenten und liefert ein direktes Maß für die Formähnlichkeit zwischen den beiden Aufnahmen. Dies verdeutlicht die Wiederholbarkeit von Experimenten sowohl in Bezug auf Formparameter wie Dehnung κ und Dreieckigkeit δ als auch in Bezug auf den Fehler, der in Bezug auf die Ziele im Plasmastrom Ip und der Form der letzten geschlossenen Flussoberfläche erzielt wird.

Quelldaten

a: Wenn das Mittel ohne weitere Angaben dazu aufgefordert wird, das Plasma zu stabilisieren, erzeugt es eine runde Form. Der Agent hat ab t = 0,45 die Kontrolle und ändert die Form, während er versucht, Ra- und Za-Ziele zu erreichen. Dieses entdeckte Verhalten ist in der Tat eine gute Lösung, da dieses runde Plasma mit einer Wachstumsrate γ < 0 intrinsisch stabil ist der gleiche Effekt wie die OH001-Spule. Dies ist zwar möglich, wie die Spulenpositionen in Abb. 1g zeigen, verursacht jedoch elektromagnetische Kräfte auf die Maschinenstrukturen. Daher wurde in späteren Aufnahmen eine Belohnung hinzugefügt, um den Strom in beiden ohmschen Spulen nahe beieinander zu halten. c, Spannungsanforderungen durch die Richtlinie, um zu verhindern, dass die E3-Spule beim Überschreiten von 0 A hängen bleibt. Wie beispielsweise in Abb. 4b der erweiterten Daten zu sehen ist, können die Ströme bei niedrigen Spannungsanforderungen bei 0 A hängen bleiben, eine Folge von wie diese Anfragen vom Energiesystem verarbeitet werden. Da dieses Verhalten schwer zu modellieren war, haben wir eine Belohnung eingeführt, um die Spulenströme von 0 A fernzuhalten. Die Steuerungsrichtlinie erzeugt eine Hochspannungsanforderung, um sich schnell durch diesen Bereich zu bewegen. d, Eine Darstellung des Unterschieds in den Querschnitten zwischen zwei verschiedenen Aufnahmen, wobei der einzige Unterschied darin besteht, dass die Richtlinie auf der rechten Seite mit einer weiteren Belohnung für die Vermeidung von X-Punkten im Vakuum trainiert wurde.

Quelldaten

Die episodische Belohnung für die deterministische Richtlinie wird über 20 Episoden mit aktivierten Parametervariationen geglättet, wobei 100 bedeutet, dass alle Ziele perfekt erreicht werden. ein Vergleich der Lernkurve für den Fähigkeitsbenchmark (wie in Abb. 2 dargestellt) unter Verwendung unseres asymmetrischen Akteur-Kritikers mit einem symmetrischen Akteur-Kritiker, bei dem der Kritiker dasselbe echtzeitfähige Feedforward-Netzwerk wie der Akteur verwendet. In Blau ist die Leistung mit dem Standardkriterium von 718.337 Parametern dargestellt. In Orange zeigen wir die symmetrische Version, in der der Kritiker die gleiche Feedforward-Struktur und -Größe (266.497 Parameter) wie die Richtlinie (266.280 Parameter) hat. Wenn wir die Feedforward-Struktur des symmetrischen Kritikers beibehalten und den Kritiker vergrößern, stellen wir fest, dass eine Erweiterung seiner Breite auf 512 Einheiten (in Grün, 926.209 Parameter) oder sogar 1.024 Einheiten (in Rot, 3.425.281 Parameter) die Leistungslücke nicht schließt der kleinere wiederkehrende Kritiker. b Vergleich zwischen der Verwendung verschiedener Mengen an Wirkstoffen zur Stabilisierung eines leicht verlängerten Plasmas. Obwohl die Richtlinien in diesem Dokument mit 5.000 Akteuren trainiert wurden, zeigt dieser Vergleich, dass zumindest für einfachere Fälle das gleiche Leistungsniveau mit viel geringeren Rechenressourcen erreicht werden kann.

Quelldaten

Diese Datei enthält eine Übersicht über die Dateien, die sich im zugehörigen ZIP-Ordner „Supplementary Data“ befinden.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Degrave, J., Felici, F., Buchli, J. et al. Magnetische Kontrolle von Tokamak-Plasmen durch tiefes Verstärkungslernen. Natur 602, 414–419 (2022). https://doi.org/10.1038/s41586-021-04301-9

Zitat herunterladen

Eingegangen: 14. Juli 2021

Angenommen: 01. Dezember 2021

Veröffentlicht: 16. Februar 2022

Ausgabedatum: 17. Februar 2022

DOI: https://doi.org/10.1038/s41586-021-04301-9

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Rezensionen zu Modern Plasma Physics (2023)

Naturkommunikation (2022)

Nature Reviews Physik (2022)

Nature Machine Intelligence (2022)

Wissenschaftliche Berichte (2022)

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.