Der Trend zum Einsatz von Verfahren der künstlichen Intelligenz (KI) mit ihren Teilbereichen Maschine Learning (ML) und Deep Learning (DL) ist weltweit ungebrochen. Insbesondere letzteres Verfahren kommt auch in der Medizin immer häufiger zum Einsatz [12, 16]. Ein Anwendungsbereich, der derzeit besonders viel Interesse erzeugt, ist die KI-basierte Elektrokardiogramm(EKG)-Analyse. Mit diesem Thema beschäftigt sich die vorliegende zweiteilige Übersicht. In Teil 1 dieser Übersicht wurden die Grundlagen der Anwendung von ML- und DL-Algorithmen besprochen. Der vorliegende Teil 2 widmet sich dem aktuellen Stand der KI-basierten EKG-Analyse, aktuellen Studien zum praktischen Einsatz dieser neuen Technologien und möglichen zukünftigen Perspektiven der Anwendung.

Wie groß das Interesse an der KI-basierten EKG-Analyse ist, spiegelt die Anzahl der in den letzten Jahren zu diesem Thema in PubMed publizierten wissenschaftlichen Veröffentlichungen wider. Seit 2017 steigt sie exponentiell (Abb. 1), vor allem Untersuchungen, die Deep Learning (DL) mit künstlichen neuronalen Netzen (KNN) einsetzen. Inhaltlich geht es in den publizierten Studien nicht nur darum, mit Hilfe von KI die Schwächen der klassischen EKG-Diagnostik zu überwinden und die diagnostische Güte des Verfahrens zu verbessern, sondern auch um den Einsatz des EKG als Verfahren zur Erkennung spezieller kardiologischer und nichtkardiologischer Krankheitsbilder und als Prädiktor für klinische Ereignisse, z. B. der zukünftigen Entwicklung einer linksventrikulären Dysfunktion [3] und von Vorhofflimmern [4]. Die beiden letzteren Modalitäten sind gänzlich neu. Sie machen den Einsatz von KI basierend auf DL erforderlich. Beispiele für aktuelle Studien, die sich mit diesen neuen Themenbereichen beschäftigen, sind in Tab. 1 zusammengestellt.

Abb. 1
figure 1

In PubMed aufgeführte Publikationen zum Thema EKG und künstliche Intelligenz. Suche nach „ECG + (artificial intelligence)“ (durchgezogene LinieKI), „ECG + (deep learning)“ (gestrichelte LinieDL) und „ECG + (machine learning)“ (gepunktete LinieML). Es besteht eine inhaltliche Überschneidung bei den aufgefundenen Publikationen. Die Anzahl der Arbeiten, die Deep Learning einsetzen, hat deutlich zugenommen. Berücksichtigt werden muss, dass es sich bei den in PubMed aufgeführten Arbeiten meistens um begutachtete Publikationen (Peer-Review-Verfahren) handelt. Anderweitige wissenschaftliche Literatur (Veröffentlichungen in Bänden zu Symposium, Abstracts etc.) wird nicht aufgeführt. Für die EKG-Forschung gilt, dass solche nichtbegutachteten Berichte, die bevorzugt aus der Forschung der medizinischen Informatik kommen, häufig sind. Dieser Aspekt führt dazu, dass Abfragen in PubMed die wissenschaftliche Aktivität unterschätzen und auch einige Jahre hinterherhinken

Tab. 1 Studien zur EKG-Analyse unter Zuhilfenahme von Deep Learning (Auswahl)

Automatische Klassifizierung von EKG-Befunden mittels traditionellem ML

Die ersten Arbeiten zur EKG-Analyse mittels traditionellem ML wurden bereits in den 1980ern veröffentlicht. Vor Kurzem sind mehrere ausführliche Übersichten erschienen, die den aktuellen Stand zusammenfassen [17, 21]. Im Vordergrund stehen Studien, die sich mit der automatisierten EKG-Interpretation beschäftigen. Hierbei wird bevorzugt überwachtes Lernen eingesetzt, d. h. die EKGs sind bereits mit Diagnosen versehen. Als Goldstandard bei der Diagnosestellung wird die Auswertung durch Kardiologen angesehen. Dass es auch unter Kardiologen große Unterschiede in der Expertise bei der EKG-Auswertung gibt, bleibt dabei meistens unberücksichtigt. Eine häufig für diese Analysen genutzte Datenbasis stellen die in Teil 1 dieser Übersicht bereit aufgelisteten frei im Internet zugänglichen EKG-Datenbanken dar. Die Güte der ML-basierten Klassifizierung, gemessen anhand der AUC (d. h. der Fläche unter der ROC-Kurve, vgl. Teil 1) übersteigt oft 90 % und schlägt nahezu immer den auswertenden Arzt. Insgesamt ergeben sich aber doch Schwachpunkte, die dazu geführt haben, dass eine klinische Implementierung der auf traditionellen ML-basierten Algorithmen bislang so gut wie ausgeblieben ist. Problematisch sind u. a. der große Aufwand bei der Signalaufarbeitung, lange Berechnungszeiten und Probleme bei der Generalisierung der Modelle. Letzteres ist nicht selten durch Overfitting bedingt, d. h. einer Überanpassung des Modells auf die Trainingsdaten und ein schlechteres Abschneiden hinsichtlich der Vorhersage bei Testdaten [19]. Die meisten Arbeiten stammen aus dem Bereich der Ingenieurswissenschaften und scheinen hier ein gewisses Eigenleben zu führen – die Modelle werden zwar mit viel Mühe erstellt, eine Validierung – als Voraussetzung für den praktischen Einsatz – findet aber so gut wie nicht statt. Das Interesse der EKG-Geräte-Industrie an solchen ML-basierten Algorithmen ist bislang eher gering. Die Hersteller von EKG-Geräten halten an der seit vielen Jahren etablierten klassischen automatisierten EKG-Auswertung fest, obwohl sie mit einer vollkommen unakzeptablen Fehlerrate (20–30 % bei der Diagnostik von Rhythmusstörungen) behaftet ist [23]. Hier mag eine Rolle spielen, dass die Gewinnmargen bei klassischen 12-Kanal-EKG-Geräten so gering geworden sind, dass sich ein Überarbeiten der Gerätetechnik mit Implementierung neuer KI-basierter Auswertealgorithmen, die den Kauf neuer Geräte begründen würde, nicht zu lohnen scheint [18]. Es ist nicht unwahrscheinlich, dass sich dies in den nächsten Jahren in Zusammenhang mit der unaufhaltsam zunehmenden Anwendung von KI und der Einführung und verstärkten Nutzung neuer EKG-Technologien (Patch-EKG-Rekorder, EKG-fähige Wearables) wieder ändern wird.

EKG-Analyse mit Hilfe tiefer neuronaler Netze

Der aktuelle Hype um KI ist vor allem durch DL mittels KNN begründet. Hierdurch wird die Verarbeitung umfangreicher und hochdimensionaler Daten ermöglicht (vgl. Teil 1). Nachdem DL seine Stärken im Bereich der automatischen Bilderkennung und der natürlichen Spracherkennung bewiesen hat, wird es neuerdings auch vermehrt im Bereich der EKG-Analyse eingesetzt [7, 25, 26, 29]. Für solche Untersuchungen reichen die bei PhysioNet zur Verfügung gestellten EKG-Datensätze meistens nicht aus. Immer mehr basieren die publizierten Untersuchungen auf den bereits in Teil 1 dieser Arbeit besprochenen privaten Datensätzen großer Institute oder Kliniken. Thematisch stehen zwei Aspekte im Vordergrund. Zum einen geht es, ähnlich wie bei der ML-basierten EKG-Analyse, um die weitere Optimierung der traditionellen EKG-Diagnostik. Zum anderen werden Fragestellungen bearbeitet, die für die Elektrokardiographie neu sind. Es geht um die Identifikation spezieller kardiologischer Krankheitsbilder und die allein EKG-basierte Vorhersage von Krankheitszuständen, z. B. der zukünftigen Entwicklung einer linksventrikulären Dysfunktion oder dem zukünftigen Auftreten von Vorhofflimmern. Tab. 1 führt exemplarisch einige aktuelle Studien zu diesen neuen Themen auf. Die Ergebnisse dieser Untersuchungen zeigen, dass viel mehr Informationen im EKG stecken, als landläufig angenommen wird bzw. im Rahmen der klassischen EKG-Auswertung genutzt werden, und die allein darauf basieren, dass Kriterien erfüllt werden, die sich historisch herausgebildet haben. Die mit solchen Zielereignissen einhergehenden EKG-Veränderungen scheinen zum Teil so subtil und/oder komplex zu sein, dass der klassischerweise das EKG auswertende Arzt gar nicht in der Lage ist, sie zu realisieren bzw. sinnvoll zu nutzen. In diesem Zusammenhang wird auch von subklinischen EKG-Veränderungen gesprochen.

Weitere, über die Anwendung von ML hinausgehende Optimierung der traditionellen EKG-Diagnostik

Vor dem Hintergrund der zunehmenden Arbeitsbelastung im ärztlichen Bereich und des ebenfalls zunehmenden Bedarfs an elektrokardiographischer Diagnostik, der auch dadurch zustande kommt, dass längere Registrierdauern (mittlerweile oft mehrere Tage) immer mehr zur Regel werden, sind leistungsfähige Algorithmen zur Unterstützung der EKG-Analyse unbedingt wünschenswert. Aktuelle Studien zeigen die Möglichkeiten auf, die sich in Zusammenhang mit einer DL-basierten EKG-Analyse ergeben [20, 27, 30]. Sie ist nicht nur der klassischen computerassistierten EKG-Auswertung, sondern auch der EKG-Analyse mit Hilfe von traditionellem ML überlegen [27]. Leider ist bei den meisten vorgeschlagenen Algorithmen bislang keine klinische Validierung erfolgt. Dies steht ihrer praktischen Anwendung im Weg. Zudem fehlt es an Erklärbarkeit [10]. Diese bezieht sich auf die dem entwickelten Algorithmus zugrunde liegenden Regeln. Erklärbarkeit hilft dem Menschen nicht nur zu verstehen, sondern auch zu vertrauen. Beide Aspekte dürften für die zukünftige Akzeptanz der KI-basierten EKG-Analyse ausgesprochen wichtig sein.

Identifikation spezieller Krankheitsbilder

Abgesehen von Rhythmusstörungen, deren Definition auf elektrokardiographischen Kriterien basiert, erlaubt die klassische Elektrokardiographie nur selten und sehr eingeschränkt, kardiologische Krankheitsbilder explizit zu diagnostizieren. Aktuell gibt es eine ganze Reihe von Studien, die anstreben, diese Limitation mit Hilfe von DL zu überwinden. Ko und Mitarbeiter [13] beschäftigten sich mit der Frage, inwieweit eine KI-unterstützte EKG-Analyse in der Lage ist, Patienten mit einer hypertrophen Kardiomyopathie (HCM) zu identifizieren. Die HCM ist zwar selten, klinisch aber bedeutsam. Sie ist eine der häufigsten Ursachen für plötzliche Todesfäll im Sport. Unter Verwendung der EKGs von 2500 Patienten mit einer validierten HCM-Diagnose und von mehr als 50.000 alters- und geschlechtsgleichen Kontrollpersonen ohne HCM wurde ein konvolutionales KNN trainiert und validiert, um eine HCM allein auf der Grundlage des EKG zu diagnostizieren [13]. In einer unabhängigen Testkohorte von 612 Patienten mit HCM und 12.788 Kontrollpersonen betrug die AUC des KNN 0,96 (95 % KI 0,95–0,96) mit einer Sensitivität von 87 % und einer Spezifität von 90 %.

Zu einer ähnlich hohen AUC kamen Tison et al. [28]. Unter Verwendung von knapp 35.000 EKGs entwickelten sie ein DL-Modell, das nicht nur Patienten mit einer HCM, sondern auch Patienten mit pulmonaler Hypertonie, einer Amyloidose und einem Mitralklappenprolaps erkennt. Die AUC war bei Patienten mit HCM und pulmonaler Hypertonie mit 0,91 und 0,94 sehr hoch; bei den anderen Erkrankungen war sie mit 0,86 (Amyloidose) und 0,74 (MVP) deutlich niedriger. Die zukünftige praktisch-klinische Bedeutung solcher KI-Modelle dürfte beim Screening liegen.

Eine ähnliche Perspektive ergibt sich für KI-Modelle, die anstreben, Patienten mit einer Aortenklappenstenose [9, 14] und einer Herzinsuffizienz mit erhaltener linksventrikulärer Funktion zu identifizieren [24].

Auch extrakardiale Faktoren beeinflussen das EKG-Bild und können mittels KI anhand des EKG identifiziert werden. Hierzu gehören nicht nur das Geschlecht und das Alter [6], sondern auch Veränderungen der Serum-Kaliumkonzentration. In einer erst kurz zurückliegenden Evaluierung wurde ein Modell auf die Erkennung von Serum-Kaliumwerten von ≥ 5,5 mmol/l trainiert. Es wurden über 500.000 EKGs von fast 450.000 Patienten, bei denen der Serum-Kaliumspiegel zeitgleich bestimmt wurde, verwendet [11]. Die AUC im Validierungsdatensatz lag zwischen 0,873 und 0,883. In einer multizentrischen, externen Validierungskohorte ergab sich eine Sensitivität von 90 % und eine Sensitivität von 89 % [2]. Die Autoren spekulieren, dass der Algorithmus eine klinisch bedeutsame Hyperkaliämie ohne Blutabnahme erkennt und zum Screening auf Hyperkaliämien eingesetzt werden könnte.

Vorhersage kardialer Funktionsstörungen

Das Management der chronischen Herzinsuffizienz mit reduzierter systolischer Funktion stellt eine der großen Herausforderungen der gegenwärtigen Medizin dar. Es mangelt an Möglichkeiten der Frühdiagnose. Grundsätzlich ist diese zwar echokardiographisch möglich, das Verfahren ist aber personal- und kostenintensiv. Ein einfach einsetzbares Screeningverfahren, das in der Lage ist, Patienten mit einer eingeschränkten linksventrikulären Funktion zu identifizieren, bevor Symptome einer Herzinsuffizienz vorliegen, fehlt. Aktuelle Untersuchungen deuten darauf hin, dass sich dies ändern könnte. Attia und Mitarbeiter [3] konnten kürzlich zeigen, dass es anhand des EKG möglich ist, eine sich entwickelnde linksventrikuläre Dysfunktion mittels EKG vorherzusehen. Das Trainieren des zur elektrokardiographischen Diagnostik einer linksventrikulären Funktionseinschränkung (Ejektionsfraktion ≤ 35 %) verwendete tiefe neuronale Netz erfolgte anhand von rund 45.000 Datensätzen. Zu jedem Patienten bzw. EKG stand eine innerhalb von 14 Tagen durchgeführte Echokardiographie zur Verfügung. Die Testung des Algorithmus erfolgte mithilfe weiterer rund 53.000 Patienten. Die Fläche unter der ROC-Kurve betrug 0,93, die Sensitivität 93 %, die Spezifität 86,3 % und die Genauigkeit 85,7 %. Vor dem Hintergrund, dass der Nachweis einer linksventrikulären Funktionsstörung eher als eine Schwäche und nicht als eine besondere Stärke der traditionellen Elektrokardiographie angesehen wird, sind diese Ergebnisse ausgesprochen erstaunlich. Aktuell beschäftigt sich die Arbeitsgruppe mit der klinischen Validierung des Algorithmus [1, 5]. Zu ähnlichen Ergebnissen wie Attia kamen Kwon und Mitarbeiter, die neben dem EKG auch klinische Parameter in ihre DL-Modelle mit einbezogen [15].

Vorhersage von Vorhofflimmern

Vorhofflimmern ist die häufigste behandlungsbedürftige Rhythmusstörung. Die Tatsache, dass es initial oft nur paroxysmal auftritt und schon in dieser Phase eine deutliche Erhöhung des Schlaganfallrisikos resultiert, limitiert die Bedeutung eines EKG erheblich. Über die Möglichkeiten eines Screenings auf asymptomatisches Vorhofflimmern wird viel diskutiert. Eindeutige Vorgaben zum Vorgehen gibt es bislang nicht. Dass es EKG-Veränderungen gibt, die ein erhöhtes Risiko für Vorhofflimmern anzeigen (z. B. eine verbreiterte P‑Welle), ist schon lange bekannt. Traditionelle EKG-Algorithmen versagen hier allerdings und das Wissen über diese diagnostische Möglichkeit bleibt meistens das Wissen einzelner. In einer kürzlich publizierten DL-basierenden Analyse zur Identifikation von Patienten mit bis dahin nicht bekanntem Vorhofflimmern aus EKGs mit Sinusrhythmus wurden knapp 500.000 EKGs von 126.526 Patienten eingeschlossen [4]. 8,5 % der Patienten entwickelten innerhalb von 31 Tagen nach diesem EKG Vorhofflimmern. Das entwickelte tiefe neuronale Netz war in der Lage, die Arrhythmie mit einer Sensitivität von 79 %, einer Spezifität von 79,5 % und einer Genauigkeit von 79,4 % vorherzusagen; die Fläche unterhalb der ROC-Kurve betrug 0,87. In einem begleitenden Editorial wurde diese Untersuchung begeistert aufgenommen. Letztendlich muss aber bedacht werden, dass die Sensitivität allenfalls mäßig ist. Bei jedem 5. Patienten wird das Vorhofflimmern nicht erkannt. Es ist wichtig zu realisieren, dass es bei dieser Untersuchung nicht darum ging, Patienten zu identifizieren, die im Langzeitverlauf Vorhofflimmern entwickeln. Das Ziel war vielmehr, Patienten zu erkennen, die bis dahin nicht bekanntes Vorhofflimmern aufweisen.

Mit der Frage, inwieweit es mittels DL gelingt, bei Vorliegen von Sinusrhythmus das paroxysmale Auftreten von VHF zu detektieren, beschäftigten sich auch Baek und Mitarbeiter [8]. Die diagnostische Güte ihres Algorithmus war vergleichbar mit dem von Attia. Bemerkenswert ist, dass die von Baek und Mitarbeitern vorgestellte Analyse auf nur knapp 2500 EKGs beruhte. Damit stellt sich die Frage, ob tatsächlich immer so große Datensätze notwendig sind, wie sie z. B. in den Untersuchungen von Attia und Mitarbeitern [4] verwendet wurden. Die Untersuchungen von Baek und Mitarbeitern [8] sind ein Beispiel dafür, dass DL auch mit kleineren Datensätzen gelingen kann.

Probleme und Risiken bei der KI-assistierten EKG-Analyse

Es wurde bereits erwähnt, dass vor allem für die Entwicklung von DL umfangreiche Datensätze notwendig sind. Zu bedenken gilt, dass sich auch in solchen großen Datensätzen Fehler und andere Unzulänglichkeiten einschleichen können, die in der Lage sind, die Leistung der generierten Modelle bzw. deren Generalisierung zu beinträchtigen. In diesem Zusammenhang wird von Bias (Verzerrung) gesprochen [22]. Bias kann z. B. dann entstehen, wenn systematisch Fehler bei der Datenakquirierung gemacht werden oder die Datensätze für das untersuchte Patientenkollektiv nicht repräsentativ sind. Aus diesen Gründen sind beim Einsatz von KI immer qualitativ hochwertige Datensätze notwendig, die sorgfältig hinsichtlich ihrer Eignung für KI-Anwendungen geprüft werden müssen.

Unverzichtbar sind eine sorgfältige Validierung und Zertifizierung von KI. Die Modalitäten, nach denen beide erfolgen sollen, sind gerade Gegenstand intensiver Diskussionen. Zu einer Validierung von Algorithmen gehört nicht nur die Sicherstellung der Übertragbarkeit von KI-Lösungen auf andere Patientenkollektive. Auch die Übertragung auf neue IT-Umgebungen muss gewährleistet sein. KI wird auch in der Lage sein müssen, aktualisiert zu werden und dazuzulernen. Wie dies erfolgen soll, ist bislang unklar. Derzeit herrscht Einigkeit darüber, dass es eine hundertprozentige Richtigkeit von KI-Entscheidungen in absehbarer Zeit nicht geben wird. Viele Experten schätzen, dass es sie nie geben wird. Von der automatisierten EKG-Auswertung ist bekannt, dass eine unkritische Übernahme von falschen Befunden zu unnötigen Untersuchungen und Kosten führen kann. Dies dürfte in gleicher Weise für die KI-basierte Elektrokardiographie gelten – auch der KI-basierte EKG-Befund muss ärztlicherseits überprüft werden. Eine Verbesserung der Erklärbarkeit von KI dürfte das Vertrauen in KI wachsen lassen. Hersteller von KI-basierter EKG-Software übernehmen keine Haftung für Fehlentscheidungen ihrer KI. Dies muss dem Anwender bewusst sein.

Schlussfolgerungen

KI hat mittlerweile auch die Elektrokardiographie erreicht. Die verfügbaren Studien sind insofern spannend, als es nicht nur um eine Optimierung der klassischen Elektrokardiographie geht, sondern ganz neue Wege der elektrokardiographischen Diagnostik beschritten werden. Auch wenn die KI-basierte EKG-Diagnostik derzeit noch in den Kinderschuhen steckt, ist absehbar, dass das EKG als einfach anzuwendendes und kostengünstiges diagnostisches Verfahren mit Hilfe dieser neuen Technologien zukünftig für den Arzt wieder interessanter und wichtiger werden wird. Der Einzug von KI in die medizinische Diagnostik wird wohl in den nächsten Jahren unaufhaltsam voranschreiten, dies gilt auch für die Elektrokardiographie. Ersetzen wird KI den Arzt aber auch in diesem Bereich auf absehbare Zeit nicht.