ChatGPT – ein Meilenstein für die digitale Medizin?

Ein Expertenbeitrag von Wolfgang Nejdl, Direktor des L3S Forschungszentrums an der Leibniz Universität Hannover und Mitglied der Plattform Lernende Systeme

Für viele steht ChatGPT für einen iPhone-Moment, eine Sprunginnovation, die in kürzester Zeit unsere Arbeits- und Lebenswelt verändert. Auch wenn die Ergebnisse von ChatGPT bei Weitem nicht perfekt sind – die aktuelle Aufmerksamkeit für große Sprachmodelle sei gerechtfertigt, auch für die Medizin würden sie enormes Potenzial versprechen, schreibt Wolfgang Nejdl, Professor an der Universität Hannover und Mitglied der Plattform Lernende Systeme.

Wolfgang Nejdl, Direktor des L3S Forschungszentrums an der Leibniz Universität Hannover

Große Sprachmodelle basieren auf Machine Learning-Algorithmen, die auf großen Datenmengen aus dem Internet, Social Media, Foren, Artikeln und Büchern trainiert wurden, um mit minimalem Input schnell neue Inhalte, in diesem Fall Text, zu generieren. Eine Zahl: GPT-3 ist mit 175 Milliarden Parametern eines der weltweit größten KI-Modelle für die Verarbeitung menschlicher Sprache (Natural Language Processing, NLP), sein Nachfolger GPT-4 ist nochmals vielseitiger, präziser und zuverlässiger. Große Sprachmodelle können menschliche Sprache in überzeugender Weise reproduzieren, als hätte sie ein Mensch verfasst.

Natürlich machen die Sprachmodelle noch Fehler. Wir sprechen in der Informatik von Halluzination dieser Modelle, wenn fehlende Informationen aufgrund der komplexen Sprachtiefenstruktur interpretiert werden müssen und aus diesen Lücken Fehlinterpretationen entstehen. Vermeintlich perfekte, geschliffene Texte entpuppen sich als phasenweise falsch oder unpräzise. Das kann fatale Auswirkungen haben. Dennoch: Die Programme und die ihnen zugrundeliegende großen Modelle stellen einen immensen Sprung dar, was die Feinheit, Raffinesse, Innovationsgeschwindigkeit und die Fähigkeiten dieser NLP-Technologie anbelangt.

ChatGPT ist neben Googles PaLM, Baidus ERNIE oder das auf medizinische Texte spezialisierte BioGPT dennoch nur eines von vielen großen Sprachmodellen. Auch deutsche Forscherinnen und Forscher arbeiten an generativer Künstlicher Intelligenz (KI), darunter Open GPT-X und Aleph Alpha. Die Einsatzgebiete für generative KI sind nahezu grenzenlos. Überall dort, wo menschliche Sprache eine Rolle spielt – in der Kundenberatung, in der Bildung, aber auch im Gesundheitssystem – kann sie wirkungsvoll sein. Denken wir an KI-gestützte Entscheidungs- und Unterstützungssysteme im klinischen Bereich: hier können generative KI-Systeme die unter Informations- und Verwaltungslast leidenden Ärzt:innen und Pflegekräfte unterstützen, etwa um einfache Berichte automatisiert aus Text- und anderen Daten zu erstellen.

Große Sprachmodelle eröffnen in der Medizin viele Chancen

Denkbar ist auch, dass eine KI-gestützte Suchmaschine hilft, unterschiedliche Datenquellen zusammenzutragen und zusammenzufassen, wie das seit Kurzem mit Microsoft Bing möglich ist. Hier könnte in Zukunft der lokale Zugriff auf Patientendaten (natürlich unter Berücksichtigung datenschutzrechtlicher Bestimmungen) ebenso wie der Zugriff auf weltweite Studienergebnisse möglich sein. Diese Vernetzung von Sprachmodellen mit anderen Quellen ermöglicht eine weitere Steigerung der Fähigkeiten einer solchen KI. Sie ermöglicht das „Grounding“ des Sprachmodells, also die Validierung und Erweiterung um Informationen aus dem Web sowie aus medizinischen Datenbanken, und den sicheren Zugriff auf lokale Patientendaten, wie Testresultate und Analysedaten ebenso wie Zwischendiagnosen und Berichte des behandelnden Arztes.

Sprachmodelle haben speziell für die Medizin enormes Potential. Sie eröffnen der Ärztin oder dem Arzt die Möglichkeit, auf alle relevanten Informationen in natürlicher Sprache zuzugreifen. Mit BioGPT hat Microsoft ein ebenfalls auf der GPT-2 Architektur aufbauendes generatives Transformer-Sprachmodell entwickelt, das mit umfangreicher wissenschaftlicher Literatur der Biomedizin trainiert wurde. BioGPT ermöglicht nun die Analyse biomedizinischer Texte und die Extraktion relevanter Informationen für einen konkreten Anwendungsfall, etwa einen multiresistenten Erreger (MRE). Besonders für immungeschwächte Menschen sind MRE eine ernsthafte Bedrohung, wenn der Behandlungserfolg einer Infektion aufgrund von Resistenzen ausbleibt.

Große Sprachmodelle können in der Medizin helfen, relevante Informationen über MRE zusammenzufassen, Hypothesen für die weitere Forschung zu formulieren, Diagnoseunterstützung anzubieten oder auch Therapiewege vorzuschlagen. Vergleichbar mit BioGPT ist BioMedLM, ein offenes Sprachmodell entwickelt in Stanford, in Kooperation mit MosaicML, dessen Code auch bereits auf der Entwicklerplattform GitHub verfügbar ist. Forschende haben hier also die Möglichkeit, das Modell für Forschungszwecke ebenso wie für unterschiedliche medizinische Anwendungen weiterzuentwickeln – den Zugriff auf entsprechend hohe Rechenleistung vorausgesetzt.

Werteorientierte Sprachmodelle aus Europa

Das wird mit dem durch das Bundesforschungsministerium (BMBF) geförderten KI-Servicezentrum für sensible und kritische Infrastrukturen (KISSKI) für Medizin und Energie nun möglich. Es entstehen hier zwei dezentrale Cluster in Göttingen und Hannover. Beteiligt sind Universitätskliniken, Hochschulen und KI-Forschungszentren wie das L3S, an dem wir bereits im Rahmen des vom BMBF geförderten Internationalen Zukunftslabors für Künstliche Intelligenz und Personalisierte Medizin gemeinsam mit Kolleg:innen aus aller Welt an neuen KI-Methoden für personalisierte Therapien für Leukämie, Brustkrebs und andere Krankheiten forschen.

Kommen wir zurück zum Problem der Halluzination von generativen KI-Systemen. Eine unpräzise Routenempfehlung des Chat-Bots eines Bahnunternehmens mag unerfreulich für den Reisenden enden. Es wäre aber eine verschmerzbare Halluzination im Vergleich zu einer erfundenen oder zumindest nicht ausreichend abgesicherten Therapieempfehlung zur Behandlung einer MRE-Infektion. Was schließen wir daraus? Apples iPhone wurde Mitte der 2000er Jahre belächelt, ob seiner (damaligen) Unzulänglichkeiten und des kapazitiven Touchscreens. Die weitere Entwicklung kennen wir.

Unterschätzen wir also nicht diesen Durchbruch, den wir derzeit erleben – weder technisch noch gesellschaftlich. Und: Europa steht nach wie vor für einen werteorientierten Ansatz im Umgang mit neuen Technologien und deren Verwendung in sensiblen Wirtschafts- und Gesellschaftsbereichen. In der Plattform Lernende Systeme setzen wir uns mit ethischen, rechtlichen und technischen Anforderungen an eine vertrauenswürdige Künstliche Intelligenz auseinander. Aus anspruchsvollen Standards kann ein Nachteil erwachsen, wenn andere Wirtschaftsregionen schneller und pragmatischer KI-basierte Produkte und Dienstleistungen in den Markt bringen. Es kann aber auch eine Chance sein, auf Basis von offenen europäischen Sprachmodellen wie Open GPT-X und anderen KI-Anwendungen „made in Europe“ zu einem weltweiten Qualitäts- und Verantwortungsstandard zu machen.

Beitrag erschienen in:

Tagesspiegel Background
April 2023

Zurück