Zu vorsichtig für die Versorgung: Schwächen von ChatGPT bei Gesundheitsfragen

Laut einer Studie der TU Berlin neigen ChatGPT-Modelle zu übervorsichtigen Empfehlungen. Für die gezielte Steuerung von PatientInnen im Gesundheitssystem reicht das aktuell nicht aus.

Künstliche Intelligenz wird zunehmend auch für gesundheitliche Fragen genutzt. Viele Menschen verwenden Tools wie ChatGPT, um Beschwerden einzuordnen und abzuschätzen, ob sie sofort medizinische Hilfe brauchen, ärztlichen Rat einholen sollten oder zunächst abwarten können.

In einer neuen Studie aus dem Fachgebiet Arbeitswissenschaft der Technischen Universität Berlin haben Forschende deshalb analysiert, wie genau ChatGPT in verschiedenen Modellversionen gesundheitliche Beschwerden einordnet, wie sich die Leistung im Zeitverlauf verändert hat und ob identische Eingaben konsistente Empfehlungen erzeugen. Das Ergebnis: Für die digitale Ersteinschätzung und eigenständige Patientensteuerung ist ChatGPT derzeit nur eingeschränkt geeignet.

Für die Studie „Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice“ testete das Forschungsteam 22 ChatGPT-Modellversionen anhand echter Fälle von 45 PatientInnen. Jeder Fall wurde pro Modell zehnmal eingegeben. Insgesamt entstanden so 9.900 Einzelbewertungen. Die Modelle mussten jeweils entscheiden, ob ein Fall als Notfall, als Fall für ärztliche Abklärung oder als Fall für Selbstversorgung einzustufen ist.

Die Studie zeigt ein strukturelles Muster: Fast alle Modelle neigen dazu, Beschwerden vorsichtshalber als behandlungsbedürftiger einzustufen, als es medizinisch erforderlich wäre. Hinzu kommt ein weiteres Problem: Die Modelle antworten nicht durchgängig konsistent. Bei identischen Eingaben kam es je nach Modell zu teils deutlichen Schwankungen.

Die Ergebnisse sind auch gesundheitspolitisch relevant. In Deutschland wird intensiv über ein Primärversorgungssystem und über Formen digitaler Patientensteuerung diskutiert. Die TU-Studie legt nahe, dass allgemeine Sprachmodelle wie ChatGPT dafür derzeit kein geeignetes allein einsetzbares Instrument sind. Wenn ein System in der Praxis überwiegend zur ärztlichen Abklärung rät, entsteht kaum ein echter Steuerungseffekt – unnötige ärztliche Inanspruchnahme kann dann sogar zunehmen.

Quelle: Informationsdienst Wissenschaft