19.02.2026 · Nachricht · Künstliche Intelligenz

Große Sprachmodelle offenbaren Schwächen in der Online- Patientenberatung

Große Sprachmodelle (LLMs) haben bei der medizinischen Beratung erhebliche Schwächen, insbesondere in der Interaktion mit Patientinnen und Patienten. Das belegt eine aktuelle Studie der Universität Oxford. Ergebnisse zeigen, dass LLMs, wie GPT-4o, Llama 3 und Command R+, unabhängig voneinander positiv abschneiden, jedoch in realen Interaktionen beim Identifizieren von Krankheiten und der Empfehlung weiterer Schritte weniger zuverlässig sind.

In einer kontrollierten Studie mit 1.298 erwachsenen Probanden wurde getestet, ob LLMs dabei helfen können, Gesundheitsprobleme zu identifizieren und geeignete Maßnahmen zu empfehlen. Die Teilnehmenden erhielten medizinische Szenarien, die von Ärzten entwickelt wurden, und sollten eine Vorgehensweise erfragen.

Während eine Gruppe Unterstützung von LLMs nutzte, informierte sich die Kontrollgruppe selbstständig (z. B. durch Internetrecherche). Die LLMs identifizierten Krankheiten in 94,9 Prozent der Fälle korrekt, als sie ohne menschliche Interaktion arbeiteten. In der Praxis, bei Nutzung durch Probanden, sank diese Quote jedoch signifikant. Im Vergleich war die Kontrollgruppe, die selbst online recherchierte erfolgreicher in der Ermittlung von Verdachtsdiagnosen. Diese Diskrepanz führen die Autoren auf Schwierigkeiten in der Mensch-LLM-Interaktion zurück. Die Nutzer hatten die größten Probleme bei der Formulierung von Anfragen und der Umsetzung der erhaltenen Informationen.

PRAXISTIPP — Über die Grenzen von KI spricht Gastgeber Dr. Benedict Carstensen mit Prof. Dr. Kai Wehkamp in Episode 12 des CB-Podcasts „Level Up Klinikführung“, online unter Abruf-Nr. 50698230.

Quelle

Bean, A.M., Payne, R.E., Parsons, G. et al. Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nat Med (2026). https://doi.org/10.1038/s41591-025-04074-y

Quelle: ID 50712318