Steeds vaker vragen patiënten medisch advies aan large language models (LLM’s), zoals ChatGPT. Hoe betrouwbaar zijn deze tools? In deze studie legden onderzoekers de populaire chatbot 40 echte vragen uit de klinische allergologie voor.1
Nu de gratis versie van ChatGPT (3.5) zelfs via WhatsApp bereikbaar is, stellen mensen graag vragen aan het populaire taalmodel. Maar er is weinig bekend over hoe betrouwbaar deze informatie is. In de zomer van 2024 hebben Duitse onderzoekers systematisch onderzocht hoe volledig, correct, nauwkeurig, toegankelijk en menselijk de antwoorden overkwamen van ChatGPT 3.5. Dit deden ze aan de hand van 40 echte vragen uit de praktijk.
Kritieke fout
De antwoorden zijn beoordeeld met de speciaal ontwikkelde Allergological Error Impact Analysis (AEIA). Deze tool helpt om mogelijke gezondheidsgevolgen te beoordelen van verkeerde adviezen. ChatGPT scoorde hoog op nauwkeurigheid (gemiddeld 4,4 van 5, bereik 4-5) en menselijkheid (97, bereik 73-100; SD 5). Maar de antwoorden waren lastig te begrijpen voor een breed publiek (gemeten met de Flesch Reading Ease Test). Belangrijker was dat de antwoorden niet altijd correct waren. In de 40 antwoorden zaten 24 fouten, onderverdeeld in 8 kleine, 17 grote en 1 kritieke fout. In dit laatste geval raadde ChatGPT sterke contactallergenen aan bij een patiënt met een vermoedelijke geurstoffenallergie. Dit had een ernstig gezondheidsrisico kunnen betekenen.
Finetuning
De studie laat daarmee zien dat LLM’s in staat zijn om realistisch ogende antwoorden te genereren, maar mogelijk met inhoudelijke fouten en verkeerde adviezen. De onderzoekers pleiten daarom voor contextgevoelige AI-tools, zoals Retrieval-Augmented Generation (RAG). RAG koppelt een taalmodel aan een medische kennisbron, zodat het model relevantere en beter onderbouwde antwoorden kan geven. Tot slot blijft menselijke supervisie onmisbaar bij dit soort gespecialiseerde medische vragen.
Bron:
- Mathes S, Seurig S, Darsow U, et al. Systematic evaluation of ChatGPT’s performance on 40 dermatological allergology questions with clinical error impact assessment for erroneous AI-guided chatbot-advice. EAACI 2025, poster presentation 100541.