Met meer dan 100 verschillende oorzaken is het een uitdaging om de juiste diagnose te stellen bij polyneuropathieën. Taalmodellen als ChatGPT kunnen hierbij mogelijk helpen. Een studie vergeleek daarom de diagnostische prestaties van het nieuwe taalmodel GPT-4o met die van polyneuropathie-experts en niet-gespecialiseerde neurologen.
Een team uit Milaan verzamelde bij derdelijnscentra gegevens van 100 patiënten met een bevestigde diagnose polyneuropathie. De gegevens betroffen demografische variabelen en diverse klinische kenmerken, waaronder symptoompresentatie, relevante comorbiditeit en gegevens uit lichamelijk onderzoek, zenuwgeleidingsonderzoek en bloedonderzoek. Deze informatie werd omgezet in een tekstgebaseerde klinische samenvatting.
De onderzoekers gaven GPT-4o de opdracht om via een stapsgewijze analyse van de klinische samenvattingen te komen tot de meest waarschijnlijke diagnose, en 2 alternatieven. Een tweede opdracht aan GPT-4o was om de meest nuttige bevestigende test te selecteren. De onderzoekers vroegen 19 polyneuropathie-experts en 17 niet-gespecialiseerde neurologen hetzelfde te doen (op basis van de medische gegevens van de patiënten), daarna de uitkomsten van GPT-4o te bekijken en aan te geven of ze hun diagnose wilden bevestigen of herzien.
GPT-4o presteerde beter dan de niet-gespecialiseerde neurologen wat betreft de nauwkeurigheid van de meest waarschijnlijke diagnose (65,5% versus 54,4%; p = 0,007), maar minder goed dan de experts (73,9%; p = 0,024). Na het bekijken van de suggesties van GPT-4o wijzigden niet-experts hun aanvankelijke diagnose bij 21% van de patiënten, waardoor de nauwkeurigheid significant toenam. De experts waren veel minder geneigd om hun antwoorden te wijzigen. Verder overtrof GPT-4o de niet-gespecialiseerde neurologen in de keuze van de bevestigende test (68,0% versus 45,3%; p < 0,001) en was daarin even goed als de experts (67,3%; n.s.).
Concluderend zegt de hoofdonderzoeker dat gebruik van GPT-4o het kennisverschil tussen experts en niet-experts kan overbruggen, maar dat het instrument wel fouten maakt waardoor controle door mensen vooralsnog nodig blijft.
Bron: