Cercetarea a fost realizată de Mass General Brigham din Massachusetts și publicată în JAMA Network Open. Specialiștii au analizat modul în care modelele de inteligență artificială interpretează cazuri clinice și cât de corecte sunt concluziile acestora.
Cum au fost testate modelele de inteligență artificială
Studiul a folosit 29 de scenarii clinice construite pe baza unor texte medicale de referință. Chatboților le-au fost oferite treptat informații despre pacienți, inclusiv simptome, observații din consultații și rezultate ale analizelor. În total, au fost evaluate 21 de modele lingvistice dezvoltate de companii precum OpenAI, Google, Anthropic, xAI și DeepSeek.
Rezultatele arată că, atunci când informațiile sunt incomplete, toate modelele testate au oferit diagnostice greșite în peste 80% din cazuri.Chiar și atunci când au avut acces la toate datele necesare, performanța nu a fost constantă. Rata erorilor a rămas peste 40%, deși în unele situații anumite modele au reușit să identifice corect diagnosticul în până la 90% dintre cazuri.
De ce apar aceste erori
Specialiștii explică faptul că acuratețea răspunsurilor depinde în mare măsură de volumul și calitatea informațiilor primite. Cu toate acestea, chiar și în condiții ideale, modelele pot induce în eroare utilizatorii. Motivul principal este fenomenul cunoscut drept „halucinații” în inteligența artificială. Acesta apare atunci când un model generează răspunsuri care par plauzibile, dar care nu sunt susținute de date reale sau suficiente.
Studiul subliniază limitele actuale ale utilizării chatboților în domeniul medical. Deși pot fi utili pentru informare generală, aceștia nu pot înlocui evaluarea realizată de un medic.