ChatGPT di fronte ai quiz di medicina

Come si comporta ChatGPT di fronte a un quiz di Medicina? Questi LLM (Large Language Models) saranno in grado di ragionare e spiegare le loro scelte? Vi riportiamo la riflessione del Dr. Marc Cavazza.

Articolo tradotto dall'originale in francese

A cosa serve ChatGPT?

La stampa generalista è piena di articoli che annunciano le nuove e rivoluzionarie capacità dell'intelligenza artificiale (IA). L'ultima è la sua presunta capacità di rispondere in modo intelligente a ogni tipo di domanda e di generare testi di qualità sufficiente a ingannare perfino gli insegnanti. Si tratta di LLM (Large Language Models), che sono noti con gli acronimi ChatGPT, GPT-3.5 e presto GPT-4.
Un LLM è un modello statistico che ha imparato su una quantità immensa di testo (come l'intera Wikipedia), utilizzando un meccanismo di deep learning non supervisionato (cioè in grado di imparare su testo grezzo, senza bisogno di annotazioni che ne descrivano il contenuto o le proprietà). I sistemi LLM utilizzano una tecnica di apprendimento recente, introdotta nel 2017: i Transformer (da cui l'acronimo GPT, che sta per Generative Pre-trained Transformer).
In termini semplici, un LLM apprende un insieme di probabilità che determinano quale sequenza di parole dovrebbe "rispondere" a una frase che esprime una domanda o un quesito. In astratto, un LLM è quindi un sistema che genera testo in risposta ad altro testo. Ma, a differenza di un semplice motore di ricerca, il testo prodotto non è un semplice copia e incolla di un testo esistente da qualche parte in rete, bensì una produzione originale, realistica e grammaticalmente corretta.

LLM, "pappagalli avanzati”?

La potenza degli LLM deriva dal fatto che un gran numero di applicazioni può essere ridotto a questo meccanismo di generazione di testo a partire da una richiesta (il prompt):

Utilizzando fino a centinaia di miliardi di parametri, gli LLM sono estremamente complessi. La fase di apprendimento richiede risorse computazionali fenomenali, fuori dalla portata di un laboratorio di ricerca di medie dimensioni. Questo spiega perché la maggior parte dei LLM sono prodotti dalle grandi industrie digitali o da fondazioni da esse sostenute, come OpenAI.
Questi LLM sono oggetto di controversie e domande filosofiche. Prima di tutto, sono davvero una forma di autocomprensione o sono solo "pappagalli stocastici"? Una domanda più tecnica sarà interessante nel contesto di questo articolo: le forme elementari di ragionamento sono accessibili o meno ai LLM, utilizzando solo l'apprendimento testuale?

LLM davanti ai quiz a risposta multipla di Medicina!

Non meno di tre articoli1,2,3 di istituzioni rispettabili come Google o il MIT pubblicano i risultati di esperimenti in cui utilizzano i LLM per rispondere a questionari di medicina, in particolare a quiz a risposta multipla (MCQ, multiple choice question).
Si potrebbero vedere in questo esperimento diverse finalità. Quella di convalidare la tesi secondo cui lo studio della medicina è in fin dei conti solo memorizzazione o come un'opportunità per dimostrare che i sistemi LLM  possono imparare la medicina meglio dei medici. A meno che non si tratti di un'occasione per sottolineare un'impresa - risolvere un compito cognitivo complesso - e, perché no, superare anche in questo il vecchio rivale IBM e il suo Watson Health che ha avuto qualche battuta d'arresto.

Il mio obiettivo in questo articolo non è quello di dedicarmi a una lettura critica completa di articoli che, dopo tutto, sono piuttosto tecnici. Avrei certo un'idea sull'argomento e, allerta spoiler, ne parlerò meglio verso la fine dell'articolo. Invece, vorrei incoraggiare i lettori a interessarsi a questo argomento in maniera semplice. Anche se questa ricerca è all'avanguardia in uno dei campi più complessi, voglio credere che sia possibile affrontare questo argomento senza alcuna conoscenza avanzata di machine learning, utilizzando la propria naturale comprensione del problema in questione.
Infatti, i medici non solo hanno affrontato migliaia di quiz a risposta multipla, ma hanno anche sviluppato una capacità metacognitiva nell'approccio ai problemi medici, attraverso la consapevolezza della diagnosi differenziale, dei passi da compiere e persino, a seconda della disciplina, del ragionamento fisiopatologico.
Questo ci permette di affrontare il problema dei LLM in medicina attraverso due aspetti, che sono centrali in qualsiasi discussione sull'applicazione dell'IA in medicina clinica: la valutazione e la capacità di  spiegazione.

Oltre la memorizzazione?

Nella valutazione, si può avere un'idea della qualità delle risposte tenendo conto della difficoltà “cognitiva” dei quiz. Quando si confronta il sistema con le prestazioni umane, è importante non farsi intimidire dalle metriche multiple che piacciono tanto al machine learning, soprattutto in assenza di dati sulla distribuzione dei quiz a risposta multipla in termini di difficoltà. Per quanto riguarda la capacità di spiegazione, essa dipende ovviamente dal livello di ragionamento richiesto dal MCQ e spetta a voi giudicare se riproduce o meno un ragionamento medico plausibile.
Prima di tutto, eliminiamo la polemica sul valore dei quiz come modalità di valutazione in Medicina. Accettiamo la loro utilità, almeno come strumento metodologico, pur riconoscendo che non tutti i quiz offrono lo stesso livello di difficoltà, complessità o addirittura qualità.
Possiamo considerare che esistono diverse strategie cognitive per rispondere a un quiz: semplice memorizzazione, diagnosi differenziale, ragionamento fisiopatologico, a cui si possono aggiungere strategie predefinite derivate dalla struttura del quiz stesso (risposta per eliminazione, o unica risposta possibile).

I quiz utilizzati in questi lavori sui LLM sono tratti da diverse banche dati americane, come lo United States Medical Licensing Examination (USMLE). Si tratta di domande a risposta singola. Si può considerare del tutto naturale che i LLM possano rispondere a tutti i quiz basati sulla memorizzazione di informazioni. Ad esempio: individuare tra quattro possibilità il primo segno clinico di tetano o botulismo, oppure l'esame da considerare in caso di emergenza se si sospetta la malaria.
In un certo senso, questo è già un risultato molto interessante. Prendiamo ad esempio il seguente MCQ3, tratto da un dataset utilizzato per testare gli LLM (il database Massive Multitask Language Understanding).   

Domanda
Quale delle seguenti funzioni controlla la temperatura corporea, il sonno e l'appetito?
Risposta
(A) Ghiandole surrenali (B) Ipotalamo (C) Pancreas (D) Talamo

Fin qui, tutto bene. Ma se guardiamo i titoli dei tre articoli citati, sembra che vogliano andare oltre, parlando esplicitamente di conoscenza clinica o addirittura di ragionamento. Acquisire conoscenze cliniche? Sì, ma quali e in che misura? Possiamo ragionevolmente credere che la conoscenza sia un'entità autonoma e che per essere un medico sia sufficiente conoscere a memoria l'Harrison (o il proprio trattato di medicina preferito)?

Spiegazioni insoddisfacenti

I LLM possono davvero ragionare? Fino al punto di spiegare la loro scelta, che sembra essere un prerequisito per qualsiasi impiego, anche in collaborazione con un medico? Uno dei tre articoli2 propone di giustificare la "ratio" del sistema, il che è un lodevole sforzo di trasparenza. Sfortunatamente, diventa chiaro molto presto che le spiegazioni offerte sono alquanto lacunose, e senza nemmeno entrare in considerazioni troppo tecniche sull'IA.
Vi invito a guardare gli esempi e a farvi una vostra idea: sarete in grado di vedere i difetti e/o di proporre una spiegazione più soddisfacente di quella offerta dall'esempio proposto in questi articoli, sia nella vostra specialità che in generale.  
Infine, si può rimanere perplessi di fronte alla capacità dei LLM di rispondere, e spiegare questa risposta, a MCQ che richiedono un ragionamento più complesso. Soprattutto quando il quiz stesso può lasciare perplessi... Così questo MCQ, tratto dal database dell'USMLE3, per il quale la risposta (A) è proposta come corretta.

Domanda
Un uomo di 65 anni con ipertensione si reca dal medico per una visita di routine. I farmaci attuali includono atenololo, lisinopril e atorvastatina. La frequenza cardiaca è 86/min, la frequenza respiratoria 18/min e la pressione arteriosa 145/95 mmHg. L'esame cardiaco rivela un soffio diastolico. Quale delle seguenti è la diagnosi più probabile dopo questa visita?
Risposta
(A) Diminuzione della compliance del ventricolo sinistro
(B) Degenerazione mixomatosa della valvola mitrale
(C) Infiammazione del pericardio
(D) Dilatazione della radice aortica
(E) Ispessimento dei foglietti della valvola mitrale

Come promesso all'inizio dell'articolo, ho un'opinione in merito. Diciamo che avrei trovato preferibile che i titoli degli articoli avessero insistito sulla possibilità di rispondere a certi MCQ con un modello testuale, piuttosto che pretendere di acquisire o codificare una conoscenza clinica sui generis. Su quest'ultimo punto, infatti, ci sono obiezioni sia pratiche che teoriche.
In pratica, vediamo ancora molte risposte incerte, almeno quando gli autori hanno il coraggio di cercare di giustificare le risposte del loro sistema. In teoria, c'è un dibattito molto attivo sul fatto che i sistemi LLM possano riprodurre il ragionamento, che paradossalmente era più facile con le vecchie IA fortemente basate sulla logica (si noti che non sto dicendo che il ragionamento umano sia basato sulla logica formale).
Il consenso è piuttosto che attualmente i LLM possono riprodurre solo ragionamenti di lieve complessità. Così, Yann Le Cun4 li paragona a "studenti che hanno imparato a memoria il contenuto dei corsi, ma non hanno costruito veri modelli mentali delle situazioni descritte".
È ipotizzabile che i LLM possano riprodurre ragionamenti che si trovano alla lettera in alcuni dei testi che hanno imparato a conoscere, come semplici sillogismi, senza essere troppo sicuri della loro capacità di generalizzare il contenuto.

marc_cavazza.jpg

Marc Cavazza è un medico francese, con un dottorato di ricerca in biomatematica. Ha guidato gruppi di ricerca in diverse università britanniche, concentrandosi sulle interfacce cervello-computer e sulle applicazioni dell'intelligenza artificiale. Ha pubblicato nella maggior parte delle conferenze internazionali sull'argomento (IJCAI, AAAI, ECAI, ICML, NeurIPS).

L'introduzione della Chains of Thoughts o CoT2 ha lo scopo di dare una parvenza di coerenza ai risultati dei sistemi LLM. Tuttavia, come forma, rimane molto al di sotto dei precedenti modelli di ragionamento nell'IA simbolica e assomiglia più a un espediente che a una vera e propria teoria.
Rimane lontano da un ragionamento ipotetico-deduttivo. Eppure è proprio questo tipo di ragionamento che caratterizza la diagnosi differenziale. Per quanto riguarda il ragionamento fisiopatologico, non ce ne sono esempi in questi articoli. Inoltre, sembra difficile trovare in un modello testuale la granularità del ragionamento che permette di applicarlo a casi clinici per definizione molto specifici, senza il rischio di confondere le situazioni.
Prima di affermare che sono in grado di scoprire la conoscenza clinica, i LLM dovrebbero quindi essere valutati con MCQ che richiedono un ragionamento di fondo, come tutti noi. Dovrebbero anche essere in grado di produrre una giustificazione non banale per le risposte fornite.
Non è per nulla paradossale notare che, quando l'IA si cimenterà con la medicina, ci renderemo finalmente conto che la medicina non è solo un banale apprendimento mnemonico...
 

Note e riferimenti:
1. Jin, D.; Pan, E.; Oufattole, N.; Weng, W.-H.; Fang, H.; Szolovits, P. What Disease Does This Patient Have? A Large-Scale Open Domain Question Answering Dataset from Medical Exams. Appl. Sci. 2021, 11, 6421. https://doi.org/10.3390/app11146421
2. V Liévin, CE Hother, O Winther. Can large language models reason about medical questions? eprint arXiv:2207.08143. July 2022. DOI 10.48550/arXiv.2207.08143
3. Singhal, K., Azizi, S., Tu, T., Mahdavi, S.S., Wei, J., Chung, H.W., Scales, N., Tanwani, A., Cole-Lewis, H., Pfohl, S. and Payne, P . Large Language Models Encode Clinical Knowledge. eprint arXiv:2212.13138. December 2022. DOI 10.48550/arXiv.2212.13138
4. Il ricercatore francese di intelligenza artificiale Yann Le Cun è considerato uno degli inventori del deep learning. Il suo lavoro si concentra in particolare sulla visione artificiale, sulle reti neurali artificiali e sul riconoscimento delle immagini. Dirige il laboratorio di ricerca sull'intelligenza artificiale di Facebook.