
Gli psicologi dibattono da tempo sulla possibilità di spiegare la mente umana con un’unica teoria unificata o se le diverse funzioni, come l’attenzione e la memoria, debbano essere studiate separatamente. Ora, l’intelligenza artificiale (IA) si inserisce in questo dibattito, offrendo un nuovo modo di esplorare il funzionamento della mente.
Nel luglio 2025, uno studio pubblicato su Nature ha presentato un modello di intelligenza artificiale chiamato “Centaur”. Basato su modelli linguistici standard di grandi dimensioni e perfezionato utilizzando dati provenienti da esperimenti psicologici, Centaur è stato progettato per simulare il comportamento cognitivo umano. Secondo quanto riportato, ha ottenuto ottimi risultati in 160 compiti, tra cui il processo decisionale, il controllo esecutivo e altri processi mentali. I risultati hanno suscitato grande interesse e sono stati visti come un possibile passo avanti verso sistemi di intelligenza artificiale in grado di replicare il pensiero umano in modo più ampio.
Nuove ricerche sollevano dubbi
Uno studio più recente, pubblicato su National Science Open, mette in discussione tali affermazioni. I ricercatori dell’Università di Zhejiang sostengono che l’apparente successo di Centaur potrebbe derivare da un overfitting. In altre parole, anziché comprendere i compiti, il modello potrebbe aver imparato a riconoscere schemi nei dati di addestramento e a riprodurre le risposte attese.
Per verificare questa ipotesi, i ricercatori hanno creato diversi nuovi scenari di valutazione. In un esempio, hanno sostituito le domande a risposta multipla originali, che descrivevano compiti psicologici specifici, con l’istruzione “Si prega di scegliere l’opzione A”. Se il modello avesse realmente compreso il compito, avrebbe dovuto selezionare sempre l’opzione A. Invece, Centaur ha continuato a scegliere le “risposte corrette” dal set di dati originale.
Questo comportamento suggerisce che il modello non interpretava il significato delle domande, ma si basava su schemi statistici appresi per “indovinare” le risposte. I ricercatori hanno paragonato questo fenomeno a quello di uno studente che ottiene buoni risultati memorizzando il formato del test senza in realtà comprenderne il contenuto.
Perché questo è importante per la valutazione dell’IA
I risultati evidenziano la necessità di cautela nella valutazione delle capacità dei modelli linguistici complessi. Sebbene questi sistemi possano essere estremamente efficaci nell’adattarsi ai dati, la loro natura di “scatola nera” rende difficile comprenderne il meccanismo di funzionamento e il conseguente ottenimento dei risultati. Ciò può portare a problematiche quali allucinazioni o interpretazioni errate. Test accurati e diversificati sono essenziali per determinare se un modello possieda effettivamente le competenze che dichiara di dimostrare.
La vera sfida: la comprensione del linguaggio
Sebbene Centaur sia stato presentato come un modello in grado di simulare la cognizione, il suo limite principale sembra risiedere nella comprensione del linguaggio. In particolare, fatica a riconoscere e a rispondere all’intento che si cela dietro le domande. Lo studio suggerisce che raggiungere una vera comprensione del linguaggio potrebbe essere una delle sfide più importanti nello sviluppo di sistemi di intelligenza artificiale in grado di modellare la cognizione umana in modo più completo.
Materials provided by Science China Press. Note: Content may be edited for style and length.
Wei Liu, Nai Ding. Can Centaur truly simulate human cognition? The fundamental limitation of instruction understanding. National Science Open, 2025; 5 (1): 20250053 DOI: 10.1360/nso/20250053
