Un modello di intelligenza artificiale all'avanguardia, che sembrava imitare il pensiero umano, potrebbe in realtà limitarsi a memorizzare le risposte. Nuovi test rivelano che ha difficoltà nella vera comprensione, mettendo in luce una grave lacuna negli attuali sistemi di intelligenza artificiale. Fonte: AI/TheSolverItaly
Un modello di intelligenza artificiale all’avanguardia, che sembrava imitare il pensiero umano, potrebbe in realtà limitarsi a memorizzare le risposte. Nuovi test rivelano che ha difficoltà nella vera comprensione, mettendo in luce una grave lacuna negli attuali sistemi di intelligenza artificiale. Fonte: AI/TheSolverItaly

Gli psicologi dibattono da tempo sulla possibilità di spiegare la mente umana con un’unica teoria unificata o se le diverse funzioni, come l’attenzione e la memoria, debbano essere studiate separatamente. Ora, l’intelligenza artificiale (IA) si inserisce in questo dibattito, offrendo un nuovo modo di esplorare il funzionamento della mente.

Nel luglio 2025, uno studio pubblicato su Nature ha presentato un modello di intelligenza artificiale chiamato “Centaur”. Basato su modelli linguistici standard di grandi dimensioni e perfezionato utilizzando dati provenienti da esperimenti psicologici, Centaur è stato progettato per simulare il comportamento cognitivo umano. Secondo quanto riportato, ha ottenuto ottimi risultati in 160 compiti, tra cui il processo decisionale, il controllo esecutivo e altri processi mentali. I risultati hanno suscitato grande interesse e sono stati visti come un possibile passo avanti verso sistemi di intelligenza artificiale in grado di replicare il pensiero umano in modo più ampio.

Perchè non farla

Ti piace il nostro
impegno nella divulgazione ?
Aiutaci con una

Fai una donazione con PayPal

Di qualunque importo Con PayPal
Grazie per il sostegno

Nuove ricerche sollevano dubbi

Uno studio più recente, pubblicato su National Science Open, mette in discussione tali affermazioni. I ricercatori dell’Università di Zhejiang sostengono che l’apparente successo di Centaur potrebbe derivare da un overfitting. In altre parole, anziché comprendere i compiti, il modello potrebbe aver imparato a riconoscere schemi nei dati di addestramento e a riprodurre le risposte attese.

Per verificare questa ipotesi, i ricercatori hanno creato diversi nuovi scenari di valutazione. In un esempio, hanno sostituito le domande a risposta multipla originali, che descrivevano compiti psicologici specifici, con l’istruzione “Si prega di scegliere l’opzione A”. Se il modello avesse realmente compreso il compito, avrebbe dovuto selezionare sempre l’opzione A. Invece, Centaur ha continuato a scegliere le “risposte corrette” dal set di dati originale.

Questo comportamento suggerisce che il modello non interpretava il significato delle domande, ma si basava su schemi statistici appresi per “indovinare” le risposte. I ricercatori hanno paragonato questo fenomeno a quello di uno studente che ottiene buoni risultati memorizzando il formato del test senza in realtà comprenderne il contenuto.

Perché questo è importante per la valutazione dell’IA

I risultati evidenziano la necessità di cautela nella valutazione delle capacità dei modelli linguistici complessi. Sebbene questi sistemi possano essere estremamente efficaci nell’adattarsi ai dati, la loro natura di “scatola nera” rende difficile comprenderne il meccanismo di funzionamento e il conseguente ottenimento dei risultati. Ciò può portare a problematiche quali allucinazioni o interpretazioni errate. Test accurati e diversificati sono essenziali per determinare se un modello possieda effettivamente le competenze che dichiara di dimostrare.

La vera sfida: la comprensione del linguaggio

Sebbene Centaur sia stato presentato come un modello in grado di simulare la cognizione, il suo limite principale sembra risiedere nella comprensione del linguaggio. In particolare, fatica a riconoscere e a rispondere all’intento che si cela dietro le domande. Lo studio suggerisce che raggiungere una vera comprensione del linguaggio potrebbe essere una delle sfide più importanti nello sviluppo di sistemi di intelligenza artificiale in grado di modellare la cognizione umana in modo più completo.

 

Approfondimenti

Materials provided by Science China Press. Note: Content may be edited for style and length.


Wei Liu, Nai Ding. Can Centaur truly simulate human cognition? The fundamental limitation of instruction understanding. National Science Open, 2025; 5 (1): 20250053 DOI: 10.1360/nso/20250053

 

Facebooktwitterredditpinterestlinkedinmailby feather