Fonte: Unsplash/CC0 Dominio pubblico
Fonte: Unsplash/CC0 Dominio pubblico

I sistemi di intelligenza artificiale basati su reti neurali, come ChatGPT, Claude, DeepSeek o Gemini, sono straordinariamente potenti, eppure il loro funzionamento interno rimane in gran parte una “scatola nera”. Per comprendere meglio come questi sistemi producono le loro risposte, un gruppo di fisici dell’Università di Harvard ha sviluppato un modello matematico semplificato dell’apprendimento nelle reti neurali che può essere analizzato matematicamente utilizzando gli strumenti della fisica statistica.

I “modelli giocattolo”, come quello presentato in uno studio pubblicato sul Journal of Statistical Mechanics: Theory and Experiment , forniscono ai ricercatori un laboratorio teorico controllato per indagare i meccanismi fondamentali delle reti neurali.

Una comprensione più approfondita del funzionamento di questi sistemi potrebbe contribuire alla progettazione di sistemi di intelligenza artificiale più efficienti e affidabili, affrontando al contempo alcune delle sfide attuali.

Le leggi dell’IA

È un po’ come quando Keplero descrisse le leggi che governano il moto dei pianeti. “Le leggi di gravitazione universale di Newton furono scoperte inizialmente identificando le leggi di scala tra i periodi orbitali dei pianeti e i loro raggi”, spiega Alexander Atanasov, dottorando in fisica teorica all’Università di Harvard e primo autore del nuovo studio.

Keplero formulò le sue leggi osservando il moto dei pianeti, senza comprenderne appieno i meccanismi. Eppure, quel lavoro si rivelò cruciale: permise in seguito a Newton di scoprire la gravità, portando a una comprensione molto più profonda dell’universo.

Negli studi sul deep learning, la branca dell’intelligenza artificiale basata sulle reti neurali, potremmo trovarci ancora in una fase kepleriana simile. Oggi i ricercatori hanno identificato diverse leggi empiriche che descrivono il comportamento delle reti neurali, ma ci manca ancora una sorta di “teoria della gravità” che spieghi perché si comportano in quel modo.

Gli scienziati, ad esempio, conoscono le leggi di scala. “Sappiamo che se prendiamo un modello e lo ingrandiamo, o gli forniamo più dati, le sue prestazioni migliorano”, spiega Cengiz Pehlevan, professore associato di matematica applicata all’Università di Harvard e autore senior dello studio.

Queste leggi rendono prevedibili le prestazioni, ma non rivelano ancora i meccanismi più profondi che le sottendono. Questo approccio non solo è inefficiente – i sistemi di intelligenza artificiale odierni consumano enormi quantità di energia – ma contribuisce anche ben poco a migliorare la nostra comprensione di come questi sistemi funzionino effettivamente.

Le reti neurali come organismi biologici

“I modelli di deep learning non sono algoritmi scritti a mano come un insieme di regole. Non vengono progettati manualmente”, spiega Atanasov. “Sono molto più simili a un organismo coltivato in laboratorio.”

I chatbot basati sull’intelligenza artificiale generativa si affidano alle reti neurali, una tecnologia che, seppur in modo molto approssimativo, ricorda il funzionamento di un cervello biologico. Sono composte da numerose piccole unità di elaborazione, chiamate neuroni artificiali, ognuna delle quali esegue operazioni semplici ma è interconnessa con le altre in una rete complessa.

È questa struttura a rete che permette l’emergere di un comportamento “intelligente”. Sebbene conosciamo le operazioni matematiche eseguite da ciascun singolo componente, prevedere e spiegare meccanicisticamente il comportamento del sistema nel suo complesso rimane estremamente difficile: con l’aumentare del numero di componenti, la complessità cresce rapidamente.

Perchè non farla

Ti piace il nostro
impegno nella divulgazione ?
Aiutaci con una

Fai una donazione con PayPal

Di qualunque importo Con PayPal
Grazie per il sostegno

Un modellino giocattolo

Poiché al momento è impossibile analizzare una rete neurale completa con metodi matematici esatti, Atanasov e i suoi colleghi hanno scelto di lavorare con un modello semplificato che cattura comunque molte caratteristiche chiave di sistemi più complessi.

“Il modello che stiamo studiando è abbastanza semplice da poter essere risolto matematicamente”, spiega Jacob Zavatone-Veth, Junior Fellow presso la Harvard Society of Fellows e coautore dello studio. “Allo stesso tempo, riproduce molti dei fenomeni chiave osservati nelle grandi reti neurali.”

Il modello di esempio utilizzato nello studio è la regressione ridge, una variante della regressione lineare.

La regressione lineare è un metodo statistico utilizzato per stimare le relazioni tra variabili. Ad esempio, se conosciamo l’altezza e il peso di 100 persone, possiamo usare la regressione lineare per identificare una relazione matematica tra i due e stimare l’altezza di una nuova persona basandoci solo sul suo peso.

Il mistero dell’overfitting e perché spesso non si verifica.

La regressione Ridge è un tipo di regressione che aiuta a ridurre il fenomeno noto come overfitting. Quando i modelli vengono addestrati su grandi insiemi di dati, una rete neurale – un po’ come uno studente molto diligente ma forse non particolarmente perspicace – può finire per memorizzare semplicemente i dati di addestramento invece di apprendere schemi che le consentano di generalizzare e fare previsioni affidabili su nuovi dati.

Eppure, i modelli di deep learning si comportano spesso in modo sorprendente. “Nonostante siano estremamente grandi, questi modelli riescono ad apprendere dai dati senza incorrere nell’overfitting”, spiega Atanasov, definendolo “uno dei grandi misteri del deep learning”.

A prima vista, questo può sembrare controintuitivo. In teoria, i modelli più grandi dovrebbero essere più inclini all’overfitting. Invece, le leggi di scala dimostrano che le prestazioni spesso migliorano man mano che si utilizzano più dati durante l’addestramento.

Nuove prospettive

Il nuovo studio offre una possibile spiegazione. Secondo i ricercatori, la capacità delle reti neurali di apprendere senza incorrere nell’overfitting potrebbe derivare da principi legati alla teoria della rinormalizzazione, un quadro teorico ampiamente utilizzato nella fisica statistica.

Per comprenderne il motivo, è utile considerare la dimensionalità dei dati elaborati dai moderni sistemi di intelligenza artificiale. Nell’esempio precedente di regressione lineare, abbiamo considerato solo due variabili: altezza e peso.

I sistemi reali come ChatGPT, tuttavia, operano in spazi con migliaia o addirittura milioni di variabili, il che rende estremamente difficile un’analisi matematica esatta.

In questo contesto, i concetti della fisica statistica si rivelano utili. Nei dati ad altissima dimensionalità, compaiono naturalmente piccole variazioni casuali, note come fluttuazioni statistiche. La teoria della rinormalizzazione dimostra che molti dettagli microscopici possono essere efficacemente assorbiti in un numero ridotto di parametri, il che significa che anche sistemi molto complessi possono mostrare un comportamento su larga scala relativamente semplice.

Utilizzando questo quadro di riferimento e il loro modello semplificato, i ricercatori dimostrano come queste fluttuazioni ad alta dimensionalità possano effettivamente stabilizzare l’apprendimento anziché destabilizzarlo.

“Questo è un aspetto che possiamo comprendere analizzando modelli lineari più semplici”, spiega Pehlevan, suggerendo che lo stesso meccanismo potrebbe spiegare perché le attuali reti neurali evitano l’overfitting anche quando sono fortemente sovraparametrizzate.

Il modello semplificato può anche servire a un altro scopo. Come osserva Zavatone-Veth, potrebbe fungere da punto di riferimento per comprendere come l’apprendimento potrebbe comportarsi in sistemi ad altissima dimensionalità.

Studiando un modello sufficientemente semplice da poter essere analizzato matematicamente, i ricercatori possono identificare quali aspetti dell’apprendimento sono probabilmente generici, ovvero si prevede che si manifestino in molte reti neurali diverse, e quali invece dipendono dai dettagli di un modello specifico. In questo senso, studi come questo possono contribuire a chiarire alcuni dei principi fondamentali alla base dell’apprendimento nei sistemi complessi.

Provided by SISSA Medialab

Facebooktwitterredditpinterestlinkedinmailby feather