I reasoning models ragionano davvero? - Cefriel

Compatibilité
Sauvegarder(0)
partager

Nella sua opera Περὶ τῆς ἀναμετρήσεως τῆς γῆς (Sulla misurazione della terra, circa 240 a.C.) Eratostene di Cirene, terzo bibliotecario della celebre biblioteca di Alessandria, stimò la lunghezza della circonferenza terrestre con un errore minimo, grazie a un modo di procedere che Terence Tao, uno dei maggiori matematici viventi, ha definito come “puro genio”. La genialità non risiede nel ragionamento geometrico, di per sé semplice, ma nella comprensione di come, ragionando su un disegno, si potessero trarre conclusioni su tutto il mondo allora conosciuto, fatto di montagne e oceani e deserti infiniti. Eratostene creò un modello teorico che metteva in corrispondenza dei segni tracciati su un papiro con il mondo reale, esplicitando tutti i presupposti di base (fra cui la sfericità della Terra e l’enormità della sua distanza dal Sole, grazie alla quale i raggi luminosi che provengono da quest’ultimo si possono considerare rette parallele) come aveva imparato dal genio matematico della generazione precedente, attivo anch’egli ad Alessandria, Euclide. Il salto quantico rappresentato da quel modo di ragionare astratto era per l’epoca talmente avanzato, che in tutta l’antichità nessun autore latino, appartenente com’era a una cultura che privilegiava il pragmatismo concreto sulla speculazione teorica, è riuscito a enunciare il metodo di Eratostene in modo coerente.

Duemila anni più tardi, l’intelligenza artificiale generativa, dopo aver fagocitato tutti i trattati, i testi, gli eserciziari di matematica scritti dall’umanità, non ha ancora derivato una regola per moltiplicare due numeri fra loro. Fino a non molto tempo fa, modelli costati miliardi di dollari si perdevano in un bicchier d’acqua quando chiedevi loro eseguire una moltiplicazione che i bambini imparano alle elementari. La risposta era spesso e volentieri sbagliata perché il modello non seguiva nessuna regola o algoritmo per eseguire l’operazione, ma semplicemente cercava di “indovinare” il risultato più probabile. E tuttavia, qualcosa sembra muoversi su questo fronte. I modelli più recenti, a partire da o1 di OpenAI rilasciato a fine 2024, seguito a ruota da Gemini, Deep Seek R1 e Qwen, si definiscono reasoning models. Ma andiamo con ordine. Questi modelli ragionano davvero? E se non è così, come possiamo capire se stanno barando al gioco? E infine, se anche il modello non ragionasse come un essere umano, ma arrivasse comunque alla risposta corretta, avrebbe senso incaponirsi su questa distinzione? Il punto è che la – molto umana – teoria della mente che applichiamo inconsciamente ci porta ad attribuire ai nostri interlocutori gli stessi processi mentali che seguiremmo noi per generare quello specifico output. Così, se una macchina gioca bene a scacchi, ci viene naturale attribuirle visione di gioco e strategia, come se le sue mosse derivassero da un ragionamento interno simile al nostro. Ma la macchina che ha fatto i titoli dei giornali quasi trent’anni fa battendo il campione mondiale di scacchi (Deep Blue contro Kasparov, maggio 1997) non era nient’altro che una calcolatrice più sofisticata che applicava un approccio a forza bruta, esplorando lo spazio delle mosse possibili al ritmo di 200 milioni al secondo. Nessun pensiero, nessuna strategia: il ragionamento simulato da un algoritmo di ricerca.

Venti anni più tardi, un’altra macchina, più in sordina questa volta, ha scalzato il campione umano nel gioco di origine asiatica Go (AlphaGo contro Lee Sedol, marzo 2016). A differenza degli scacchi, il Go ha un numero di configurazioni possibili sulla scacchiera superiore al numero di atomi nell’universo osservabile, di conseguenza un approccio a forza bruta era impensabile. Per vincere, AlphaGo ha utilizzato una ingegnosa combinazione di intuito e calcolo deterministico: una rete neurale
suggerisce un numero ristretto di mosse promettenti, e solo su questo ristretto numero di mosse si innesta un algoritmo di ricerca per determinare quella che ha maggiori probabilità di vittoria. Ma come fa AlphaGo a “intuire” le mosse più promettenti? Il segreto sta nel processo di “apprendimento per rinforzo” (reinforcement learning): la rete neurale gioca milioni di partite virtuali contro sé stessa, e aggiorna i propri parametri interni aumentando la probabilità delle mosse che hanno portato alla vittoria. In questo modo, in pochi giorni AlphaGo non solo ha riscoperto decenni di strategie umane del gioco del Go, ma ha inaugurato strategie completamente inedite e controintuitive, come la celebre mossa 37 nella seconda partita contro Lee Sedol, che nessun campione umano avrebbe mai immaginato di poter giocare.

I reasoning models odierni adottano un approccio simile con il linguaggio e il ragionamento: il modello viene addestrato a risolvere problemi matematici o di logica generando milioni di possibili percorsi per arrivare a una soluzione, e favorendo solo quelli che portano a una risposta finale corretta. Tecnicamente, un “percorso di ragionamento” non è altro che una sequenza di parole (di token, per essere precisi) altamente strutturata, selezionata tra milioni di sequenze possibili perché un algoritmo ha calcolato che quella specifica sequenza ha la probabilità più alta di generare alla fine il token con la risposta corretta. Ancora statistica, insomma, ma una statistica che pare funzionare. I risultati dei modelli di punta su una serie di test standard come AIME, MATH Level 5, FrontierMath e GPQA Diamond sono ormai superiori non solo allo studente medio di dottorato ma anche agli esperti umani di alto livello. Solo in pochissime aree di ricerca avanzata l’umano mantiene la leadership. Sembra che ci stiamo avviando all’ultima capitolazione, come nel gioco degli scacchi o del Go, dove ormai i Grandi Maestri sono tutti artificiali.

Eppure. Eppure c’è ancora qualcosa che non quadra. Non è tanto il fatto che, obiettivamente, è difficile sostenere che una generazione statistica di sequenze di token equivalga al ragionamento astratto di Eratostene. In fondo, come osservano Stuart Russell e Peter Norvig, dire che un computer non è intelligente perché non ragiona come un umano è come dire che un aereo non vola perché non sbatte le ali. Il primo segnale arriva quasi in contemporanea con il lancio di ChatGPT al grande pubblico. A fine 2022, lo studente di dottorato Kellin Pelrine, giocatore amatoriale di Go, dimostrò di poter battere ripetutamente il Grande Maestro artificiale del momento, KataGo. La cosa è tanto più stupefacente se si considera il divario nominale fra i due avversari, equivalente alla distanza che separa Jannik Sinner dal giocatore di tennis con pancetta della domenica. Il povero Pelrine non era destinato semplicemente a perdere: non avrebbe proprio dovuto toccare palla. Il motivo profondo che ha portato alla sconfitta della macchina è che KataGo, pur addestrato su miliardi di partite, non ha maturato i concetti di base del gioco, per esempio i concetti di “gruppo di pedine” e di “circondare”, facendosi appunto circondare come un pollo dall’avversario umano, solo perché quest’ultimo ha usato una strategia statisticamente inconsueta.

E veniamo all’oggi. Un collega mi segnala il rilascio di Gemini 3.1 Pro con “capacità avanzate di ragionamento”, che si è subito situato nelle posizioni di testa delle prove standard di logica e matematica, con punteggi che io non potrei sperare di raggiungere. Decido di metterlo alla prova subito con un classico, il problema dei due fratelli: “Un uomo ha due figli. Almeno uno dei due è maschio. Quindi la probabilità che anche l’altro sia maschio è 50%, giusto?”. La risposta del modello, come era facile prevedere, è stata una lezioncina condiscendente: “L’intuito ci suggerisce che la risposta sia il 50%, ma contro ogni aspettativa, la probabilità corretta è del 33,3% (ovvero 1 su 3). Ti spiego come funziona usando la logica! Ci sono esattamente quattro combinazioni possibili per quanto riguarda il sesso e l’ordine di nascita M – M, M – F, F – M e F – F. Se almeno uno dei due bambini è maschio, possiamo eliminare lo scenario F – F. Rimangono tre scenari ugualmente probabili, di conseguenza la probabilità che si verifichi lo scenario M – M è 1 su 3”. Non fa una piega. Incasso e rilancio, cambiando sottilmente la domanda: “Ho due mele. Almeno una delle due è rossa. Quindi la probabilità che anche l’altra sia rossa è 50%, giusto?”. La risposta, anche qui come mi aspettavo, è la stessa: “Sembra assolutamente logico pensare che sia il 50%, ma in realtà ti sei appena imbattuto in un classico tranello matematico!”. Gemini prosegue spiegandomi pazientemente con un esempio, come si fa con i bambini: “Immagina di pescare due mele a caso. Le combinazioni possibili dei colori sono quattro e tutte ugualmente probabili: Rossa – Rossa, Rossa – Verde, Verde – Rossa, Verde – Verde”. Peccato che le mele non siano solo rosse o verdi, e che la probabilità di avere un certo colore non sia distribuita uniformemente. La soluzione classica del 33,3% vale solo se le assunzioni di fondo sono soddisfatte: ci devono essere solo due proprietà indipendenti ed equiprobabili. Ma Gemini non se ne accorge minimamente e tira dritto. Pur avendo letto tutte le enciclopedie del mondo e tutti i trattati di botanica, non ha la più pallida idea di che cosa siano una mela o un colore, né evidentemente di che cosa siano un’assunzione e una deduzione.

Tiriamo un sospiro di sollievo? Per ora, direi di sì. I reasoning models attuali simulano un ragionamento inesistente grazie alla statistica, come i loro predecessori simulavano una comprensione semantica inesistente sempre grazie alla statistica. Ma sono ancora lontanissimi da quell’uomo di due millenni fa che tracciava figure su un papiro e postulava che fossero isomorfe alla straordinaria complessità del mondo fisico. Non si lasciava distrarre da ogni montagna e foresta e fiume e granello di polvere sulla superficie terrestre, ma si concentrava sull’essenziale: la perfezione della sfera, la semplicità della retta.

Coordonnées
Chiara Attieri