Tempo di Lettura: 6minuti
A San Diego, tra i corridori smisurati del NeurIPS 2025, la sensazione dominante non era il progresso. Era il rumore. Trentamila persone, badge al collo, e un’unica ossessione collettiva: l’intelligenza artificiale. Se camminaste tra quegli stand, notereste che metà delle startup ha loghi e nomi generati da un algoritmo che finiscono invariabilmente in .ai. Un ronzio incessante di “Human-level” e “Reasoning” che ricorda i venditori di elisir di fine Ottocento. In questo circo della tecnologia si sta consumando un equivoco che definire pericoloso è un eufemismo. Un equivoco che rischia di farti comprare qualcosa che, semplicemente, non esiste.
La scienziata cognitiva Melanie Mitchell (autrice del bellissimo libro, che ti consiglio: “L’intelligenza artificiale. Una guida per esseri umani pensanti”) ha tenuto un keynote che avrebbe dovuto far tremare l’intera industria. Il suo messaggio, tradotto dal gergo accademico: state guardando uno spettacolo di prestigio e lo scambiate per magia vera.
La valuta falsa dei benchmark
Siamo abituati a misurare tutto. Se un software ottiene un punteggio alto, lo consideriamo “competente”. Ma l’IA generativa gioca con regole diverse.
Molti dei risultati che vedi nelle slide dei fornitori sono frutto di data contamination: le domande dell’esame sono finite nel calderone dei dati usati per addestrare la macchina. È come assumere un candidato che ha già le fotocopie dei test che gli sottoporrai. Non è genio. È memoria statistica.
A questo si aggiunge quello che gli esperti chiamano approximate retrieval. Le macchine non risolvono il problema: lo ripescano per approssimazione da situazioni simili viste miliardi di volte. Non capiscono la domanda. Prevedono la risposta più probabile basandosi su schemi di bit.
E poi ci sono le scorciatoie: correlazioni spurie nei dati che il sistema sfrutta per arrivare alla risposta giusta passando per strade che non hanno alcun senso logico. Risposta corretta, ragionamento inesistente.
“Ma non è quello che fa anche l’essere umano?”
Obiezione legittima. Anzi, la più intelligente che si possa sollevare.
Sì, anche il cervello umano usa scorciatoie. Kahneman ci ha costruito una carriera: il Sistema 1 è esattamente questo, pensiero veloce basato su pattern e euristiche. Arriviamo a conclusioni “giuste” per ragioni che non sapremmo spiegare. L’intuizione dell’imprenditore esperto che “sente” l’affare sbagliato. Il medico che diagnostica a colpo d’occhio. Euristiche o intuizioni pure.
La differenza sta in due punti che per il business contano parecchio.
Primo: il fallback. Quando l’euristica non funziona, l’umano ha un Sistema 2 a cui passare. Può fermarsi, ragionare deliberatamente, smontare il problema. Il modello no. Se il pattern non matcha, non ha un piano B. Non può “decidere di pensarci meglio”. Può solo generare il token più probabile dato quello che ha visto.
Secondo: la robustezza. Le euristiche (o scorciatoie) umane sono state “forgiate” dall’interazione fisica con il mondo, milioni di anni di selezione naturale, e l’esperienza personale. Sono robuste a variazioni che non cambiano la sostanza. Quelle dei modelli sono scorciatoie e sono fragilissime. Cambi l’ordine delle parole, sostituisci un sinonimo, modifichi un dettaglio irrilevante e il castello crolla. L’umano esperto riconosce lo stesso problema anche se presentato in modo diverso. Il modello spesso no.
Ma se non capiscono davvero, come fanno a sembrarci così brillanti? La risposta risiede in un cavallo tedesco del 1904 e nella nostra innata voglia di farci ingannare.
The Prestige: il trucco che non vedi
Nel film di Nolan, ogni numero di magia ha tre atti. La promessa, in cui il prestigiatore ti mostra qualcosa di ordinario. La svolta, in cui prende l’ordinario e lo rende straordinario. E infine The Prestige: il momento in cui ti lascia a bocca aperta, convinto di aver visto l’impossibile.
Il trucco funziona perché non sai dove guardare. E perché vuoi credere alla magia.
Agli inizi del Novecento, Clever Hans era considerato il primo animale pensante. Un cavallo che risolveva calcoli, leggeva l’ora, identificava carte da gioco. Per rispondere, batteva lo zoccolo il numero di volte corrispondente alla soluzione. Una commissione scientifica ufficiale concluse che le sue abilità erano genuine.
Ci vollero quattro anni e una serie di esperimenti dello psicologo Oskar Pfungst per capire cosa stava succedendo. Hans non sapeva contare. Era un genio in qualcos’altro: leggere i micro-movimenti del volto di chi lo interrogava. Capiva quando smettere di battere osservando la tensione muscolare degli umani. Non risolveva il problema. Manipolava il feedback.
I modelli linguistici di oggi sono i nostri Clever Hans digitali. Producono output che ci lasciano a bocca aperta, ma attraverso meccanismi che non hanno nulla a che vedere con la comprensione che attribuiamo loro. Sono prestigiatori eccezionali. E noi siamo il pubblico che vuole credere alla magia.
Il 30% che cambia tutto
Quando i ricercatori hanno chiesto ai modelli di punta non solo di risolvere puzzle di ragionamento astratto, ma anche di spiegare la regola che stavano applicando, è emerso qualcosa di interessante.
Nei casi in cui il modello dava la risposta corretta, la regola dichiarata era quella effettivamente intesa dai creatori del test solo nel 70% dei casi. Il restante 30%? Regole errate, oppure regole che per puro caso producevano l’output giusto senza catturare il concetto sottostante.
Per confronto: quando gli umani rispondevano correttamente, la regola era quella intesa nel 90% dei casi.
Un esempio. Di fronte a un puzzle che richiedeva di riconoscere l’orientamento orizzontale e verticale di oggetti in una griglia, uno dei modelli più avanzati ha ignorato completamente il concetto di orientamento. Si è concentrato invece sulle proprietà numeriche dei codici colore usati per rappresentare la griglia informazioni che per un umano sarebbero invisibili e irrilevanti.
Risposta giusta. Ragionamento completamente sbagliato. The Prestige perfetto.
Performance contro competenza: la trappola in cui stai per cadere
Ecco il punto che dovrebbe tenerti sveglio la notte se stai per investire in soluzioni IA: performance e competenza sono due cose diverse. E confonderle costa caro.
La performance è il punteggio ottenuto in un test specifico. La competenza è la capacità robusta di operare quando le cose non vanno come previsto. Un modello può avere performance stellare su un benchmark e competenza pari a zero nel tuo contesto aziendale. Perché? Perché il benchmark non cattura la complessità delle situazioni che incontrerai. E perché il tuo problema, quasi certamente, non era nei dati di training.
Molti modelli attuali sono stati definiti “braci di autoregressione“. Restano legati a ciò che hanno già visto, come cenere che conserva il calore del fuoco ma non può più bruciare nulla di nuovo. Se la tua sfida aziendale è inedita, il prestigiatore non ti aiuterà. Non ha trucchi nel cilindro per situazioni che non ha mai incontrato.
Come smascherare l’illusionista
Prima di firmare qualsiasi contratto, prima di lasciarti abbagliare da demo curate al millimetro, devi imparare a guardare dove il prestigiatore non vuole che guardi.
Disinnesca il tuo antropomorfismo. Quando vedi un chatbot che “ragiona” o un modello che “capisce”, il tuo cervello sta proiettando intenzioni umane su un sistema che calcola probabilità. Non è cattiveria. È un bias cognitivo documentato. Ma se non ne sei consapevole, sei già nella trappola.
Cerca il meccanismo, non il risultato. Chiedi al sistema di spiegare come è arrivato alla risposta. Se la spiegazione è assurda, incoerente, o completamente scollegata dal problema, quello che hai davanti non è comprensione. È un trucco riuscito.
Testa la robustezza con variazioni minime. Cambia l’ordine delle parole. Usa sinonimi. Modifica dettagli che per un umano sarebbero irrilevanti. Se il sistema crolla su variazioni banali, non ha capito il concetto. Ha memorizzato pattern. E i pattern del tuo business sono diversi da quelli del training.
Analizza i fallimenti con più attenzione dei successi. Quel 12% di errori non è rumore statistico. È la finestra più chiara su come il sistema “vede” il mondo. Le demo mostrano i trucchi migliori. Gli errori rivelano i limiti veri.
Abbraccia i risultati negativi. Sapere quando l’IA fallisce è più prezioso che collezionare screenshot di risposte perfette. Le demo sono curate per impressionare. I fallimenti sono la mappa del territorio reale.
La domanda che ti salva il budget
La prossima volta che un’azienda ti mostra un benchmark impressionante, fai questa domanda: “Cosa succede se cambio un dettaglio che per un umano sarebbe irrilevante?”
Se non sanno rispondere, o se la risposta è “non abbiamo testato”, stai guardando uno spettacolo di prestigio. Può essere intrattenente. Può avere applicazioni utili. Ma non è la magia che ti stanno vendendo.
La trasformazione digitale non è una corsa a chi ha l’IA più loquace, ma a chi sa distinguere tra un trucco da prestigiatore e una reale leva di efficienza. Mentre gli altri si lasciano abbagliare dalle percentuali, noi iniziamo a farci le domande giuste.
Il Sottosopra Digitale ha regole che pochi conoscono. Resta lucido, resta ribelle. Il prossimo articolo ti porterà ancora più a fondo nella tana del bianconiglio digitale.
Fonti:
- Mitchell, M., Keynote NeurIPS 2025: “On the Science of Alien Intelligences: Evaluating Cognitive Capabilities in Babies, Animals, and AI”
- Kambhampati, S., “Approximate Retrieval and the Illusion of Reasoning in LLMs”, 2024
- Kahneman, D., “Thinking, Fast and Slow”, 2011
- Samhita, L. & Gross, H.J., “The Clever Hans Phenomenon Revisited”, 2013
- McCoy, R.T. et al., “Embers of Autoregression: How Models are Shaped by Next-Token Prediction”, 2024