Cybersecurity
Whitepaper
Ottobre 14, 2025
Il cybercrime diventerà accessibile a tutte le persone grazie a modelli di Intelligenza Artificiale “abliterated”, versioni manipolate o riaddestrate di modelli linguistici generativi a cui sono stati rimossi i filtri di sicurezza. È questo il tema al centro del nuovo white paper pubblicato dal centro di innovazione digitale Cefriel “Intelligenza Artificiale senza freni: come i modelli abliterated e uncensored stanno democratizzando il cybercrime”, a cura di Enrico Frumento, Cybersecurity Research Lead di Cefriel.
Il documento analizza come l’installazione in locale di Large e Small Language Model e la rimozione intenzionale dei filtri di sicurezza interni a determinati modelli di Intelligenza Artificiale stia creando una nuova classe di strumenti “senza etica”, in grado di rispondere senza limiti a qualsiasi richiesta, anche potenzialmente criminale.
Il fenomeno delle Dark-AI è già noto da qualche tempo: versioni di AI addestrate dai gruppi criminali e offerte sul dark-web per creare malware, campagne di phishing, tutorial su argomenti delicati di qualsiasi natura. Le ultime evoluzioni descritte nel white paper raccontano come questo oggi sia diventato “democratico”: non serve conoscere i dettagli del dark web per iniziare a usare modelli “dark”. Tra i fattori che alimentano l’escalation del cybercrime c’è la diffusione dell’Intelligenza Artificiale generativa e, in particolare, la diffusione di modelli di Intelligenza Artificiale “abliterated” o “uncensored”, versioni manipolate o riaddestrate di modelli linguistici generativi.
Il paper prende spunto da un esperimento concreto: l’autore ha confrontato il comportamento di un modello “integro”, progettato per rigettare richieste considerate eticamente non accettabili, con quello di un modello abliterated, modificato per eliminare il cosiddetto refusal mechanism, ovvero la capacità del sistema di dire “no”. Il risultato è netto: mentre l’AI generativa accessibile tramite servizi commerciali gratuiti o a pagamento mantiene i suoi limiti di sicurezza anche di fronte a tentativi di manipolazione, il modello abliterated – installato su PC o su smartphone – cede immediatamente a semplici tecniche di persuasione, fornendo istruzioni dettagliate su attività illegali.
Con queste trasformazioni, la disinformazione entra in una nuova fase, caratterizzata da:
- decentralizzazione e democratizzazione dell’uso malevolo, che rende i sistemi di rilevamento tradizionali meno efficaci;
- semplificazione e distorsione dei contenuti, con rischi per cittadine e cittadini, professionisti e policymaker;
- difficoltà crescente nel discernere la verità, poiché i contenuti generati da AI risultano sempre più difficili da distinguere rispetto a quelli generati da persone.
Per Frumento, la sfida non è solo tecnica o legale, ma antropologica:
L’Europa ha risposto alle sfide della disinformazione alimentata dall’AI con un framework normativo multilivello. Tuttavia, l’implementazione e l’efficacia di queste regolamentazioni presentano lacune strutturali quando sono applicate ai modelli abliterated, come la giurisdizione limitata (i modelli abliterated operano spesso al di fuori delle giurisdizioni europee), l’uso offline che rende la tracciabilità impossibile e la mancanza di un soggetto chiaramente identificabile responsabile per un uso improprio dell’Intelligenza Artificiale generativa.
Scarica il white paper “AI senza freni: come i modelli abliterated stanno democratizzando il cybercrime” dal form che trovi qui di seguito.