Una nuova inchiesta rilancia il nodo della sicurezza nei modelli di intelligenza artificiale aperti: strumenti automatici possono indebolire rapidamente i filtri di sicurezza, aprendo scenari di abuso in ambiti cyber, disinformazione e rischi chimico-biologici.
Secondo il Financial Times, software disponibili online avrebbero consentito di rimuovere in pochi minuti le protezioni da modelli open-weight di Meta e Google, tra cui Llama 3.3 e Gemma, inducendoli a rispondere a richieste che i sistemi originali avrebbero dovuto bloccare. L’indagine, condotta con il gruppo di sicurezza AI Alice, indica che il problema non riguarda solo la qualità dei filtri, ma la possibilità tecnica di modificarli una volta che i pesi del modello sono scaricabili ed eseguibili localmente.
Il caso più citato riguarda Heretic, progetto ospitato su GitHub che si presenta come strumento per rimuovere l’“allineamento di sicurezza” dai modelli transformer senza costosi processi di riaddestramento. La pagina pubblica del progetto descrive l’uso di tecniche di ablazione direzionale, ma il punto critico è politico e industriale: l’automazione abbassa la soglia tecnica per produrre versioni alterate dei modelli.
Google sostiene che Gemma sia accompagnato da metodologie, classificatori e pratiche di sicurezza per sviluppatori; Meta descrive Llama 3.3 come modello testuale multilingue ottimizzato per il dialogo. Tuttavia, la vicenda mostra che le garanzie progettuali possono diventare fragili quando il controllo passa dall’azienda alla comunità di rilascio e riuso.
Il quadro normativo europeo prova a intervenire sui modelli di IA generale: le linee guida della Commissione europea sugli obblighi GPAI puntano a chiarire responsabilità, documentazione, mitigazione dei rischi e conformità all’AI Act. Il NIST statunitense, nel profilo per l’IA generativa, richiama invece la necessità di gestire rischi specifici, inclusi quelli legati a possibili abusi chimici, biologici, radiologici o cyber.
La questione non oppone semplicemente modelli aperti e chiusi: l’apertura favorisce ricerca, audit indipendenti e innovazione, ma richiede tracciabilità, valutazioni avversarie, responsabilità sui derivati e canali rapidi di risposta agli incidenti. Senza questi strumenti, il vantaggio democratico dell’open source rischia di trasformarsi in una vulnerabilità sistemica.
Breve approfondimento: cronologia essenziale
2024 — Google presenta Gemma come famiglia di modelli aperti basati sulla ricerca Gemini, con attenzione dichiarata a sicurezza e responsabilità.
2024 — Il NIST pubblica il profilo AI RMF per l’IA generativa, includendo categorie di rischio specifiche per usi impropri e sicurezza.
2025 — La Commissione europea pubblica linee guida sugli obblighi per i fornitori di modelli GPAI nell’ambito dell’AI Act.
Maggio 2026 — Il Financial Times segnala test in cui guardrail di modelli open-weight vengono rimossi rapidamente con strumenti pubblici.
Consigli di approfondimento
Commissione europea sulle linee guida GPAI; NIST AI Risk Management Framework per l’IA generativa; principi OCSE su robustezza, sicurezza e affidabilità dei sistemi IA.
Abstract: pro, rischi e conseguenze sociali
I modelli open-weight favoriscono trasparenza, ricerca indipendente e accesso diffuso all’innovazione. Il rischio è che la stessa accessibilità renda più semplice creare versioni prive di protezioni, con conseguenze su cybercrime, disinformazione, sicurezza pubblica e fiducia sociale. In futuro, il nodo sarà distinguere apertura responsabile e rilascio incontrollato: senza governance tecnica e responsabilità sui derivati, l’ecosistema IA potrebbe aumentare la distanza tra innovazione e tutela collettiva.







