IA open source, allarme sui guardrail rimossi in pochi minuti

Una nuova inchiesta rilancia il nodo della sicurezza nei modelli di intelligenza artificiale aperti: strumenti automatici possono indebolire rapidamente i filtri di sicurezza, aprendo scenari di abuso in ambiti cyber, disinformazione e rischi chimico-biologici.

Secondo il Financial Times, software disponibili online avrebbero consentito di rimuovere in pochi minuti le protezioni da modelli open-weight di Meta e Google, tra cui Llama 3.3 e Gemma, inducendoli a rispondere a richieste che i sistemi originali avrebbero dovuto bloccare. L’indagine, condotta con il gruppo di sicurezza AI Alice, indica che il problema non riguarda solo la qualità dei filtri, ma la possibilità tecnica di modificarli una volta che i pesi del modello sono scaricabili ed eseguibili localmente.

Il caso più citato riguarda Heretic, progetto ospitato su GitHub che si presenta come strumento per rimuovere l’“allineamento di sicurezza” dai modelli transformer senza costosi processi di riaddestramento. La pagina pubblica del progetto descrive l’uso di tecniche di ablazione direzionale, ma il punto critico è politico e industriale: l’automazione abbassa la soglia tecnica per produrre versioni alterate dei modelli.

Google sostiene che Gemma sia accompagnato da metodologie, classificatori e pratiche di sicurezza per sviluppatori; Meta descrive Llama 3.3 come modello testuale multilingue ottimizzato per il dialogo. Tuttavia, la vicenda mostra che le garanzie progettuali possono diventare fragili quando il controllo passa dall’azienda alla comunità di rilascio e riuso.

Il quadro normativo europeo prova a intervenire sui modelli di IA generale: le linee guida della Commissione europea sugli obblighi GPAI puntano a chiarire responsabilità, documentazione, mitigazione dei rischi e conformità all’AI Act. Il NIST statunitense, nel profilo per l’IA generativa, richiama invece la necessità di gestire rischi specifici, inclusi quelli legati a possibili abusi chimici, biologici, radiologici o cyber.

La questione non oppone semplicemente modelli aperti e chiusi: l’apertura favorisce ricerca, audit indipendenti e innovazione, ma richiede tracciabilità, valutazioni avversarie, responsabilità sui derivati e canali rapidi di risposta agli incidenti. Senza questi strumenti, il vantaggio democratico dell’open source rischia di trasformarsi in una vulnerabilità sistemica.


Breve approfondimento: cronologia essenziale

2024 — Google presenta Gemma come famiglia di modelli aperti basati sulla ricerca Gemini, con attenzione dichiarata a sicurezza e responsabilità.
2024 — Il NIST pubblica il profilo AI RMF per l’IA generativa, includendo categorie di rischio specifiche per usi impropri e sicurezza.
2025 — La Commissione europea pubblica linee guida sugli obblighi per i fornitori di modelli GPAI nell’ambito dell’AI Act.
Maggio 2026 — Il Financial Times segnala test in cui guardrail di modelli open-weight vengono rimossi rapidamente con strumenti pubblici.

Consigli di approfondimento
Commissione europea sulle linee guida GPAI; NIST AI Risk Management Framework per l’IA generativa; principi OCSE su robustezza, sicurezza e affidabilità dei sistemi IA.

Abstract: pro, rischi e conseguenze sociali

I modelli open-weight favoriscono trasparenza, ricerca indipendente e accesso diffuso all’innovazione. Il rischio è che la stessa accessibilità renda più semplice creare versioni prive di protezioni, con conseguenze su cybercrime, disinformazione, sicurezza pubblica e fiducia sociale. In futuro, il nodo sarà distinguere apertura responsabile e rilascio incontrollato: senza governance tecnica e responsabilità sui derivati, l’ecosistema IA potrebbe aumentare la distanza tra innovazione e tutela collettiva.

IA open source, allarme sui guardrail rimossi in pochi minuti

NEWS AIopenmind su:

3D (13)6G (41)Accademia di Comunicazione (4)Acer (1)Adobe (55)Aeronautica (12)Africa (6)Agenti AI (283)Agenti autonomi (2)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (80)AGID (1)Agricoltura (6)AI AnthropoCosmic (0)Amazon (88)Ambiente (5)AMD (7)America Latina (1)Android (10)Animali (7)Animazione (6)Anthropic (103)Anziani (1)App (14)Apple (99)Archeologia (3)Architettura (4)Archivi storici (1)Armi (4)Arredamento interni (2)Arte (36)Asia (1)Assistente vocale (8)Astronomia (3)Asus (2)AT&T (1)Audi (1)Audio (72)Autoapprendimento (1)Avatar (8)Aviazione (2)Avvocati (4)Aziende (27)Banca (7)Bard (3)BCE (1)Biblioteca (1)Bill Gates (2)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (3)California (5)Canva (10)Cattolicesimo (3)Certificazioni (1)Character (2)Chataudio (1)Chatbot IA (56)Chip (4)Cina (216)Cinema (20)Claude (32)Clima (6)CNR (1)Coca-Cola (2)Commercio (3)Commissione Europea (6)Compagnie aeree (1)Computer (8)Computer quantistici (85)Computer Vision (3)Comuni italiani (1)Comunicazione (10)Comunicazioni vocali (2)Concorso bellezza AI (1)Consiglio d'Europa (2)Contabilità (2)Convegno (17)Copilot (7)Copyright (33)Corea del Nord (1)Corea del Sud (5)Criptovalute (2)Cybersecurity (136)Dalle-2 (3)Danimarca (1)Dark web (3)Data center (53)Dating (1)Deepfake (6)DeepSeek (31)Design automobilistico (3)Design Industriale (7)Diritti Autore (1)Disney (3)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)Dubai (1)E-commerce (1)eBay (1)Editing fotografico (3)Editoria (18)ENEA (2)Esercito (2)etc (0)Etica (1243)Europol (3)Eventi (10)Evento (9)Facebook (6)FakeNews (24)Falegnameria (1)Fauna selvatica (1)Film (7)Finanza (97)Finanziamenti Italia (4)Firefly (3)Firefox (3)Fondo Monetario Internazionale (2)Formazione (142)Fotografia (124)Francia (6)Free lance (1)Fujitsu (1)Fusione nucleare (2)G7 (1)Gaming (3)Garante privacy (21)Gelati (1)Giappone (59)Giochi (12)Giornalismo (32)Giustizia (4)Google (639)Governo (9)Governo Italiano (6)Grafica (6)Grok (35)Guerra (35)Guida autonoma (10)Hong Kong (45)Hugging Face (6)IBM (12)Illustrazioni (1)iMessage (1)Immobiliare (1)India (20)Indossabili (4)Influencer (1)Informazione (13)Inghilterra (19)INPS (2)Intel (10)Interfacce neurali (1)ISO (1)Israele (3)Istruzione (18)Jailbreaking (1)Kamala Harris (1)Lavoro (307)Libri (5)Linguistica computazionale (12)Linkedin (12)Linux (1)Luma AI (1)Luna (1)Maltrattamento infantile (1)Marina (1)Marketing (343)Medicina (39)Medio Oriente (1)Mercedes-Benz (1)Meta (183)Metaverso (17)Meteo (2)Microsoft (309)Midjourney (18)Mistral (13)Mobilità sostenibile (2)Moda (7)Modelli AI (156)Motori di Ricerca (14)Motorola (1)Mozilla (3)Museo (1)Musica (63)NASA (5)Nato (2)Natura (8)Natural Language Processing (2)Nazioni Unite (1)NBA (1)Netflix (3)Neuralink (1)NFT (3)Norvegia (1)Nvidia (138)Occhiali (8)Occhiali Intelligenti (21)Occhiali Smart (1)Oculistica (1)Odore (1)Offerte lavoro (2)OMS (1)ONU (3)Open Source (27)OpenAI (542)Opera (17)Opera Browser (1)Oppo (3)Oracle (5)Orologio (1)papa Leone XIV (2)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Perplexity (33)Pianeta (2)PlayStation (1)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (4)Privacy (34)Programmazione (22)Prompt (5)Pubblicazione (1)Pubblicità (19)QR Code (1)Qualcomm (5)Ray-Ban (7)Realtà mista (5)Reddit (8)Relazioni internazionali (2)Relazioni Pubbliche (3)Religione (1)Report (447)Ricerca scientifica (18)Riconoscimento emotivo (1)Risorse online (100)Ristorazione (5)Robotica (200)Runway (18)Russia (3)Salute (160)Samsung (26)Sanità (25)Satelliti (5)Sceneggiatura (1)Semiconduttori (11)SEO (3)Shopping online (4)Sicurezza (39)Sicurezza informatica (94)SMS (1)Snapchat (12)Soccorso (1)Società (32)SoftBank (1)Software (5)Sony (3)Sora (1)Sport (9)Spotify (12)Stability (5)Stable Animation SDK (1)Stable Diffusion (12)Stampanti (1)Standard (7)Startup (593)streaming live (1)Supercomputer (6)Superintelligenza (3)Sviluppatori (1)Sviluppo sostenibile (1)Svizzera (1)Synthesia (1)Taiwan (54)Taxi (2)Telecomunicazioni (7)Telegram (4)Televisione (2)Tesla (10)TikTok (13)Tinder (5)Torah (1)Traduttore AI (7)Trasporti (61)Truffa (2)Twitter (13)Ucraina (5)Udito (1)UE (16)UNESCO (4)UNICEF (1)Unione Europea (98)Unitree Robotics (1)Università (5)Uomo (1)USA (137)Vaticano (15)Video (155)Videocomunicazione (4)Videogiochi (21)Vietnam (1)Vigili del fuoco (1)Violenza domestica (1)Visualizzazione dati (1)Vodafone (2)Vogue Business - As Gen Z matures (0)Volkswagen (1)VPN (3)Website (14)WhatsApp (12)Wikimedia (1)Wikipedia (4)Wordpress (6)X (13)xAI (11)Xiaomi (1)Yahoo (4)Youtube (33)Zoom (11)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

Satelliti e AI: la nuova sovranità digitale è orbitale

La concentrazione dei satelliti Starlink e la direttiva statunitense su Anthropic Fable 5 e Mythos 5 mostrano una trasformazione decisiva: la sovranità digitale non...

Realtà quantistica: l’esperimento che sfida l’oggettività

Un test a sei fotoni ha rilanciato una domanda centrale della meccanica quantistica: i fatti esistono indipendentemente dall’osservatore? L’esperimento non cancella la realtà, ma...

Reti elettriche UE: il nuovo potere delle Big Tech

Le grandi piattaforme tecnologiche statunitensi guardano alle reti elettriche europee come alla nuova infrastruttura strategica dei data center. Amazon, Google, Meta e Microsoft sono...

All Digital Weeks: L’importanza di un approccio armonizzato

REGISTRATI SU Stati Generali dell’Innovazione – SGI _____________ L’avvento dell’Intelligenza Artificiale – L’importanza di un approccio armonizzato L’avvento dell’Intelligenza Artificiale (AI) rappresenta una delle più significative rivoluzioni...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines