Il watermarking dei contenuti generati dall’intelligenza artificiale non è più una sfida puramente tecnica. La ricerca accademica riconosce che il problema si è spostato: non basta inserire una filigrana robusta, occorre affrontare limiti strutturali legati a manipolabilità, incentivi economici e governance globale dei modelli generativi.
Negli ultimi due anni, il watermarking è stato presentato come una delle soluzioni chiave per distinguere testi, immagini e audio generati da modelli di intelligenza artificiale. Tuttavia, studi recenti ammettono apertamente che la questione non è più se la filigrana possa essere inserita, ma quanto sia realisticamente difendibile nel mondo reale.
Ricerche pubblicate su arXiv e conferenze come NeurIPS e ICML mostrano che molte tecniche di watermarking testuale e visivo possono essere rimosse o degradate con interventi minimi: parafrasi automatiche, perturbazioni a livello di token, ricampionamento o semplici trasformazioni di stile. In alcuni casi, bastano strumenti open source per aggirare sistemi progettati per essere “robusti”.
Il punto critico, riconosciuto dagli stessi ricercatori, è che il watermarking presuppone attaccanti deboli e utenti collaborativi, una condizione irrealistica in contesti di disinformazione, frode o propaganda politica. Inoltre, l’aumento dei modelli open weight rende impossibile imporre uno standard tecnico universale: chi controlla il modello può semplicemente disattivare la filigrana.
Sul piano istituzionale, anche i regolatori iniziano a ridimensionare le aspettative. Il NIST e la Commissione europea, nei documenti preparatori sull’AI Act e sui contenuti sintetici, indicano il watermarking come misura complementare, non risolutiva. L’enfasi si sposta verso approcci combinati: tracciabilità dei modelli, auditing indipendente, responsabilità delle piattaforme e alfabetizzazione mediatica.
La ricerca, dunque, non abbandona il watermarking, ma ne ridefinisce il ruolo: strumento utile in ambienti cooperativi, insufficiente in scenari ostili. Il problema non è più “come rendere la filigrana invisibile”, ma come costruire un ecosistema in cui l’origine dei contenuti sia verificabile senza affidarsi a un singolo meccanismo fragile.
Approfondimento – Cronologia essenziale
- 2023 – Prime proposte di watermarking testuale per LLM (OpenAI, università USA)
https://arxiv.org/abs/2301.10226 - 2024 – Studi dimostrano la vulnerabilità a parafrasi e perturbazioni
https://arxiv.org/abs/2401.08500 - 2025 – Analisi sistematiche mostrano che le filigrane LLM possono essere rimosse a livello di carattere
https://arxiv.org/abs/2501.XXXXX - 2025–2026 – NIST e UE classificano il watermarking come misura “non sufficiente da sola”
https://www.nist.gov/ai
https://digital-strategy.ec.europa.eu
Consigli di approfondimento
- NeurIPS Proceedings – AI Content Provenance
https://proceedings.neurips.cc - Stanford Internet Observatory – Synthetic Media
https://cyber.fsi.stanford.edu/io - OECD – Generative AI and Trust
https://www.oecd.org/digital
Abstract – Pro, rischi e implicazioni future
Pro:
- Utile per tracciamento in contesti cooperativi
- Basso costo computazionale
- Supporta indagini forensi preliminari
Rischi:
- Facilmente aggirabile da attori ostili
- Illusione di sicurezza normativa
- Incompatibilità con modelli open source
Conseguenze future:
Il rischio etico è la normalizzazione di strumenti simbolici che non reggono l’impatto sociale reale. Senza governance, audit e responsabilità delle piattaforme, il watermarking rischia di diventare un alibi tecnologico più che una soluzione.







