Uno studio presentato al Simposio NDSS 2026 dimostra che le filigrane dei Large Language Model, ritenute uno strumento chiave contro l’uso improprio dei contenuti generati dall’IA, possono essere rimosse efficacemente con semplici perturbazioni a livello di carattere, anche in scenari di attacco realistici e con risorse limitate.
Le filigrane per LLM sono progettate per inserire segnali statistici invisibili nei testi generati, così da renderli identificabili a posteriori. Tuttavia, una ricerca accademica presentata al Network and Distributed System Security Symposium2026 mette in discussione la reale robustezza di questi sistemi. Secondo gli autori, le valutazioni precedenti avrebbero sovrastimato la sicurezza delle filigrane, basandosi su modelli di attacco poco realistici.
Lo studio introduce due modelli di minaccia pratici: uno senza accesso al rilevatore di filigrana e uno con accesso black-box limitato. In entrambi i casi, emerge che le perturbazioni a livello di carattere — come refusi, cancellazioni, scambi di lettere o l’uso di omoglifi — risultano molto più efficaci delle tradizionali parafrasi o sostituzioni di token. Il motivo è tecnico ma cruciale: queste micro-modifiche interrompono il processo di tokenizzazione, influenzando simultaneamente più token e indebolendo il segnale della filigrana.
Nel secondo scenario, i ricercatori propongono un attacco più sofisticato basato su algoritmi genetici, guidato da un “rilevatore di riferimento” addestrato con poche query. I test condotti su cinque schemi di watermarking e due LLM ampiamente diffusi mostrano tassi di rimozione elevati anche con budget di perturbazione ridotti.
La conclusione è netta: esiste un “dilemma avversario” per le difese. Qualsiasi contromisura statica può essere aggirata da strategie di perturbazione adattive. Il lavoro evidenzia quindi una vulnerabilità strutturale nelle attuali filigrane LLM e rafforza l’urgenza di sviluppare meccanismi di attribuzione più robusti, dinamici e resistenti agli attacchi.
Approfondimento – Cronologia e contesto
- 2022–2024: prime proposte di watermarking per LLM come risposta a disinformazione e frodi accademiche.
Fonte: arXiv, OpenAI, università USA ed europee. - 2024–2025: adozione sperimentale di filigrane e rilevatori statistici nei modelli commerciali.
Fonte: policy paper di governi e Big Tech. - Febbraio 2026: presentazione dello studio al NDSS 2026, che dimostra l’efficacia di attacchi a basso costo.
DOI ufficiale: https://dx.doi.org/10.14722/ndss.2026.230138
Consigli di approfondimento
- Atti ufficiali NDSS 2026: https://www.ndss-symposium.org
- Analisi accademiche su watermarking LLM (arXiv): https://arxiv.org
- Linee guida UE su tracciabilità dei contenuti AI: https://digital-strategy.ec.europa.eu
Abstract – Pro, rischi e implicazioni
Pro: lo studio migliora la comprensione delle reali capacità degli attaccanti e smaschera false percezioni di sicurezza.
Rischi: indebolimento degli strumenti di attribuzione, aumento di disinformazione e frodi difficili da tracciare.
Implicazioni future: senza filigrane più robuste e adattive, la fiducia sociale nei contenuti digitali potrebbe erodersi, accelerando la necessità di standard normativi e soluzioni tecniche multilivello.







