Le spiegazioni controfattuali, pensate per rendere l’AI più trasparente, possono diventare un’arma per ricostruire modelli riservati. Un nuovo studio teorico mostra come, nel caso di modelli lineari, bastino pochissime query per comprometterne la sicurezza.
L’estrazione di modelli (model extraction) è una delle minacce emergenti alla sicurezza dei sistemi di intelligenza artificiale. Un recente lavoro accademico pubblicato su arXiv (febbraio 2026) analizza in profondità come le query fattuali e controfattuali possano essere sfruttate per ricostruire completamente un modello lineare “black box”, mettendo a rischio proprietà intellettuale e privacy.
Lo studio si concentra su tre tipi di interrogazioni: query fattuali, controfattuali esatte e controfattuali robuste. Gli autori dimostrano che, anche senza recuperare direttamente i parametri del modello, è possibile delimitare matematicamente le regioni di classificazione note a partire da un insieme arbitrario di risposte. Il risultato più critico riguarda però l’estrazione completa dei parametri: con misure di distanza differenziabili (come la norma ℓ2), una singola query controfattuale può essere sufficiente per ricostruire l’intero modello. Al contrario, usando distanze poliedrali (ad esempio ℓ1 o ℓ∞), il numero di query cresce linearmente con la dimensione dei dati e raddoppia nel caso di controfattuali robusti.
Questi risultati rafforzano un punto già evidenziato dalla letteratura sulla sicurezza dell’AI: spiegabilità e protezione del modello sono spesso in tensione. Le spiegazioni controfattuali, promosse dall’Explainable AI per aumentare fiducia e accountability, possono diventare vettori di attacco se non progettate con adeguate garanzie.
Il tema è particolarmente rilevante nei settori regolamentati. Normative come il Comitato di Basilea per la vigilanza bancaria (BCBS), il Regolamento generale sulla protezione dei dati e le linee guida Federal Reserve System sul model risk management spingono verso modelli interpretabili, spesso lineari. Proprio questi modelli, però, risultano più facilmente estraibili.
Approfondimento – Cronologia essenziale
- 2015 – Fredrikson et al.: primi attacchi di model inversion.
https://www.usenix.org/conference/usenixsecurity15/technical-sessions/presentation/fredrikson - 2017 – Wachter et al.: definizione delle spiegazioni controfattuali.
https://arxiv.org/abs/1711.00399 - 2019–2024 – Studi su rischi di sicurezza delle spiegazioni AI (Milli, Shokri, Nguyen).
https://arxiv.org/abs/1907.01197 - 2026 – Studio su Linear Model Extraction via Factual and Counterfactual Queries.
https://arxiv.org/abs/2602.09748
Consigli di approfondimento
- NIST – Adversarial ML Threat Matrix: https://www.nist.gov
- ENISA – AI cybersecurity: https://www.enisa.europa.eu
Abstract – Pro, rischi e implicazioni sociali
Le spiegazioni controfattuali migliorano trasparenza e contestabilità delle decisioni automatiche. Tuttavia, se non mitigate, facilitano l’estrazione di modelli e l’esposizione di informazioni sensibili. Il rischio etico è una normalizzazione di sistemi “trasparenti ma vulnerabili”, con conseguenze su concorrenza, privacy e fiducia pubblica. In futuro, sarà cruciale integrare spiegabilità e security-by-design, bilanciando diritto alla spiegazione e protezione dei modelli.







