Un nuovo framework introduce la gestione degli incidenti come elemento strutturale per la sicurezza degli agenti basati su modelli linguistici di grandi dimensioni (LLM). AIR promette di colmare un vuoto critico: non solo prevenire i fallimenti, ma anche rilevarli, contenerli e impedirne la ricorrenza.
Gli agenti LLM stanno rapidamente diventando componenti operativi in contesti complessi, dall’automazione software agli ambienti fisici e alle interfacce digitali. Tuttavia, la maggior parte delle strategie di sicurezza oggi si concentra sulla prevenzione ex ante: allineamento dei modelli, filtri decisionali e blocchi a runtime. Quando un incidente avviene, mancano strumenti sistematici per reagire in modo strutturato.
Lo studio “AIR: Improving Agent Safety through Incident Response” introduce AIR (Agent Incident Response), il primo framework che applica il paradigma della incident response agli agenti AI. AIR integra nel ciclo di esecuzione dell’agente un linguaggio specifico di dominio (DSL) che consente di definire trigger, controlli semantici e azioni di contenimento e recupero. Il sistema opera su quattro fasi: rilevamento dell’incidente, contenimento, ripristino ed eradicazione, generando anche nuove regole di sicurezza per prevenire episodi simili in futuro.
I risultati sperimentali sono rilevanti: testato su tre tipologie di agenti (code agent, embodied agent e computer-use agent), AIR supera il 90% di accuratezza nel rilevamento degli incidenti e raggiunge oltre il 95% di successo nelle fasi di rimedio ed eradicazione. Un aspetto chiave è che le regole di sicurezza generate automaticamente dagli LLM mostrano un’efficacia comparabile a quelle scritte manualmente dagli sviluppatori.
Il lavoro si inserisce nel solco delle pratiche consolidate di incident response adottate in ambito cybersecurity, ispirandosi a standard come quelli del NIST e dell’ISO, ma adattandoli alle specificità dell’autonomia agentica e dell’ambiguità semantica tipica dei sistemi basati su linguaggio naturale. L’implementazione, basata sull’SDK di OpenAI, è open source e disponibile per la comunità di ricerca.
Approfondimento – Cronologia e contesto
- 2012–2023 – Standardizzazione della incident response IT (NIST SP 800-61, ISO/IEC 27035):
https://www.nist.gov | https://www.iso.org - 2022–2024 – Diffusione di agenti LLM e prime ricerche sui rischi emergenti (RLHF, guardrail, monitoraggio runtime).
- Febbraio 2026 – Pubblicazione del preprint AIR su arXiv:
https://arxiv.org/abs/2602.11749
Consigli di approfondimento
- NIST Cybersecurity Framework 2.0: https://www.nist.gov/cyberframework
- ISO/IEC 27035 – Incident Management: https://www.iso.org/standard/44379.html
- OpenAI Agent SDK: https://platform.openai.com/docs/agents
Abstract – Pro e rischi etico-sociali
Pro: AIR introduce resilienza operativa, trasparenza e apprendimento post-incidente negli agenti AI, riducendo l’impatto di errori inevitabili.
Rischi: l’automazione della risposta può normalizzare comportamenti correttivi opachi e spostare responsabilità dagli umani ai sistemi.
Conseguenze future: l’incident response potrebbe diventare uno standard de facto per l’AI agentica, ma richiederà governance chiara, auditabilità e supervisione umana per evitare derive di delega decisionale.







