Il lancio di Claude Opus 4.5 segna un nuovo passo nella competizione tra modelli agentici, con miglioramenti nella codifica e nell’uso del computer. Tuttavia, le vulnerabilità legate agli attacchi di prompt injection e ai casi d’uso dannosi evidenziano che la sicurezza rimane un fronte aperto.
Anthropic ha presentato Claude Opus 4.5 definendolo il suo modello più avanzato per codifica, agenti e automazione del computer. Il modello, disponibile da oggi tramite app, API e cloud provider, sarebbe in grado — secondo l’azienda — di superare Gemini 3 di Google in diverse metriche di programmazione. Tra i progressi dichiarati figurano una migliore capacità nella ricerca approfondita, nell’uso di slide e nella gestione di fogli di calcolo, oltre all’introduzione di strumenti potenziati per Claude Code e nuove funzioni nelle app destinate ai consumatori.
Il punto critico resta però la sicurezza. Come mostrato nella system card ufficiale, Opus 4.5 non è immune agli attacchi di prompt injection, una forma di manipolazione che inserisce istruzioni nascoste in contenuti testuali provenienti da siti e fonti esterne. Nonostante Anthropic affermi che il modello sia “più difficile da ingannare rispetto agli altri modelli di frontiera”, numerosi attacchi riescono ancora a superare le difese.
L’azienda ha introdotto nuove valutazioni interne ed esterne sui rischi legati alla codifica, all’uso del browser e agli scenari di automazione agentica. Nelle prove su 150 richieste di programmazione dannosa, il modello ha rifiutato il 100% dei comandi. Tuttavia, i risultati peggiorano quando Opus 4.5 interagisce tramite Claude Code o nelle funzioni di computer use: solo il 78% delle richieste malevole di creazione malware o software intrusivi è stato bloccato, e circa l’88% delle istruzioni volte alla sorveglianza o alla raccolta illecita di dati.
Il quadro complessivo suggerisce che, nonostante il rapido avanzamento verso agenti più autonomi, le vulnerabilità strutturali della sicurezza AI richiedono ancora un impegno profondo e continuo.
Approfondimento • Cronologia dei fatti collegati
- 2023–2024 — Prime system card di sicurezza LLM: OpenAI, Anthropic e Google iniziano a pubblicare documentazione dedicata ai rischi dei modelli. NIST AI RMF
- 2024 — Diffusione dei primi attacchi di prompt injection pratici documentati da ricercatori indipendenti e centri come MIT CSAIL.
- 2025 — Crescita degli agenti AI e aumento delle vulnerabilità secondo l’UK AI Safety Institute e l’EU AI Office, che pubblicano analisi su rischi operativi e agentici.
- Novembre 2025 — Lancio Claude Opus 4.5 con nuove valutazioni di sicurezza sulle funzionalità di automazione.
Consigli di approfondimento
- NIST – AI Risk Management Framework: https://www.nist.gov/itl/ai-risk-management-framework
- UK AI Safety Institute – Reports on Frontier Model Evaluation: https://www.aisafety.institute
- OECD – AI Policy Observatory: https://oecd.ai
Abstract: Pro, rischi e possibili conseguenze future
Pro:
- Miglioramento nelle capacità di codifica, automazione e uso del computer.
- Introduzione di valutazioni di sicurezza più ampie.
- Potenziamento degli agenti per attività complesse su desktop e browser.
Rischi:
- Persistenza di vulnerabilità in prompt injection avanzata.
- Potenziale abuso in scenari agentici non controllati.
- Necessità di governance più rigorosa per prevenire sorveglianza, truffe e automazioni intrusive.
Conseguenze future:
- Rafforzamento delle politiche di sicurezza nell’AI Act e nei framework internazionali.
- Maggior attenzione alla trasparenza delle system card e alle valutazioni indipendenti.
- Necessità di nuove pratiche sociali e operative per limitare l’impatto di agenti troppo autonomi.







