Anthropic ha annunciato l’espansione del suo programma di bug bounty, un’iniziativa cruciale per rafforzare la sicurezza dei suoi modelli di intelligenza artificiale. Con il rapido avanzamento delle capacità dei modelli AI, diventa sempre più urgente migliorare i protocolli di sicurezza per prevenire l’uso improprio di tali tecnologie. La nuova iniziativa è focalizzata sulla scoperta di falle nelle mitigazioni di sicurezza, con particolare attenzione agli attacchi di tipo “universal jailbreak”. Questi attacchi rappresentano una minaccia significativa poiché consentono di aggirare le misure di sicurezza AI in molteplici settori, inclusi quelli ad alto rischio come il CBRN (chimico, biologico, radiologico e nucleare) e la cybersicurezza.
Il programma di bug bounty, realizzato in collaborazione con HackerOne, offrirà ai partecipanti l’accesso anticipato al sistema di mitigazione della sicurezza di nuova generazione, ancora non rilasciato al pubblico. L’invito è rivolto a ricercatori esperti di sicurezza AI, ai quali verranno offerte ricompense fino a 15.000 dollari per attacchi jailbreak universali innovativi. L’obiettivo è identificare e mitigare queste vulnerabilità, prevenendo potenziali abusi che potrebbero avere conseguenze devastanti.
Questa fase iniziale del programma sarà su invito, permettendo all’azienda di affinare i processi e rispondere con feedback tempestivi e costruttivi. I ricercatori interessati sono invitati a presentare domanda entro il 16 agosto, con le selezioni che verranno comunicate in autunno. Nel frattempo, l’azienda continua a cercare segnalazioni su possibili problemi di sicurezza nei suoi attuali sistemi, in linea con il suo impegno per lo sviluppo responsabile dell’AI.