Gli agenti di intelligenza artificiale stanno migliorando più velocemente del previsto anche nelle attività legali. I nuovi risultati del benchmark APEX di Mercor mostrano progressi significativi nelle capacità di ragionamento professionale, riaprendo il dibattito sul futuro delle professioni giuridiche.
Un balzo improvviso nei benchmark legali
Solo poche settimane fa, il benchmark APEX sviluppato da Mercor indicava prestazioni modeste degli agenti di intelligenza artificiale in compiti come l’analisi legale e aziendale. Tutti i principali laboratori restavano sotto il 25%, rafforzando l’idea che gli avvocati fossero, almeno nel breve periodo, al riparo dalla sostituzione automatizzata.
La situazione è cambiata rapidamente con il rilascio di Anthropic Opus 4.6. Il nuovo modello ha raggiunto quasi il 30% nei test one-shot e una media del 45% quando ha potuto iterare la soluzione, segnando un netto miglioramento rispetto allo stato dell’arte precedente. Secondo Mercor, una parte del salto sarebbe legata all’introduzione di funzionalità avanzate di agentic AI, inclusi gli “sciami di agenti”, progettati per affrontare problemi complessi in più fasi.
Progressi rapidi, ma non sostituzione imminente
Il CEO di Mercor, Brendan Foody, ha definito “pazzesco” il passaggio dal 18,4% al 29,8% in pochi mesi, sottolineando la velocità con cui i modelli di base stanno evolvendo. Tuttavia, un 30% resta lontano dal livello di affidabilità richiesto per l’esercizio autonomo della professione forense. Le attività legali richiedono responsabilità, interpretazione normativa contestuale e accountability, elementi che l’IA non possiede pienamente.
Implicazioni etiche e professionali
Più che una sostituzione, questi risultati indicano una crescente integrazione: supporto alla ricerca giuridica, analisi preliminare dei casi e automazione di compiti ripetitivi. Il rischio, avvertono diversi esperti, è una delega eccessiva del giudizio, con possibili effetti sulla qualità delle decisioni e sulla responsabilità professionale.
Approfondimento – cronologia essenziale
- 2024–2025: sviluppo del benchmark APEX per valutare agenti AI in compiti professionali – Mercor
https://www.mercor.com - 2026: rilascio di Anthropic Opus 4.6 con nuove capacità agentiche
https://www.anthropic.com
Consigli di approfondimento
- Linee guida UE su AI e professioni regolamentate – Commissione europea
https://digital-strategy.ec.europa.eu - Studi su AI e diritto – Stanford HAI
https://hai.stanford.edu
Abstract – pro e rischi
Pro: aumento dell’efficienza, supporto analitico avanzato, riduzione dei costi.
Rischi: dipendenza cognitiva, opacità decisionale, responsabilità legale incerta.
Conseguenze future: evoluzione del ruolo dell’avvocato verso funzioni di supervisione critica e governance dell’IA, più che sostituzione diretta.







