Un nuovo benchmark sviluppato da Mercor mostra che i più avanzati modelli di intelligenza artificiale agentica non sono ancora pronti a sostituire i professionisti. Nonostante i progressi, le performance restano inferiori al 25% nei compiti reali di consulenza, diritto e finanza.
Articolo (circa 300 parole)
Gli agenti di intelligenza artificiale sono davvero pronti per il mondo del lavoro? La risposta, per ora, è negativa. A dimostrarlo è APEX-Agents, un nuovo benchmark pubblicato a gennaio 2026 dalla società di data intelligence Mercor, che ha testato i principali modelli di IA su mansioni reali svolte in settori ad alta specializzazione come consulenza strategica, investment banking e diritto.
Secondo i risultati, nessun modello supera il 25% di accuratezza. Il migliore è Gemini 3 Flash (24%), seguito da GPT-5.2 (23%). Più indietro Opus 4.5, Gemini 3 Pro e GPT-5, fermi intorno al 18%. In oltre tre quarti dei casi, i modelli hanno fornito risposte errate o non hanno risposto affatto.
A differenza di altri test, come il GDPval di OpenAI, APEX-Agents non misura semplicemente conoscenze teoriche, ma la capacità di svolgere compiti continuativi e multi-dominio, simulando ambienti di lavoro reali che includono Slack, documenti aziendali e normative settoriali.
“Il principale ostacolo è l’integrazione di informazioni provenienti da più contesti”, ha spiegato a TechCrunch Brendan Foody, CEO di Mercor. “Il lavoro umano non è una singola domanda con tutto il contesto: è un flusso continuo di decisioni distribuite su strumenti diversi”.
Un esempio del benchmark richiede di valutare se l’esportazione temporanea di log contenenti dati personali dall’UE agli Stati Uniti sia conforme all’articolo 49 del GDPR. Anche per un avvocato esperto, si tratta di un compito complesso.
Nonostante i limiti attuali, Foody sottolinea che i progressi sono rapidi: un anno fa le prestazioni erano tra il 5% e il 10%. Se il trend continuerà, l’automazione del lavoro cognitivo potrebbe diventare una realtà più vicina di quanto si pensi.







