Agenti di intelligenza artificiale nel lavoro: il benchmark che ne svela i limiti

Un nuovo benchmark sviluppato da Mercor mostra che i più avanzati modelli di intelligenza artificiale agentica non sono ancora pronti a sostituire i professionisti. Nonostante i progressi, le performance restano inferiori al 25% nei compiti reali di consulenza, diritto e finanza.

Articolo (circa 300 parole)

Gli agenti di intelligenza artificiale sono davvero pronti per il mondo del lavoro? La risposta, per ora, è negativa. A dimostrarlo è APEX-Agents, un nuovo benchmark pubblicato a gennaio 2026 dalla società di data intelligence Mercor, che ha testato i principali modelli di IA su mansioni reali svolte in settori ad alta specializzazione come consulenza strategica, investment banking e diritto.

Secondo i risultati, nessun modello supera il 25% di accuratezza. Il migliore è Gemini 3 Flash (24%), seguito da GPT-5.2 (23%). Più indietro Opus 4.5, Gemini 3 Pro e GPT-5, fermi intorno al 18%. In oltre tre quarti dei casi, i modelli hanno fornito risposte errate o non hanno risposto affatto.

A differenza di altri test, come il GDPval di OpenAI, APEX-Agents non misura semplicemente conoscenze teoriche, ma la capacità di svolgere compiti continuativi e multi-dominio, simulando ambienti di lavoro reali che includono Slack, documenti aziendali e normative settoriali.

“Il principale ostacolo è l’integrazione di informazioni provenienti da più contesti”, ha spiegato a TechCrunch Brendan Foody, CEO di Mercor. “Il lavoro umano non è una singola domanda con tutto il contesto: è un flusso continuo di decisioni distribuite su strumenti diversi”.

Un esempio del benchmark richiede di valutare se l’esportazione temporanea di log contenenti dati personali dall’UE agli Stati Uniti sia conforme all’articolo 49 del GDPR. Anche per un avvocato esperto, si tratta di un compito complesso.

Nonostante i limiti attuali, Foody sottolinea che i progressi sono rapidi: un anno fa le prestazioni erano tra il 5% e il 10%. Se il trend continuerà, l’automazione del lavoro cognitivo potrebbe diventare una realtà più vicina di quanto si pensi.


Agenti di intelligenza artificiale nel lavoro: il benchmark che ne svela i limiti

NEWS AIopenmind su:

3D (13)6G (39)Accademia di Comunicazione (4)Acer (1)Adobe (55)Aeronautica (11)Africa (6)Agenti AI (265)Agenti autonomi (2)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (74)AGID (1)Agricoltura (6)AI AnthropoCosmic (0)Amazon (87)Ambiente (5)AMD (7)America Latina (1)Android (10)Animali (7)Animazione (6)Anthropic (96)Anziani (1)App (14)Apple (99)Archeologia (3)Architettura (4)Archivi storici (1)Armi (4)Arredamento interni (2)Arte (36)Asia (1)Assistente vocale (8)Astronomia (3)Asus (2)AT&T (1)Audi (1)Audio (72)Autoapprendimento (1)Avatar (8)Aviazione (2)Avvocati (4)Aziende (27)Banca (7)Bard (3)BCE (1)Biblioteca (1)Bill Gates (2)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (2)California (5)Canva (10)Cattolicesimo (3)Certificazioni (1)Character (2)Chataudio (1)Chatbot IA (56)Chip (4)Cina (208)Cinema (20)Claude (31)Clima (6)CNR (1)Coca-Cola (2)Commercio (3)Commissione Europea (6)Compagnie aeree (1)Computer (8)Computer quantistici (79)Computer Vision (3)Comuni italiani (1)Comunicazione (10)Comunicazioni vocali (2)Concorso bellezza AI (1)Consiglio d'Europa (2)Contabilità (2)Convegno (17)Copilot (7)Copyright (33)Corea del Nord (1)Corea del Sud (5)Criptovalute (2)Cybersecurity (121)Dalle-2 (3)Danimarca (1)Dark web (3)Data center (50)Dating (1)Deepfake (6)DeepSeek (31)Design automobilistico (3)Design Industriale (7)Diritti Autore (1)Disney (3)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)Dubai (1)E-commerce (1)eBay (1)Editing fotografico (3)Editoria (18)ENEA (2)Esercito (2)etc (0)Etica (1157)Europol (3)Eventi (10)Evento (9)Facebook (6)FakeNews (24)Falegnameria (1)Fauna selvatica (1)Film (7)Finanza (90)Finanziamenti Italia (4)Firefly (3)Firefox (3)Fondo Monetario Internazionale (2)Formazione (127)Fotografia (124)Francia (6)Free lance (1)Fujitsu (1)Fusione nucleare (2)G7 (1)Gaming (3)Garante privacy (21)Gelati (1)Giappone (52)Giochi (12)Giornalismo (32)Giustizia (4)Google (636)Governo (9)Governo Italiano (6)Grafica (6)Grok (35)Guerra (35)Guida autonoma (10)Hong Kong (41)Hugging Face (6)IBM (12)Illustrazioni (1)iMessage (1)Immobiliare (1)India (19)Indossabili (4)Influencer (1)Informazione (13)Inghilterra (19)INPS (2)Intel (10)Interfacce neurali (1)ISO (1)Israele (3)Istruzione (18)Jailbreaking (1)Kamala Harris (1)Lavoro (286)Libri (5)Linguistica computazionale (12)Linkedin (12)Linux (1)Luma AI (1)Luna (1)Maltrattamento infantile (1)Marina (1)Marketing (333)Medicina (39)Medio Oriente (1)Mercedes-Benz (1)Meta (180)Metaverso (17)Meteo (2)Microsoft (308)Midjourney (18)Mistral (13)Mobilità sostenibile (2)Moda (7)Modelli AI (156)Motori di Ricerca (14)Motorola (1)Mozilla (3)Museo (1)Musica (63)NASA (5)Nato (2)Natura (8)Natural Language Processing (2)Nazioni Unite (1)NBA (1)Netflix (3)Neuralink (1)NFT (3)Norvegia (1)Nvidia (138)Occhiali (8)Occhiali Intelligenti (21)Occhiali Smart (1)Oculistica (1)Odore (1)Offerte lavoro (2)OMS (1)ONU (3)Open Source (27)OpenAI (539)Opera (17)Opera Browser (1)Oppo (3)Oracle (5)Orologio (1)papa Leone XIV (2)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Perplexity (33)Pianeta (2)PlayStation (1)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (4)Privacy (34)Programmazione (22)Prompt (5)Pubblicazione (1)Pubblicità (19)QR Code (1)Qualcomm (5)Ray-Ban (7)Realtà mista (5)Reddit (8)Relazioni internazionali (2)Relazioni Pubbliche (3)Religione (1)Report (350)Ricerca scientifica (18)Riconoscimento emotivo (1)Risorse online (100)Ristorazione (5)Robotica (190)Runway (18)Russia (3)Salute (136)Samsung (26)Sanità (24)Satelliti (5)Sceneggiatura (1)Semiconduttori (11)SEO (3)Shopping online (4)Sicurezza (39)Sicurezza informatica (94)SMS (1)Snapchat (12)Soccorso (1)Società (32)SoftBank (1)Software (5)Sony (3)Sora (1)Sport (8)Spotify (12)Stability (5)Stable Animation SDK (1)Stable Diffusion (12)Stampanti (1)Standard (7)Startup (593)streaming live (1)Supercomputer (6)Superintelligenza (3)Sviluppatori (1)Sviluppo sostenibile (1)Svizzera (1)Synthesia (1)Taiwan (50)Taxi (2)Telecomunicazioni (7)Telegram (4)Televisione (2)Tesla (10)TikTok (13)Tinder (5)Torah (1)Traduttore AI (7)Trasporti (54)Truffa (2)Twitter (13)Ucraina (4)Udito (1)UE (16)UNESCO (4)UNICEF (1)Unione Europea (86)Unitree Robotics (1)Università (5)Uomo (1)USA (130)Vaticano (8)Video (155)Videocomunicazione (4)Videogiochi (21)Vietnam (1)Vigili del fuoco (1)Violenza domestica (1)Visualizzazione dati (1)Vodafone (2)Vogue Business - As Gen Z matures (0)Volkswagen (1)VPN (3)Website (14)WhatsApp (12)Wikimedia (1)Wikipedia (4)Wordpress (6)X (13)xAI (11)Xiaomi (1)Yahoo (4)Youtube (33)Zoom (11)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

AI e Data Center: il raffreddamento diventa strategico nell’era dell’AI

Fonte originale dell’articolo / documento (White Paper):Frost & Sullivan Whitepaper – Strategic Cooling for the AI Era L’intelligenza artificiale sta cambiando radicalmente le infrastrutture digitali...

All Digital Weeks: L’importanza di un approccio armonizzato

REGISTRATI SU Stati Generali dell’Innovazione – SGI _____________ L’avvento dell’Intelligenza Artificiale – L’importanza di un approccio armonizzato L’avvento dell’Intelligenza Artificiale (AI) rappresenta una delle più significative rivoluzioni...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines