Agenti APEX: il nuovo benchmark per misurare la produttività degli agenti AI

APEX-Agents introduce un nuovo standard per valutare la produttività reale degli agenti di intelligenza artificiale in contesti professionali complessi. Il benchmark misura la capacità di eseguire compiti a lungo termine e multi-applicazione, simulando flussi di lavoro tipici di investment banking, consulenza strategica e diritto societario. I primi risultati mostrano forti limiti degli attuali modelli, con prestazioni massime inferiori al 25%.

Secondo i dati diffusi dal team di ricerca che ha sviluppato APEX-Agents, il benchmark è composto da 480 task realistici, progettati da analisti finanziari, consulenti di gestione e avvocati aziendali. Gli agenti devono operare in ambienti di lavoro simulati che includono file, email, fogli di calcolo, documenti legali e strumenti software, replicando i vincoli operativi di un ufficio reale.

Come funziona APEX-Agents

Il benchmark valuta la capacità di pianificazione, memoria di contesto, coordinamento multi-step e uso corretto degli strumenti digitali.
La metrica principale è Pass@1, che misura la percentuale di task completati correttamente al primo tentativo, senza intervento umano.

Tutti i prompt, le rubriche di valutazione, gli output “gold”, i file di lavoro e i metadati sono stati rilasciati in open source, consentendo audit indipendenti e confronti riproducibili.

I risultati: produttività ancora limitata

Su otto agenti testati, il migliore è Gemini 3 Flash (Thinking=High) con un punteggio del 24,0%, seguito da:

  • GPT-5.2 (Thinking=High)
  • Claude Opus 4.5 (Thinking=High)
  • Gemini 3 Pro (Thinking=High)

Nessun modello supera la soglia del 25%, segnalando che gli agenti attuali faticano a mantenere coerenza, memoria e controllo in processi complessi e prolungati.

Archipelago: l’infrastruttura di valutazione

Insieme al benchmark, è stata rilasciata Archipelago, una piattaforma open source per l’esecuzione, il monitoraggio e la valutazione standardizzata degli agenti AI in ambienti professionali simulati.


Abstract – Pro, rischi e impatti sociali

Pro:

  • Misurazione realistica della produttività degli agenti
  • Standard aperto e verificabile
  • Supporto alla ricerca su automazione responsabile

Rischi:

  • Sovrastima delle capacità operative degli agenti
  • Uso in contesti critici senza supervisione umana
  • Dipendenza decisionale da sistemi ancora instabili

Impatto futuro:
APEX-Agents evidenzia che l’“agentic AI” non è ancora pronta per sostituire il lavoro cognitivo complesso. Senza governance, audit e human-in-the-loop, l’adozione su larga scala può amplificare errori, bias e rischi legali.


Agenti APEX: il nuovo benchmark per misurare la produttività degli agenti AI

NEWS AIopenmind su:

3D (13)6G (39)Accademia di Comunicazione (4)Acer (1)Adobe (55)Adobe Firefly Custom Models: AI generativa personalizzata per immagini e stile creativo (0)Aeronautica (11)Africa (6)Agenti AI (265)Agenti autonomi (2)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (74)AGID (1)Agricoltura (6)Amazon (87)Ambiente (5)AMD (7)America Latina (1)Android (10)Animali (7)Animazione (6)Anthropic (96)AnthropoCosmic AI (1)Anziani (1)App (14)Apple (99)Archeologia (3)Architettura (4)Archivi storici (1)Armi (4)Arredamento interni (2)Arte (36)Asia (1)Assistente vocale (8)Astronomia (3)Asus (2)AT&T (1)Audi (1)Audio (72)Autoapprendimento (1)Avatar (8)Aviazione (2)Avvocati (4)Aziende (27)Banca (7)Bard (3)BCE (1)Biblioteca (1)Bill Gates (2)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (2)California (5)Canva (10)Cattolicesimo (3)Certificazioni (1)Character (2)Chataudio (1)Chatbot IA (56)Chip (4)Cina (208)Cinema (20)Claude (31)Clima (6)CNR (1)Coca-Cola (2)Commercio (3)Commissione Europea (6)Compagnie aeree (1)Computer (8)Computer quantistici (79)Computer Vision (3)Comuni italiani (1)Comunicazione (10)Comunicazioni vocali (2)Concorso bellezza AI (1)Consiglio d'Europa (2)Contabilità (2)Convegno (17)Copilot (7)Copyright (33)Corea del Nord (1)Corea del Sud (5)Criptovalute (2)Cybersecurity (121)Dalle-2 (3)Danimarca (1)Dark web (3)Data center (50)Dating (1)Deepfake (6)DeepSeek (31)Design automobilistico (3)Design Industriale (7)Diritti Autore (1)Disney (3)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)Dubai (1)E-commerce (1)eBay (1)Editing fotografico (3)Editoria (18)ENEA (2)Esercito (2)etc (0)Etica (1157)Europol (3)Eventi (10)Evento (9)Facebook (6)FakeNews (24)Falegnameria (1)Fauna selvatica (1)Film (7)Finanza (90)Finanziamenti Italia (4)Firefly (3)Firefox (3)Fondo Monetario Internazionale (2)Formazione (127)Fotografia (124)Francia (6)Free lance (1)Fujitsu (1)Fusione nucleare (2)G7 (1)Gaming (3)Garante privacy (21)Gelati (1)Giappone (52)Giochi (12)Giornalismo (32)Giustizia (4)Google (636)Governo (9)Governo Italiano (6)Grafica (6)Grok (35)Guerra (35)Guida autonoma (10)Hong Kong (41)Hugging Face (6)IBM (12)Illustrazioni (1)iMessage (1)Immobiliare (1)India (19)Indossabili (4)Influencer (1)Informazione (13)Inghilterra (19)INPS (2)Intel (10)Interfacce neurali (1)ISO (1)Israele (3)Istruzione (18)Jailbreaking (1)Kamala Harris (1)Lavoro (286)Libri (5)Linguistica computazionale (12)Linkedin (12)Linux (1)Luma AI (1)Luna (1)Maltrattamento infantile (1)Marina (1)Marketing (333)Medicina (39)Medio Oriente (1)Mercedes-Benz (1)Meta (180)Metaverso (17)Meteo (2)Microsoft (308)Midjourney (18)Mistral (13)Mobilità sostenibile (2)Moda (7)Modelli AI (156)Motori di Ricerca (14)Motorola (1)Mozilla (3)Museo (1)Musica (63)NASA (5)Nato (2)Natura (8)Natural Language Processing (2)Nazioni Unite (1)NBA (1)Netflix (3)Neuralink (1)NFT (3)Norvegia (1)Nvidia (138)Occhiali (8)Occhiali Intelligenti (21)Occhiali Smart (1)Oculistica (1)Odore (1)Offerte lavoro (2)OMS (1)ONU (3)Open Source (27)OpenAI (539)Opera (17)Opera Browser (1)Oppo (3)Oracle (5)Orologio (1)papa Leone XIV (2)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Perplexity (33)Pianeta (2)PlayStation (1)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (4)Privacy (34)Programmazione (22)Prompt (5)Pubblicazione (1)Pubblicità (19)QR Code (1)Qualcomm (5)Ray-Ban (7)Realtà mista (5)Reddit (8)Relazioni internazionali (2)Relazioni Pubbliche (3)Religione (1)Report (350)Ricerca scientifica (18)Riconoscimento emotivo (1)Risorse online (100)Ristorazione (5)Robotica (190)Runway (18)Russia (3)Salute (136)Samsung (26)Sanità (24)Satelliti (5)Sceneggiatura (1)Semiconduttori (11)SEO (3)Shopping online (4)Sicurezza (39)Sicurezza informatica (94)SMS (1)Snapchat (12)Soccorso (1)Società (32)SoftBank (1)Software (5)Sony (3)Sora (1)Sport (8)Spotify (12)Stability (5)Stable Animation SDK (1)Stable Diffusion (12)Stampanti (1)Standard (7)Startup (593)streaming live (1)Supercomputer (6)Superintelligenza (3)Sviluppatori (1)Sviluppo sostenibile (1)Svizzera (1)Synthesia (1)Taiwan (50)Taxi (2)Telecomunicazioni (7)Telegram (4)Televisione (2)Tesla (10)TikTok (13)Tinder (5)Torah (1)Traduttore AI (7)Trasporti (54)Truffa (2)Twitter (13)Ucraina (4)Udito (1)UE (16)UNESCO (4)UNICEF (1)Unione Europea (86)Unitree Robotics (1)Università (5)Uomo (1)USA (130)Vaticano (8)Video (155)Videocomunicazione (4)Videogiochi (21)Vietnam (1)Vigili del fuoco (1)Violenza domestica (1)Visualizzazione dati (1)Vodafone (2)Vogue Business - As Gen Z matures (0)Volkswagen (1)VPN (3)Website (14)WhatsApp (12)Wikimedia (1)Wikipedia (4)Wordpress (6)X (13)xAI (11)Xiaomi (1)Yahoo (4)Youtube (33)Zoom (11)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

AI e Data Center: il raffreddamento diventa strategico nell’era dell’AI

Fonte originale dell’articolo / documento (White Paper):Frost & Sullivan Whitepaper – Strategic Cooling for the AI Era L’intelligenza artificiale sta cambiando radicalmente le infrastrutture digitali...

All Digital Weeks: L’importanza di un approccio armonizzato

REGISTRATI SU Stati Generali dell’Innovazione – SGI _____________ L’avvento dell’Intelligenza Artificiale – L’importanza di un approccio armonizzato L’avvento dell’Intelligenza Artificiale (AI) rappresenta una delle più significative rivoluzioni...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines