APEX-Agents introduce un nuovo standard per valutare la produttività reale degli agenti di intelligenza artificiale in contesti professionali complessi. Il benchmark misura la capacità di eseguire compiti a lungo termine e multi-applicazione, simulando flussi di lavoro tipici di investment banking, consulenza strategica e diritto societario. I primi risultati mostrano forti limiti degli attuali modelli, con prestazioni massime inferiori al 25%.
Secondo i dati diffusi dal team di ricerca che ha sviluppato APEX-Agents, il benchmark è composto da 480 task realistici, progettati da analisti finanziari, consulenti di gestione e avvocati aziendali. Gli agenti devono operare in ambienti di lavoro simulati che includono file, email, fogli di calcolo, documenti legali e strumenti software, replicando i vincoli operativi di un ufficio reale.
Come funziona APEX-Agents
Il benchmark valuta la capacità di pianificazione, memoria di contesto, coordinamento multi-step e uso corretto degli strumenti digitali.
La metrica principale è Pass@1, che misura la percentuale di task completati correttamente al primo tentativo, senza intervento umano.
Tutti i prompt, le rubriche di valutazione, gli output “gold”, i file di lavoro e i metadati sono stati rilasciati in open source, consentendo audit indipendenti e confronti riproducibili.
I risultati: produttività ancora limitata
Su otto agenti testati, il migliore è Gemini 3 Flash (Thinking=High) con un punteggio del 24,0%, seguito da:
- GPT-5.2 (Thinking=High)
- Claude Opus 4.5 (Thinking=High)
- Gemini 3 Pro (Thinking=High)
Nessun modello supera la soglia del 25%, segnalando che gli agenti attuali faticano a mantenere coerenza, memoria e controllo in processi complessi e prolungati.
Archipelago: l’infrastruttura di valutazione
Insieme al benchmark, è stata rilasciata Archipelago, una piattaforma open source per l’esecuzione, il monitoraggio e la valutazione standardizzata degli agenti AI in ambienti professionali simulati.
Abstract – Pro, rischi e impatti sociali
Pro:
- Misurazione realistica della produttività degli agenti
- Standard aperto e verificabile
- Supporto alla ricerca su automazione responsabile
Rischi:
- Sovrastima delle capacità operative degli agenti
- Uso in contesti critici senza supervisione umana
- Dipendenza decisionale da sistemi ancora instabili
Impatto futuro:
APEX-Agents evidenzia che l’“agentic AI” non è ancora pronta per sostituire il lavoro cognitivo complesso. Senza governance, audit e human-in-the-loop, l’adozione su larga scala può amplificare errori, bias e rischi legali.







