I benchmark dell’AI basati sul crowdsourcing presentano gravi difetti, affermano alcuni esperti

La comunità scientifica solleva dubbi sull’affidabilità dei benchmark AI crowdsourced, evidenziando bias, scarsa qualità e limiti etici.

Negli ultimi anni, i benchmark basati sul crowdsourcing si sono imposti come standard per valutare i modelli di intelligenza artificiale. Tuttavia, secondo un gruppo crescente di ricercatori, questi strumenti presentano gravi difetti che ne minano l’affidabilità e l’utilità comparativa.

Uno studio pubblicato dal Allen Institute for AI evidenzia che molte valutazioni affidate a crowdworker risultano inconsistenti, poco riproducibili e influenzate da bias culturali o cognitivi. Inoltre, le condizioni in cui vengono raccolti i dati – spesso poco trasparenti – sollevano questioni etiche legate alla remunerazione e alla qualità del lavoro svolto.

Tra le critiche più ricorrenti c’è la tendenza di questi benchmark a premiare modelli che imitano gli umani senza reale comprensione, creando un “effetto scorciatoia” che maschera limiti cognitivi dei modelli. Alcuni esperti suggeriscono alternative come benchmark supervisionati da esperti o valutazioni automatizzate su compiti più complessi.

In risposta, alcune piattaforme come BIG-bench e HELM stanno introducendo protocolli di controllo qualità più rigorosi e metodi di raccolta più diversificati. Tuttavia, la sfida resta aperta: garantire test equi, trasparenti e solidi è essenziale per una valutazione attendibile dell’intelligenza artificiale.


Cronologia e contesto:


Consigli di approfondimento:


Abstract: pro e rischi etici-sociali

Pro: Ampia disponibilità di dati, test rapidi e scalabili.
Rischi: Bias culturali, scarsa trasparenza, rischi per l’affidabilità scientifica. In futuro, l’adozione di benchmark più robusti e responsabili sarà cruciale per evitare distorsioni nell’innovazione AI e nelle sue applicazioni sociali.

I benchmark dell’AI basati sul crowdsourcing presentano gravi difetti, affermano alcuni esperti

NEWS AIopenmind su:

3D (13)6G (23)Accademia di Comunicazione (4)Acer (1)Adobe (47)Aeronautica (11)Africa (6)Agenti AI (107)Agenti autonomi (1)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (32)AGID (1)Agricoltura (3)Amazon (66)Ambiente (5)AMD (4)America Latina (1)Android (7)Animali (7)Animazione (6)Anthropic (54)Anziani (1)App (13)Apple (89)Archeologia (3)Architettura (4)Archivi storici (1)Armi (4)Arredamento interni (2)Arte (35)Asia (1)Assistente vocale (8)Astronomia (2)Asus (2)AT&T (1)Audi (1)Audio (70)Autoapprendimento (1)Avatar (8)Aviazione (1)Avvocati (3)Aziende (27)Banca (5)Bard (3)BCE (1)Biblioteca (1)Bill Gates (2)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (2)California (1)Canva (8)Cattolicesimo (3)Certificazioni (1)Chataudio (1)Chatbot IA (55)Chip (4)Cina (141)Cinema (14)Claude (22)Clima (6)CNR (1)Coca-Cola (2)Commercio (2)Commissione Europea (5)Compagnie aeree (1)Computer (8)Computer quantistici (55)Computer Vision (3)Comuni italiani (1)Comunicazione (10)Comunicazioni vocali (2)Concorso bellezza AI (1)Consiglio d'Europa (2)Contabilità (2)Convegno (16)Copilot (7)Copyright (33)Corea del Nord (1)Corea del Sud (1)Criptovalute (2)Cybersecurity (41)Dalle-2 (3)Dark web (3)Data center (28)Dating (1)Deepfake (4)DeepSeek (29)Design automobilistico (3)Design Industriale (7)Diritti Autore (1)Disney (1)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)E-commerce (1)eBay (1)Editing fotografico (3)Editoria (17)ENEA (2)Esercito (2)Etica (322)Europol (3)Eventi (10)Evento (9)Facebook (4)FakeNews (24)Falegnameria (1)Fauna selvatica (1)Film (7)Finanza (42)Finanziamenti Italia (4)Firefly (3)Firefox (1)Fondo Monetario Internazionale (2)Formazione (68)Fotografia (124)Francia (6)Free lance (1)G7 (1)Gaming (3)Garante privacy (21)Giappone (26)Giochi (10)Giornalismo (25)Giustizia (3)Google (481)Governo (8)Governo Italiano (3)Grafica (6)Grok (13)Guerra (20)Guida autonoma (9)Hong Kong (18)Hugging Face (6)IBM (11)Illustrazioni (1)iMessage (1)Immobiliare (1)India (10)Indossabili (4)Influencer (1)Informazione (10)Inghilterra (17)INPS (2)Intel (9)ISO (1)Israele (1)Istruzione (17)Jailbreaking (1)Kamala Harris (1)Lavoro (125)Libri (3)Linguistica computazionale (12)Linkedin (10)Linux (1)Luma AI (1)Luna (1)Maltrattamento infantile (1)Marina (1)Marketing (163)Medicina (36)Medio Oriente (1)Mercedes-Benz (1)Meta (142)Metaverso (17)Meteo (2)Microsoft (251)Midjourney (18)Mistral (13)Mobilità sostenibile (2)Moda (6)Modelli AI (155)Motori di Ricerca (14)Motorola (1)Mozilla (3)Museo (1)Musica (45)NASA (2)Nato (2)Natura (8)Natural Language Processing (2)Nazioni Unite (1)NBA (1)Netflix (1)NFT (3)Norvegia (1)Nvidia (90)Occhiali (7)Occhiali Intelligenti (19)Occhiali Smart (1)Oculistica (1)Odore (1)Offerte lavoro (2)OMS (1)ONU (1)Open Source (19)OpenAI (393)Opera (16)Opera Browser (1)Oppo (3)Oracle (3)Orologio (1)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Perplexity (21)Pianeta (2)PlayStation (1)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (4)Privacy (34)Programmazione (20)Prompt (5)Pubblicazione (1)Pubblicità (19)QR Code (1)Qualcomm (5)Ray-Ban (7)Realtà mista (5)Reddit (8)Relazioni internazionali (2)Relazioni Pubbliche (3)Religione (1)Report (161)Ricerca scientifica (17)Riconoscimento emotivo (1)Risorse online (100)Ristorazione (5)Robotica (106)Runway (16)Salute (57)Samsung (18)Sanità (21)Satelliti (5)Sceneggiatura (1)Semiconduttori (10)SEO (3)Shopping online (4)Sicurezza (31)Sicurezza informatica (90)SMS (1)Snapchat (12)Soccorso (1)Società (15)SoftBank (1)Software (5)Sony (2)Sora (1)Sport (5)Spotify (8)Stability (5)Stable Animation SDK (1)Stable Diffusion (12)Stampanti (1)Standard (5)Startup (569)streaming live (1)Supercomputer (6)Superintelligenza (3)Sviluppatori (1)Sviluppo sostenibile (1)Svizzera (1)Synthesia (1)Taiwan (27)Taxi (2)Telecomunicazioni (7)Telegram (4)Televisione (1)Tesla (10)TikTok (12)Tinder (1)Torah (1)Traduttore AI (7)Trasporti (23)Truffa (2)Twitter (13)Ucraina (3)Udito (1)UE (13)UNESCO (4)UNICEF (1)Unione Europea (50)Università (5)Uomo (1)USA (90)Vaticano (5)Video (152)Videocomunicazione (4)Videogiochi (14)Vigili del fuoco (1)Violenza domestica (1)Visualizzazione dati (1)Vodafone (1)Vogue Business - As Gen Z matures (0)Volkswagen (1)VPN (3)Website (14)WhatsApp (12)Wikipedia (3)Wordpress (4)X (13)xAI (10)Xiaomi (1)Yahoo (3)Youtube (23)Zoom (7)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

AI e assunzioni: nuove regole per i datori di lavoro USA

L’uso dell’intelligenza artificiale nelle decisioni occupazionali solleva preoccupazioni etiche e legali. Sempre più stati USA regolamentano l’IA per prevenire discriminazioni. Negli Stati Uniti, l’adozione crescente...

Grok di xAI evolve: ora interpreta immagini e video in tempo reale

Il chatbot di Elon Musk compie un salto evolutivo grazie alla visione artificiale: nuove funzioni per l'interazione multimodale. Grok, il chatbot sviluppato da xAI, la...

All Digital Weeks: L’importanza di un approccio armonizzato

REGISTRATI SU Stati Generali dell’Innovazione – SGI _____________ L’avvento dell’Intelligenza Artificiale – L’importanza di un approccio armonizzato L’avvento dell’Intelligenza Artificiale (AI) rappresenta una delle più significative rivoluzioni...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines