La Rivoluzione dei Dati Linguistici: Il Corpus Comune e il Futuro dell’IA

Il Corpus Comune, recentemente rilasciato, si è dimostrato un punto di svolta nell’ambito dell’intelligenza artificiale. Con oltre 500 miliardi di parole provenienti da una vasta diversità di iniziative di patrimonio culturale, questo corpus multilingue è diventato il più grande fino ad oggi in lingue come l’inglese, il francese, l’olandese, lo spagnolo, il tedesco e l’italiano.

Grazie alla sua vastità e alla varietà delle fonti utilizzate, il Corpus Comune dimostra la possibilità di addestrare LLM completamente aperti su fonti senza preoccupazioni legate ai diritti d’autore. Coordinato da Pleias e coinvolgente ricercatori nel preaddestramento LLM, nell’etica dell’IA e nel patrimonio culturale, questo progetto internazionale ha ricevuto il supporto di importanti organizzazioni impegnate in un approccio di scienza aperta per l’IA, come HuggingFace, Occiglot, Eleuther e Nomic AI.

Il Corpus Comune non solo sfida le affermazioni delle grandi aziende di AI, ma dimostra che è possibile addestrare modelli di lingua su corpora completamente aperti e riproducibili, senza utilizzare contenuti protetti da copyright. Questo è solo l’inizio di un progetto che mira a rendere l’IA più accessibile, diversificata e democratica, garantendo che chiunque possa esaminare i grandi modelli.

________
Releasing Common Corpus: the largest public domain dataset for training LLMs

NEWS AIopenmind su:

3D (5)6G (1)Accademia di Comunicazione (4)Acer (1)Adobe (30)Aeronautica (9)Africa (2)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (4)AGID (1)Amazon (24)Ambiente (1)AMD (1)Android (5)Animali (6)Animazione (4)Anthropic (1)Anziani (1)App (7)Apple (46)Archeologia (3)Architettura (4)Armi (3)Arredamento interni (2)Arte (26)Assistente vocale (3)Astronomia (2)Asus (1)AT&T (1)Audi (1)Audio (49)Autoapprendimento (1)Avatar (3)Aviazione (1)Avvocati (2)Aziende (15)Banca (3)Bard (3)Biblioteca (1)Bill Gates (2)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (2)Canva (3)Cattolicesimo (3)Certificazioni (1)Cesintes (1)chataudio (1)Chatbot IA (41)Chip (3)Cina (51)Cinema (4)Claude (15)Clima (3)CNR (1)Coca-Cola (1)Commercio (2)Commissione Europea (1)Compagnie aeree (1)Computer (2)Computer quantistici (30)Computer Vision (3)Comuni italiani (1)Comunicazione (9)Comunicazioni vocali (2)Concorso bellezza AI (1)Consiglio d'Europa (1)Contabilità (1)Convegno (13)Copilot (5)Copyright (11)Criptovalute (1)Cybersecurity (1)Dalle-2 (2)Dark web (2)Dating (1)Deepfake (2)Design automobilistico (2)Design Industriale (6)Diritti Autore (1)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)E-commerce (1)eBay (1)Editing fotografico (2)Editoria (8)Email (1)ENEA (2)Esercito (2)Etica (117)Europol (1)Eventi (4)Evento (7)Facebook (3)FakeNews (18)Falegnameria (1)Fauna selvatica (1)Film (2)Finanza (7)Finanziamenti Italia (3)Firefly (3)Fondo Monetario Internazionale (1)Formazione (10)Fotografia (91)Francia (1)Free lance (1)G7 (1)Gaming (1)Garante privacy (18)Giappone (9)Giochi (6)Giornalismo (10)Giustizia (1)Google (210)Governo (7)Governo Italiano (2)Grafica (5)Guerra (12)Guida autonoma (3)Hong Kong (1)Hugging Face (3)IBM (6)Illustrazioni (1)iMessage (1)Immobiliare (1)India (3)Indossabili (2)Influencer (1)Informazione (9)Inghilterra (5)INPS (2)Intel (5)ISO (1)Istruzione (16)Jailbreaking (1)Lavoro (43)Libri (3)Linguistica computazionale (7)Linkedin (6)Luma AI (1)Maltrattamento infantile (1)Marina (1)Marketing (37)Medicina (23)Mercedes-Benz (1)Meta (51)Metaverso (15)Microsoft (139)Midjourney (13)Mobilità sostenibile (1)Moda (5)Modelli AI (21)Motori di Ricerca (11)Mozilla (2)Musica (31)NASA (1)Nato (2)Natura (1)Natural Language Processing (2)Nazioni Unite (1)NBA (1)NFT (3)Nvidia (29)Occhiali (2)Occhiali Intelligenti (1)Occhiali Smart (1)Oculistica (1)OMS (1)ONU (1)Open Source (2)OpenAI (189)Opera (8)Opera Browser (1)Oppo (3)Oracle (2)Orologio (1)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Perplexity (3)Pianeta (1)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (2)Privacy (19)Programmazione (10)Prompt (5)Pubblicazione (1)Pubblicità (18)QR Code (1)Qualcomm (3)Ray-Ban (2)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

Modelli AI più sicuri: la Rivoluzione di OpenAI

OpenAI ha introdotto un metodo innovativo per migliorare la sicurezza dei modelli di intelligenza artificiale (AI) utilizzando le Ricompense Basate su Regole (RBR). Questo...

White paper gratuito su come integrare l’AI generativa in azienda

L’introduzione dell’intelligenza artificiale generativa nel mondo aziendale ha rappresentato una vera e propria rivoluzione, innescata dal lancio di ChatGPT circa diciotto mesi fa. Questo...

Mi sono imparato la scienza?

Fahrenheit.iit e il potere della narrazione. Mercoledì 13 marzo, ore 17:00 in Accademia di Comunicazione e in streaming Registrati La narrazione può essere la lama...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines