La Rivoluzione dei Dati Linguistici: Il Corpus Comune e il Futuro dell’IA

Il Corpus Comune, recentemente rilasciato, si è dimostrato un punto di svolta nell’ambito dell’intelligenza artificiale. Con oltre 500 miliardi di parole provenienti da una vasta diversità di iniziative di patrimonio culturale, questo corpus multilingue è diventato il più grande fino ad oggi in lingue come l’inglese, il francese, l’olandese, lo spagnolo, il tedesco e l’italiano.

Grazie alla sua vastità e alla varietà delle fonti utilizzate, il Corpus Comune dimostra la possibilità di addestrare LLM completamente aperti su fonti senza preoccupazioni legate ai diritti d’autore. Coordinato da Pleias e coinvolgente ricercatori nel preaddestramento LLM, nell’etica dell’IA e nel patrimonio culturale, questo progetto internazionale ha ricevuto il supporto di importanti organizzazioni impegnate in un approccio di scienza aperta per l’IA, come HuggingFace, Occiglot, Eleuther e Nomic AI.

Il Corpus Comune non solo sfida le affermazioni delle grandi aziende di AI, ma dimostra che è possibile addestrare modelli di lingua su corpora completamente aperti e riproducibili, senza utilizzare contenuti protetti da copyright. Questo è solo l’inizio di un progetto che mira a rendere l’IA più accessibile, diversificata e democratica, garantendo che chiunque possa esaminare i grandi modelli.

________
Releasing Common Corpus: the largest public domain dataset for training LLMs

NEWS AIopenmind su:

3D (4)6G (1)Accademia di Comunicazione (1)Acer (1)Adobe (18)Aeronautica (8)Africa (2)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (3)AGID (1)Amazon (15)Ambiente (1)Android (4)Animali (6)Animazione (3)Anziani (1)App (5)Apple (27)Archeologia (3)Architettura (3)Armi (3)Arredamento interni (1)Arte (24)Assistente vocale (2)Astronomia (2)AT&T (1)Audio (28)Autoapprendimento (1)Avatar (3)Aviazione (1)Avvocati (2)Aziende (11)Banca (3)Bard (3)Biblioteca (1)Bill Gates (1)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (1)Calcio (2)Canva (2)Cattolicesimo (3)Certificazioni (1)Cesintes (1)chataudio (1)Chatbot IA (34)Chip (2)Cina (49)Cinema (3)Claude (4)Clima (2)CNR (1)Coca-Cola (1)Commercio (2)Commissione Europea (1)Compagnie aeree (1)Computer quantistici (27)Computer Vision (3)Comuni italiani (1)Comunicazione (7)Comunicazioni vocali (2)Contabilità (1)Convegno (10)Copilot (5)Copyright (5)Criptovalute (1)Cybersecurity (1)Dalle-2 (2)Dark web (2)Dating (1)Deepfake (2)Design automobilistico (2)Design Industriale (1)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)E-commerce (1)Editing fotografico (2)Editoria (7)ENEA (2)Esercito (2)Etica (110)Europol (1)Eventi (4)Evento (7)Facebook (3)FakeNews (15)Falegnameria (1)Fauna selvatica (1)Film (2)Finanza (6)Finanziamenti Italia (3)Firefly (3)Formazione (7)Fotografia (70)Francia (1)Free lance (1)G7 (1)Gaming (1)Garante privacy (16)Giappone (8)Giochi (5)Giornalismo (10)Giustizia (1)Google (158)Governo (7)Grafica (2)Guerra (10)Guida autonoma (3)Hong Kong (1)IBM (6)Illustrazioni (1)iMessage (1)Immobiliare (1)India (3)Indossabili (1)Influencer (1)Informazione (6)Inghilterra (2)INPS (2)Intel (3)Istruzione (16)Jailbreaking (1)Lavoro (41)Libri (3)Linguistica computazionale (6)Linkedin (3)Maltrattamento infantile (1)Marina (1)Marketing (14)Medicina (21)Mercedes-Benz (1)Meta (34)Metaverso (15)Microsoft (99)Midjourney (10)Mobilità sostenibile (1)Moda (5)Motori di Ricerca (2)Mozilla (2)Musica (23)Nato (1)Natura (1)Natural Language Processing (2)Nazioni Unite (1)NBA (1)NFT (3)Nvidia (23)Occhiali (2)Occhiali Intelligenti (1)Occhiali Smart (1)Oculistica (1)OMS (1)ONU (1)Open Source (2)OpenAI (129)Opera (3)Opera Browser (1)Oppo (1)Oracle (1)Orologio (1)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Pianeta (1)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (2)Privacy (17)Programmazione (7)Prompt (5)Pubblicazione (1)Pubblicità (15)QR Code (1)Qualcomm (1)Ray-Ban (1)Realtà mista (2)Reddit (1)Relazioni internazionali (2)Relazioni Pubbliche (3)Religione (1)Report (50)Ricerca scientifica (7)Riconoscimento emotivo (1)Risorse online (100)Ristorazione (2)Robotica (27)Salute (3)Samsung (3)Sanità (15)Satelliti (2)Sceneggiatura (1)Semiconduttori (2)SEO (1)Shopping online (1)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

L’Incontro tra Microsoft e OpenAI: Il Futuro della Tecnologia e della Difesa

Nel corso dell'ultimo anno, Microsoft ha proposto l'utilizzo dello strumento di generazione d'immagini DALL-E, sviluppato da OpenAI, per assistere il Dipartimento della Difesa degli...

Mi sono imparato la scienza?

Fahrenheit.iit e il potere della narrazione. Mercoledì 13 marzo, ore 17:00 in Accademia di Comunicazione e in streaming Registrati La narrazione può essere la lama...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines