Le startup di intelligenza artificiale stanno cambiando approccio: non più set di dati raccolti casualmente dal web, ma raccolte curate, spesso prodotte direttamente in azienda. L’obiettivo è costruire un vantaggio competitivo basato sulla qualità e non sulla quantità dei dati.
La società Turing, ad esempio, ha assunto artisti, chef e operai per indossare telecamere GoPro e registrare ore di attività manuali. Queste riprese servono ad addestrare modelli visivi in grado di apprendere competenze astratte, come il ragionamento sequenziale. Secondo Sudarshan Sivaraman, Chief AGI Officer di Turing, la varietà dei dati raccolti sul campo è essenziale per pre-addestrare sistemi generalisti. Una parte significativa del training (dal 75% all’80%) è poi supportata da dati sintetici generati a partire dai video reali.
Un altro caso è Fyxer, startup che sviluppa modelli per la gestione delle email. Il fondatore Richard Hollingsworth ha scoperto che piccoli set di dati ben selezionati portano a performance migliori rispetto a grandi volumi di informazioni eterogenee. Per questo ha coinvolto numerosi assistenti esecutivi esperti, capaci di fornire indicazioni pratiche su come interpretare e classificare le email.
La tendenza riflette una trasformazione più ampia nel settore: con la potenza computazionale ormai standardizzata, sono i dati proprietari a fare la differenza. La raccolta interna consente di garantire qualità, ridurre errori e difetti nei dati sintetici e soprattutto proteggere il know-how dall’imitazione. In un contesto competitivo, il vero capitale non è più il modello, ma il dataset che lo alimenta.
Cronologia di contesto
- 2023 – Crescono le controversie sull’uso di dataset pubblici per addestrare AI (es. cause contro OpenAI e Stability AI).
- 2024 – La Commissione UE avvia linee guida sull’uso etico dei dati per AI.
- 2025 – Le startup privilegiano raccolte curate e dati sintetici per mantenere vantaggi competitivi.
Approfondimenti
- OCSE – Data Governance e AI
- NIST – Framework AI Risk Management
- European Commission – AI Act
Abstract
Il passaggio dai dataset liberi online a raccolte curate segna una svolta strategica per le startup AI. Pro: maggiore qualità, riduzione dei bias, protezione della proprietà intellettuale. Rischi: sfruttamento del lavoro umano per l’annotazione, possibili distorsioni nei dati sintetici, aumento delle barriere all’accesso. Le conseguenze future potrebbero rafforzare il divario tra grandi player con risorse per raccogliere dati proprietari e startup minori, incidendo sull’equità e sulla democratizzazione dell’IA.







