OpenAI, secondo un’inchiesta di Wired, avrebbe chiesto a collaboratori esterni di caricare documenti reali provenienti da precedenti lavori per addestrare i modelli. La pratica solleva interrogativi su privacy, proprietà intellettuale e sicurezza dei dati, nonostante le misure di “scrubbing” promosse dall’azienda.
L’industria dell’intelligenza artificiale sta vivendo una nuova fase di corsa ai dati di alta qualità. Secondo quanto riportato da Wired, OpenAI e la società Handshake AI starebbero chiedendo a contraenti di caricare materiali autentici prodotti in precedenti occupazioni: documenti Word, PDF, PowerPoint, fogli Excel, immagini e persino repository di codice. L’obiettivo dichiarato è migliorare l’addestramento dei modelli per automatizzare attività impiegatizie sempre più complesse.
La richiesta non si limiterebbe a semplici descrizioni: ai collaboratori verrebbe chiesto di fornire “output concreti” realmente utilizzati sul posto di lavoro. Prima del caricamento, dovrebbero rimuovere dati sensibili o proprietari, utilizzando uno strumento di ChatGPT chiamato “Superstar Scrubbing”. Tuttavia, il sistema si basa in larga parte sulla valutazione soggettiva dei singoli appaltatori.
Secondo Evan Brown, avvocato statunitense specializzato in proprietà intellettuale, questo approccio espone i laboratori di IA a “grandi rischi legali”, perché richiede “molta fiducia nei collaboratori nel decidere cosa sia riservato e cosa no”. In molti settori, infatti, i diritti sui materiali prodotti appartengono ai datori di lavoro, non ai singoli dipendenti.
Il caso si inserisce in un contesto già teso, segnato da cause legali contro aziende di IA per l’uso non autorizzato di testi, immagini e codice. L’Unione europea, con l’AI Act, e gli Stati Uniti, attraverso diverse azioni giudiziarie, stanno cercando di definire confini chiari su trasparenza, responsabilità e tutela dei diritti.
Se confermata, la strategia potrebbe accelerare lo sviluppo di modelli più “competenti”, ma rischia di erodere la fiducia di lavoratori e aziende, alimentando nuove controversie legali e richieste di regolamentazione più stringente.
Cronologia e contesto (fonti)
- 2023–2024 – Prime cause contro OpenAI e altri laboratori per uso di dati protetti:
https://www.nytimes.com/2023/12/27/technology/openai-copyright-lawsuit.html - 2024 – Adozione dell’AI Act UE:
https://eur-lex.europa.eu - 2026 – Inchiesta Wired su OpenAI e Handshake AI:
https://www.wired.com
Consigli di approfondimento
- Copyright e AI (U.S. Copyright Office): https://www.copyright.gov
- Linee guida etiche OCSE sull’AI: https://oecd.ai
Abstract – Pro e rischi
Pro: dati più realistici, modelli più accurati, maggiore automazione.
Rischi: violazioni di copyright, fuga di segreti industriali, perdita di fiducia, contenziosi globali.
Conseguenze future: maggiore pressione normativa e richiesta di audit indipendenti sui dataset.







