Un nuovo studio accademico di Stanford e Yale mette in discussione una delle difese centrali dell’industria dell’intelligenza artificiale: i grandi modelli linguistici non si limiterebbero a “imparare” dai dati, ma replicherebbero testi protetti da copyright con elevata fedeltà. Le implicazioni legali ed etiche potrebbero essere profonde.
Negli ultimi anni, aziende come OpenAI, Google, Meta e Anthropic hanno sostenuto nei tribunali che i loro modelli di intelligenza artificiale non memorizzano opere protette, ma apprendono schemi linguistici in modo analogo agli esseri umani. Questa distinzione è stata centrale per invocare il fair use nelle numerose cause per violazione del copyright negli Stati Uniti.
Uno studio pubblicato a gennaio 2026 da ricercatori delle università di Stanford e Yale, citato da The Atlantic e Futurism, sembra però incrinare questa tesi. Analizzando quattro LLM di punta — GPT-4.1 (OpenAI), Gemini 2.5 Pro (Google), Grok 3 (xAI) e Claude 3.7 Sonnet (Anthropic) — i ricercatori hanno dimostrato che i modelli possono riprodurre lunghi estratti di opere ancora protette da copyright con tassi di accuratezza molto elevati.
Secondo i risultati, Claude sarebbe stato in grado di ricostruire interi libri quasi alla lettera con un’accuratezza del 95,8%. Gemini avrebbe riprodotto Harry Potter e la pietra filosofale con un’accuratezza del 76,8%, mentre 1984 di George Orwell sarebbe stato ricostruito da Claude con oltre il 94% di corrispondenza rispetto al testo originale.
Le riproduzioni sono state ottenute anche tramite tecniche di jailbreak come il metodo Best-of-N, che forza il modello a generare molteplici risposte allo stesso prompt. Una pratica che, come ricordano gli avvocati di OpenAI nel caso intentato dal New York Times, non rappresenterebbe un uso “normale” dei sistemi.
Per diversi esperti legali, tuttavia, questi risultati indeboliscono l’argomentazione secondo cui i modelli non “contengano” copie delle opere. Secondo Alex Reisner (The Atlantic), le evidenze potrebbero tradursi in una responsabilità legale miliardaria per l’industria dell’IA. Resta ora ai tribunali stabilire se questa capacità di riproduzione costituisca o meno violazione del diritto d’autore.
Approfondimento – Cronologia essenziale e fonti
- 1976 – Entrata in vigore del Copyright Act USA
https://www.copyright.gov/title17/ - 2023 – Dichiarazioni di Google e OpenAI all’U.S. Copyright Office
https://www.copyright.gov/ai/ - 2024–2026 – Cause legali di editori e autori contro aziende AI (New York Times vs OpenAI)
https://www.nytimes.com/2023/12/27/business/media/new-york-times-openai-lawsuit.html - Gennaio 2026 – Studio Stanford–Yale sulla memorizzazione nei LLM
https://www.theatlantic.com/technology/
Consigli di approfondimento
- The Atlantic, analisi di Alex Reisner sull’IA e copyright
https://www.theatlantic.com/technology/ - U.S. Copyright Office – AI Initiative
https://www.copyright.gov/ai/ - Stanford HAI – Research on Foundation Models
https://hai.stanford.edu/
Abstract – Pro, rischi e implicazioni future
Lo studio rafforza le richieste di maggiore trasparenza e di modelli di compensazione per i creatori. Se confermate in sede giudiziaria, queste evidenze potrebbero ridefinire il fair use applicato all’IA, rallentare l’innovazione o aumentarne i costi. Sul piano etico e sociale, il rischio è accentuare la precarizzazione di autori e giornalisti; al tempo stesso, potrebbe emergere un ecosistema più equo basato su licenze, tracciabilità dei dati e governance responsabile dei modelli.







