Una startup cinese dichiara guerra alla censura negli LLM. Con un nuovo approccio, DeepSeek potrebbe rispondere senza filtri.
La startup CTGT ha annunciato di aver sviluppato una tecnica in grado di aggirare i filtri di censura incorporati nei modelli linguistici di intelligenza artificiale, incluso DeepSeek, il potente LLM cinese che aveva già sollevato preoccupazioni tra i policymaker americani. Il metodo, ancora sperimentale, si propone di neutralizzare i meccanismi di moderazione e bias inseriti nei modelli durante l’addestramento, rendendoli teoricamente in grado di rispondere a domande sensibili senza restrizioni.
Secondo quanto riportato, la tecnica CTGT agisce a livello di prompt engineering e manipolazione dei pesi attraverso “gradienti trasversali controllati”, consentendo al modello di bypassare i layer di filtro senza modificarne l’architettura di base. Sebbene CTGT non abbia reso pubblico il codice sorgente, esperti di sicurezza avvertono che l’uso improprio di simili strumenti potrebbe alimentare la diffusione di contenuti pericolosi, disinformazione o materiale eticamente controverso.
Il dibattito è acceso anche in Cina, dove le normative stringenti sull’intelligenza artificiale proibiscono la diffusione di risposte che possano destabilizzare l’ordine pubblico o sfidare le narrative ufficiali. Tuttavia, l’interesse crescente per modelli meno vincolati suggerisce una possibile corsa alla “decensurizzazione” dell’AI da parte di startup indipendenti, in contrapposizione agli attori istituzionali.
🧭 Cronologia correlata
- 2023 – Lancio del modello DeepSeek in Cina.
- 2024 – DeepSeek finisce sotto esame da parte del Congresso USA.
- Aprile 2025 – CTGT annuncia il metodo per rimuovere la censura dagli LLM.
Fonti affidabili:
🔎 Consigli di approfondimento
- Censura e IA in Cina: lo stato dell’arte – Brookings
- AI senza filtri: opportunità o rischio? – OpenAI Blog
🧠 Abstract etico-sociale
Pro: favorisce la libertà di espressione e la ricerca scientifica.
Rischi: potenziale uso per propaganda, disinformazione, violazione delle norme locali.
Futuro: potrebbe accelerare la diffusione di modelli open-source senza censura, ma solleva interrogativi cruciali sulla governance globale dell’AI.
