Un gruppo di ricercatori provenienti dal KAIST in Corea del Sud e da S2W Inc. ha sviluppato DarkBERT, un modello linguistico addestrato su dati provenienti dal Dark Web. Questa ricerca è stata motivata dalla constatazione di differenze significative tra il linguaggio utilizzato nel Dark Web e quello del Surface Web. Poiché gli studi sul Dark Web richiedono comunemente l’analisi testuale dei domini, l’utilizzo di modelli linguistici specifici per il Dark Web potrebbe offrire importanti spunti di ricerca.
L’obiettivo principale di DarkBERT è quello di superare la diversità estrema, sia lessicale che strutturale, del Dark Web, che potrebbe essere dannosa per la costruzione di una rappresentazione accurata del dominio. I ricercatori hanno descritto le fasi di filtraggio e compilazione dei dati testuali utilizzati per addestrare DarkBERT, al fine di affrontare questa sfida.
Per valutare l’efficacia di DarkBERT, i ricercatori hanno confrontato le sue prestazioni con quelle di altri modelli linguistici ampiamente utilizzati, nonché con la controparte “vanilla” di DarkBERT. Le valutazioni hanno dimostrato che DarkBERT supera gli attuali modelli linguistici e può essere una risorsa preziosa per la ricerca futura sul Dark Web.
Il Dark Web è una parte dell’Internet non indicizzata dai motori di ricerca come Google e non accessibile tramite un normale browser web. Per accedere al Dark Web, sono necessarie applicazioni specializzate come Tor (The Onion Router). Tor ospita anche servizi nascosti (onion services), in cui gli indirizzi IP del client e del server sono nascosti l’uno dall’altro. Tuttavia, l’anonimato offerto agli utenti del Dark Web ha un lato oscuro, dato che molte delle attività svolte in questo contesto sono immorali o illegali, come la vendita di droga o il hosting di contenuti illegali.
Gli esperti di sicurezza e i ricercatori nel campo della cybersecurity stanno utilizzando sempre di più metodi di elaborazione del linguaggio naturale per affrontare le minacce informatiche moderne. L’utilizzo di strumenti di elaborazione del linguaggio naturale è stato esteso anche al Dark Web, poiché rappresenta un ambito di ricerca essenziale per la cybersecurity.
In uno studio precedente, si è osservato che un modello di classificazione basato su BERT ottiene prestazioni all’avanguardia tra i metodi di elaborazione del linguaggio naturale disponibili per il Dark Web. Tuttavia, BERT è stato addestrato su contenuti del Surface Web, come Wikipedia e BookCorpus, che presentano caratteristiche linguistiche diverse rispetto al Dark Web. Ciò implica che i modelli linguistici preaddestrati popolari come BERT non sono ideali per la ricerca sul Dark Web, in quanto non riescono a estrarre informazioni utili a causa delle differenze linguistiche tra i due domini. Pertanto, un modello di elaborazione del linguaggio naturale adatto al Dark Web potrebbe essere
utile per gli sforzi in corso nella cybersecurity del Dark Web.
Nel presente articolo, viene presentato DarkBERT, un nuovo modello linguistico preaddestrato su un corpus del Dark Web. Per valutare l’utilità di DarkBERT nella gestione delle minacce informatiche presenti nel Dark Web, è stato sottoposto a valutazione in compiti legati alla rilevazione delle attività sotterranee. DarkBERT è stato confrontato con altri modelli e ha dimostrato prestazioni superiori.
I risultati delle valutazioni mostrano che DarkBERT offre vantaggi significativi rispetto ai modelli linguistici attuali e può essere uno strumento prezioso per la ricerca sul Dark Web. Questo modello specifico per il Dark Web potrebbe consentire di estrarre informazioni utili, migliorando le capacità di individuazione delle attività illecite e l’intelligence sulla minaccia cibernetica.
La continua crescita delle attività criminali nel Dark Web rende necessario uno sforzo costante per migliorare la cybersecurity in questo contesto. L’uso di modelli linguistici specifici come DarkBERT potrebbe contribuire in modo significativo a tali sforzi, fornendo agli esperti di sicurezza e ai ricercatori gli strumenti necessari per comprendere meglio e affrontare le minacce presenti nel Dark Web.
DarkBERT si presenta come una soluzione promettente per affrontare le sfide linguistiche e strutturali del Dark Web. La sua efficacia dimostrata e la sua capacità di superare i modelli linguistici esistenti indicano che potrebbe diventare un punto di riferimento per la ricerca futura sulla cybersecurity del Dark Web.