DarkBERT apprend le langage du Dark Web
Faire connaissance avec DarkBERT : un modèle de langage pour le côté obscur de l’internet
Le Dark Web est un centre commercial actif où les criminels proposent une liste de services numériques illicites fournissant des mots de passe pour des comptes bancaires, des numéros de sécurité sociale et d’autres données privées pour le vol d’identité, des logiciels malveillants et des paquets de cyberattaques qui peuvent faire tomber une entreprise, une ville ou un pays.
« Il y a un chaos qui se compose et se défait perpétuellement dans les dessous toxiques du Dark Web », a déclaré James Scott, chercheur principal à l’Institute for Critical Infrastructure Technology.
Des chercheurs d’une université nationale de recherche en Corée du Sud tentent d’éclairer un peu plus ces dessous toxiques. Leur rapport, intitulé « DarkBERT : A Language Model for the Dark Side of the Internet« , a été publié la semaine dernière.
Bien que le Dark Web représente à peine 5 % de l’ensemble de l’internet, il attire environ 3 millions d’utilisateurs par jour. Cybersecurity Ventures prévoit que le montant des recettes de la cybercriminalité mondiale atteindra 10 000 milliards de dollars d’ici à 2025.
Pour aider à combattre cette menace, des chercheurs du Korea Advanced Institute of Science & Technology ont pré-entraîné un grand modèle de langage sur des documents obtenus sur le Dark Web. Ils ont déclaré qu’un tel effort était nécessaire pour rendre plus efficaces les efforts de navigation sur le Dark Web et aider ceux qui cherchent à endiguer l’activité criminelle.
Le chercheur Youngjin Jin a déclaré que le modèle de langage de son équipe, baptisé DarkBERT, permettra de « lutter contre l’extrême diversité lexicale et structurelle du Dark Web, qui peut être préjudiciable à la construction d’une représentation correcte du domaine ».
Jin a déclaré que les modèles de langage préformés, tels que les projets antérieurs BERT et RoBERTa basés sur le contenu du Web de surface (par opposition au contenu du Dark Web), « ne sont pas idéaux pour […] extraire des informations utiles, en raison des différences de langage utilisées dans les deux domaines ».
« Nos résultats d’évaluation montrent que le modèle de classification basé sur DarkBERT est plus performant que les modèles de langage pré-entraînés connus », a déclaré Jin.
Les chercheurs ont relevé trois domaines clés dans lesquels DarkBERT s’est avéré efficace : la détection des fuites de ransomware, la détection des threads remarquables dans lesquels des threads potentiellement malveillants ont été repérés, et l’inférence de mots-clés de menace définie comme « un ensemble de mots-clés qui sont sémantiquement liés aux menaces et aux ventes de drogues sur le Dark Web ».
Jin a fait remarquer que l’examen manuel des quantités volumineuses de messages publiés sur le Dark Web nécessiterait des « ressources humaines considérables ». L’automatisation de cette analyse « réduirait considérablement la charge de travail des experts en sécurité », en particulier avec un modèle de langage formé au vocabulaire unique du Dark Web, a déclaré Jin.
Les services de lutte contre la criminalité ont fait quelques progrès dans la lutte contre les activités illégales sur le « Dark Web ». La première marketplace moderne du Dark Web, Silk Road, qui a réalisé plus d’un milliard de dollars en ventes illégales de drogues, a été fermée par le FBI et son créateur a été condamné à la prison à vie. AlphaBay, qui vendait pour des centaines de millions de dollars de drogues et de données piratées, a été fermé grâce à un effort policier multinational.
Mais ces efforts n’ont été qu’une goutte d’eau dans l’océan. Pour obtenir de meilleurs résultats, les services de lutte contre la criminalité doivent mieux apprendre le langage des cybercriminels.
DarkBERT semble être un bon pas dans cette direction.

DarkBERT