Skip to content

WebFace260M : la reconnaissance faciale à l’échelle du million

La Chine crée le plus grand ensemble de données (publiques) de reconnaissance faciale à ce jour

WebFace260M vous permet de former des systèmes d’IA pour identifier des millions de personnes

Une grande équipe de chercheurs, majoritairement chinoise, affirme avoir créé un nouveau référentiel de reconnaissance faciale à l’échelle du million. Dans un article, ils affirment avoir construit un ensemble de données biométriques nettoyées de manière autonome, comprenant 2 millions d’identités parmi 42 millions d’images faciales.

L’ensemble de données non traitées contient 4 millions d’identités de célébrités parmi 260 millions d’images. La nouvelle référence proposée s’appelle WebFace260M et est décrite comme le plus grand ensemble de données biométriques publiques de visages.

WebFace260M

Visualization of the WebFace data. For each sub-figure, the top part is the randomly selected faces from WebFace260M, while the bottom part shows cleaned faces (also randomly selected) from WebFace42M. Loose cropped faces are shown.

C’est un facteur de différenciation important. Les scientifiques du secteur public ont dénoncé le désavantage qu’ils subissent en matière de ressources de données par rapport aux entreprises privées, en particulier Facebook et Google. À toutes fins utiles, ces deux entreprises disposent d’ensembles de données d’images illimités.

LIRE AUSSI 🔖  L'authentification numérique française arrive sur les smartphones

Le document de recherche indique que Google utilise 200 millions d’images de 8 millions d’identités pour le développement de FaceNet. Facebook dispose de 500 millions de visages parmi 10 millions d’identités.

La taille de l’ensemble de données est un puissant accélérateur de l’innovation biométrique, et les scientifiques du secteur public craignent d’être exclus de la course.

WebFace260M

WebFace260M

Les chercheurs de WebFace260M, de l’université de Tsinghua, de l’Imperial College de Londres et d’une startup chinoise, XForwardAI, affirment que leur jeu de données « présente un énorme potentiel pour les scénarios de reconnaissance des visages standard, masqués et non biaisés ». Il a été nettoyé avec un outil d’IA qu’ils ont développé, Cleaning Automatically by Self-Training.

Jack Clark, cofondateur de la société Anthropic, spécialisée dans la sécurité et la recherche en matière d’IA, écrit dans son blog Import AI : « Les modèles formés sur l’ensemble de données résultant sont plutôt bons. »

Clark souligne également que la reconnaissance faciale – en particulier la reconnaissance faciale masquée – est importante pour les agences de surveillance gouvernementales. Des résultats comme ceux de WebFace260M influencent les décisions sur « la manière de surveiller une population et le budget à prévoir pour cette surveillance. »

LIRE AUSSI 🔖  Le ministère russe teste la reconnaissance de la démarche

Un ensemble de données de cette taille présente des dangers plus immédiats, bien sûr. De grands volumes peuvent s’accompagner d’images dont la confidentialité est restreinte, ce qui est depuis longtemps un problème pour les ensembles de données créés par les universitaires et les entreprises.

Un site a été mis en ligne avec l’historique du projet et des détails actualisés.

WebFace260M

WebFace260M