Ego4D : Apprendre à une IA à percevoir le monde à travers vos yeux
Ego4D : Perception égocentrique 4D
Une IA qui comprend le monde du point de vue de la première personne pourrait ouvrir une nouvelle ère d’expériences immersives, à mesure que des dispositifs tels que les lunettes de réalité augmentée et les casques de réalité virtuelle deviennent aussi utiles dans la vie quotidienne que les smartphones. Imaginez que votre dispositif de réalité augmentée vous montre exactement comment tenir les baguettes pendant une leçon de batterie, vous guide dans la réalisation d’une recette, vous aide à retrouver vos clés perdues ou vous rappelle des souvenirs sous forme d’hologrammes qui prennent vie devant vous.
Pour mettre au point ces nouvelles technologies, il faut apprendre à l’IA à comprendre et à interagir avec le monde comme nous le faisons, à partir d’une perspective à la première personne – ce que la communauté des chercheurs appelle communément la perception égocentrique. Cependant, les systèmes actuels de vision par ordinateur apprennent généralement à partir de millions de photos et de vidéos capturées dans une perspective à la troisième personne, où la caméra n’est qu’un spectateur de l’action. « Les systèmes d’IA de la prochaine génération devront apprendre à partir d’un tout autre type de données – des vidéos qui montrent le monde depuis le centre de l’action, plutôt que depuis les coulisses », explique Kristen Grauman, chercheuse scientifique principale chez Facebook.
L’IA de Facebook annonce Ego4D un ambitieux projet à long terme visant à relever les défis de la recherche en matière de perception égocentrique. Ils ont réuni un consortium de 13 universités et laboratoires répartis dans neuf pays, qui ont recueilli plus de 2 200 heures de vidéos à la première personne dans la nature, mettant en scène plus de 700 participants dans leur vie quotidienne. Cela augmente considérablement l’échelle des données égocentriques accessibles au public pour la communauté des chercheurs, d’un ordre de grandeur, plus de 20 fois supérieur à tout autre ensemble de données en termes d’heures de séquences. Facebook a financé le projet par des dons universitaires à chacune des universités participantes.
Ego4D Perception égocentrique Credit: Ego4D facebook
En collaboration avec le consortium et Facebook Reality Labs Research (FRL Research), Facebook AI a également mis au point cinq repères de référence centrés sur l’expérience visuelle à la première personne qui stimuleront les progrès vers des applications réelles pour les futurs assistants IA.
Les cinq repères d’Ego4D sont la mémoire épisodique, la prévision, la manipulation des mains et des objets, la journalisation auditive et visuelle et l’interaction sociale.
« Ces repères catalyseront la recherche sur les éléments de base nécessaires au développement d’assistants IA plus intelligents, capables de comprendre et d’interagir non seulement dans le monde réel, mais aussi dans le métavers, où la réalité physique, la réalité augmentée et la réalité virtuelle se rejoignent dans un même espace », a précisé Facebook.
Les ensembles de données seront rendus publics en novembre de cette année pour les chercheurs qui signent l’accord d’utilisation des données d’Ego4D.