OpenAI lance un programme pédagogique pour se préparer à l’AGI

Jaesa 10/11/2018

OpenAI a annoncé le lancement de Spinning Up, un programme conçu pour enseigner à quiconque l’apprentissage par renforcement en profondeur (deep reinforcement learning (deep RL)).

L’apprentissage par renforcement implique de fournir des signaux de récompense à un agent (robot etc…) dans un environnement incitant à maximiser sa récompense pour atteindre un objectif.

L’apprentissage par renforcement a joué un rôle dans les avancées majeures en matière d’intelligence artificielle telles que AlphaGo de Google DeepMind et les agents formés dans des environnements tels que Dota 2.

Spinning Up comprend une collection de documents de recherche importants sur l’apprentissage par renforcement, un glossaire de la terminologie nécessaire à la compréhension de l’apprentissage par renforcement, ainsi qu’une collection d’algorithmes pour la réalisation d’exercices.

Le programme a été lancé non seulement pour aider les gens à comprendre le fonctionnement de l’apprentissage par renforcement, mais aussi pour progresser dans la réalisation de l’objectif général d’OpenAI de créer en toute sécurité une intelligence artificielle générale (AGI) en impliquant davantage de personnes de domaines autres que l’informatique.

Intelligence Artificielle Générale : Les gouvernements doivent investir

«Pour résoudre les problèmes de sécurité liés à l’IA, il faudra faire appel à des personnes ayant un large éventail de compétences et de points de vue, et de nombreuses professions concernées n’ont aucun lien avec l’ingénierie ou l’informatique. Néanmoins, toutes les personnes impliquées devront en savoir suffisamment sur la technologie pour prendre des décisions éclairées et sur plusieurs éléments de Spinning Up qui répondent à ce besoin », selon la documentation Spinning Up.

En plus de progresser dans la réalisation de l’objectif d’une intelligence artificielle générale déployée en toute sécurité, le programme a été créé car il n’existe à ce jour aucun manuel unique capable de fournir les connaissances nécessaires pour mettre en œuvre l’apprentissage par renforcement; la connaissance est actuellement enfermée dans une série de conférences disparates et de documents de recherche influents.

**Pour allez plus loin, un ouvrage disponible en ligne sur l’apprentissage par renforcement : Renforcement Learning: An Introduction, par l’instructeur, Rich Sutton, et Andrew Barto.**

Richard Sutton et Andrew Barto fournissent un compte rendu clair et simple des idées clés et des algorithmes de l’apprentissage par renforcement. Leurs discussions vont de l’historique des fondements intellectuels du domaine aux développements et applications les plus récents. La seule connaissance mathématique nécessaire est la connaissance des concepts élémentaires de probabilité.

L’apprentissage par renforcement, l’un des domaines de recherche les plus actifs en intelligence artificielle, est une approche informatisée de l’apprentissage dans laquelle un agent essaie de maximiser la récompense totale qu’il reçoit lorsqu’il interagit avec un environnement complexe et incertain.

Cette deuxième édition se concentre sur les principaux algorithmes d’apprentissage en ligne, les éléments les plus mathématiques étant présentés dans des zones ombrées.

La partie I couvre autant que possible l’apprentissage par renforcement sans aller au-delà du cas tabulaire pour lequel des solutions exactes peuvent être trouvées. De nombreux algorithmes présentés dans cette partie sont nouveaux pour la deuxième édition, notamment UCB, Expected Sarsa et Double Learning.

La partie II étend ces idées à l’approximation des fonctions, avec de nouvelles sections sur des sujets tels que les réseaux de neurones artificiels et la base de Fourier, et propose un traitement élargi de l’apprentissage off-policy et des méthodes de policy-gradient.

La troisième partie comprend de nouveaux chapitres sur les relations entre l’apprentissage par renforcement, la psychologie et les neurosciences, ainsi qu’un chapitre actualisé sur des études de cas, notamment AlphaGo et AlphaGo Zero, les jeux d’Atari et la stratégie de mise d’IBM Watson.

Le dernier chapitre aborde les impacts sociétaux futurs de l’apprentissage par renforcement.