Skip to content

Science des données, Machine Learning et Deep Learning

Au cours des dernières années, Internet a été inondé de milliers d’articles proclamant le nouvel âge des données et la façon dont il interagit avec l’intelligence artificielle. En conséquence, les trois termes science des données (data science), apprentissage automatique (machine learning) et apprentissage en profondeur (deep learning) sont passés pratiquement du jour au lendemain de mots à la mode au vocabulaire standard, et sont devenus synonymes de la direction dans laquelle évolue la société. Mais combien peuvent vraiment expliquer les différences entre ces termes sacrés ?

Data Science

Dans les temps anciens, cela s’appelait statistiques. Mais maintenant, il s’est métamorphosé et a grandi, jusqu’à devenir une science des données. Aujourd’hui, les universités de haut niveau offrent des diplômes et tout le monde l’appelle un cheminement de carrière qui n’échouera jamais.

Peter Nauer, un pionnier de l’informatique danois, a fait mention de la « science des données » pour la première fois à la White Hart Tavern en 1960, lorsqu’il l’a utilisé pour remplacer le terme « science informatique » (computer science). En fait, la partie de la White Hart Tavern n’est pas vraie, il était probablement dans son bureau en train de parler à un étudiant diplômé, mais cela fait quand même une belle histoire.

L’une des références les plus modernes à ce sujet a été faite par C. F. Jeff Wu lors de sa conférence de 1997 à l’Université du Michigan « Statistiques – Data Science ? ». Dans l’univers du Dr Wu, la science des données est passée un peu au-delà des statistiques traditionnelles, en utilisant le trio de collecte de données, la modélisation et l’analyse, et de manière significative, la prise de décision.

La même année, le journal Data Mining et Knowledge Discovery est lancé; le renversement de l’ordre des deux termes dans son titre reflétant l’ascendance du « data mining » (exploration de données) comme le moyen le plus populaire de désigner « l’extraction d’informations à partir de grandes bases de données ».

Le lauréat du prix Turing, Jim Gray, l’a considéré en 2007 comme un «quatrième paradigme de la science», en augmentant les méthodes scientifiques normales en incluant la dimension de « l’analyse axée sur les données ». Mais ce n’est qu’en 2012, lorsque Harvard Business Review a publié son article « Data Scientist : le travail le plus sexy du 21ème siècle » que les choses ont vraiment commencé à prendre leur essor.

En fin de compte, il est difficile de décrire de façon succincte et complète ce que fait un data scientist car il passe dans le domaine de l’intelligence artificielle, mais il commence certainement avec des concepts statistiques ardus et une connaissance très solide du langage de programmation Python qui possède de nombreuses fonctions facilitant l’analyse statistique.

En même temps, cela va au-delà des statistiques. Au lieu de simplement collecter et analyser des données à l’aide de méthodes statistiques éprouvées, les spécialistes des données posent la question primordiale : Et si ? – Et qu’est-ce qui se passerait si ?

Et si nous regardions les données sous un angle différent ? Et si nous étendions la modélisation que nos données de test nous ont donnée de plusieurs façons indépendantes ? Et si nous laissons une machine analyser les données sans règles pour la guider ? Qu’est-ce que cela va montrer en termes de relations ?

En fin de compte, c’est l’input généré par les data scientists qui alimentera les deux outils qu’ils utiliseront pour utiliser les données pour prendre des décisions; machine learning (apprentissage automatique) et deep learning (apprentissage profond).

Machine Learning

Wikipédia l’explique le mieux : «L’apprentissage automatique est un domaine de l’informatique qui utilise des techniques statistiques pour donner aux systèmes informatiques la capacité d’apprendre… sans être explicitement programmé.» C’est cette dernière clause qui est la clé; sans être explicitement programmé.

Une grande partie de l’intelligence de données fonctionne avant cette programmation étendue pour aider l’ordinateur à tenir compte de toutes les éventualités. Et, bien sûr, ces efforts ont été voués à l’échec dès le début car toutes les éventualités ne peuvent jamais être envisagées.

Le machine learning est différent. Dans ce cas, un cadre est mis en place qui alimente les informations statistiquement pertinentes dans l’ordinateur et lui permet de prendre des décisions, permet d’apprendre, à partir de ces données, plutôt que des instructions du programmeur. En d’autres termes, le machine learning permet à l’ordinateur de découvrir ce qui est probablement vrai et ce qui est probablement faux sur la base des données fournies.

Plus les données sont alimentées et plus la qualité de ces données est élevée, plus la machine apprendra. Et lorsque l’apprentissage est terminé, les données peuvent être introduites et les décisions prises par la machine.

Un exemple relativement simple d’un système d’apprentissage automatique est le filtre anti-spam attaché aux boîtes aux lettres électroniques. En regardant les différents mots qui composent le courriel, et en évaluant la probabilité d’un mot ou d’un groupe de mots donné d’être un danger, il est capable de prendre une décision quant à ce qui devrait être filtré et ce qui devrait être laissé.

Le machine learning est encore au stade primaire. C’est-à-dire, comme avec le filtre anti-spam, nous avons tous vu des cas où des emails légitimes sont marqués comme spam et les choses qui devraient l’être ne le sont pas. Mais la plupart du temps, il est assez proche de la cible. Et comme de plus en plus de filtres anti-spam commencent à utiliser le machine learning, cela devrait s’améliorer.

Deep Learning

De tous les mots rencontrés dans cet article, aucun n’est plus rébarbatif, plus chargé d’inconnu, que le deep learning. Est-ce bien ce qui va libérer SkyNet dans ce monde sans méfiance ? Il y a des gens qui affirmeraient que ça sera le cas. Mais ce ne sera pas le cas. Ou du moins pas avant quelques années.

Wikipedia l’explique encore une fois très bien : « fait partie d’une famille plus large de méthodes du machine learning basées sur l’apprentissage de représentations de données, par opposition à des algorithmes spécifiques à une tâche. »

Le deep learning fait partie du machine learning, mais il ignore tout ce qui est spécifique, c’est-à-dire axé sur la tâche. Il n’est pas utilisé pour définir un système qui dira quelle ville dans chaque état est la capitale. Ou la plus grande. Ou la plus amusante.

D’autres noms pour le deep learning sont les réseaux neuronaux profonds (deep neural networks), les réseaux de croyances profondes (deep belief networks) et les réseaux neuronaux récurrents (recurrent neural networks). Et il a été appliqué à des choses aussi bizarres que la vision par ordinateur, la reconnaissance vocale, le traitement du langage naturel, la reconnaissance audio, le filtrage des réseaux sociaux etc. De vastes choses pour une approche large.

Comme indiqué ci-dessus, le deep learning (apprentissage en profondeur) est un sous-ensemble du machine learning (apprentissage automatique), un sous-ensemble axé sur deux choses. La première est des modèles plutôt que des règles ou des faits. Les machines apprennent à rechercher des motifs ou même seulement des portions d’un motif. La seconde imite le comportement des neurones, en particulier ceux du néocortex du cerveau.

Quelle différence cela fait-il ? L’une des caractéristiques des neurones dans le cerveau humain est qu’aucun d’entre eux ne travaille seul. Il n’y a pas, par exemple, un neurone qui est responsable de la reconnaissance d’un chien par rapport à un chat. Au lieu de cela, de nombreux neurones vont travailler ensemble, chacun d’entre eux ne répondant peut-être qu’à une très petite partie des schémas que le cerveau a pour le «chien» et le «chat». Mais en travaillant ensemble, ils parviennent à un consensus sur la question de savoir si c’est un chien ou un chat.

C’est ce sur quoi travaille le deep learning. Il nécessite une puissance de calcul énorme, en plus d’une compréhension approfondie de la façon dont le cerveau fonctionne, de ce qui est encore à l’étude et d’une arène où la connaissance ne cesse de croître et de changer.

Conclusion

La science des données (data science) est basée sur les statistiques, mais les data scientists (spécialistes des données) vont au-delà des régressions linéaires. La nouvelle science des données va au-delà de l’analyse pour la prédiction, et pour regarder les données d’une manière que les techniques traditionnelles ne font pas. Et la raison principale de ceci n’est pas une percée dans les mathématiques mais l’adoption d’ordinateurs puissants pour exécuter rapidement une analyse qui aurait été peu pratique dans le passé.

Le machine learning consiste à utiliser des données pour permettre à l’ordinateur d’apprendre par lui-même. Parfois, cet apprentissage est dirigé, comme lorsque des règles sont incluses ou que d’autres paramètres sont définis qui guident la façon dont la machine prend ses décisions, ou non dirigé lorsque la machine creuse dans les données et voit ce qu’elle peut trouver. Il s’agit de séparer l’intelligence de la programmation. Dans le monde du machine learning, les données sont l’enseignant et non le codeur.

Le deep learning est un sous-ensemble du machine learning. Il est basé sur des données, mais il utilise un type d’algorithme particulier, qui agit de manière similaire aux neurones dans un cerveau humain. Cela va-t-il aboutir à un cerveau positronique et aux trois lois de la robotique ? Difficile à dire. Mais c’est l’avenir.

Forbes, Market Mogul

3 Comments »

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Shares