Skip to content

Les Machines pour le Big Data : Vers une Informatique Quantique et Cognitive (PDF)

21 Dec 2014

Bruno TEBOUL
Directeur Scientifique, R&D et Innovation du Groupe Keyrus.
Membre de la Gouvernance de la Chaire « Data Scientist » de l’Ecole Polytechnique, France.
Doctorant et Enseignant à l’Université Paris-Dauphine.
DEA de Sciences Cognitives de l’Ecole Polytechnique.

Taoufik AMRI, PhD
Research Quant et Lead Data Scientist,
Consultant et Conférencier,
Docteur en Physique Quantique, effectué au Laboratoire Kastler Brossel (ENS/UPMC/CNRS).

Introduction

Avec la digitalisation grandissante et le déluge informationnel qui en résulte, des pans entiers de l’économie sont bouleversés par des innovations – disruptives – rendues possibles par un internet prolifique et le traitement des Big Data. Les Big Data désignent en effet des ensembles massifs de données multi-variées et accumulées à des vitesses sans précédent sur les individus, et même sur les organisations, via le web, les réseaux sociaux, et maintenant avec de plus en plus de capteurs contribuant à l’avènement prochain de ce que l’on appelle déjà l’internet des objets (IdO). Ces Big Data sont en quelque sorte « le pétrole de notre ère digitale », et elles nourrissent les espoirs d’un eldorado pour des économies en quête désespérée de croissance.

Une nouvelle science pluridisciplinaire – la Data Science – est en train de naître pour traiter et valoriser ces Big Data, depuis leur collecte, en passant par leur traitement jusqu’à leur structuration en bases de données de formes totalement nouvelles, qui sont bien loin des tables habituelles, dans lesquelles les lignes et les colonnes représentaient respectivement les clients et leurs données. Cette Data Science est en quelque sorte la pétrochimie du digital, dont le but est de raffiner les Big Data « brutes » en Smart Data, c’est-à-dire en données pertinentes pour la problématique « business » dont on cherche à prédire les événements clés, comme l’achat d’un produit par un prospect ou son appétence à choisir un produit plutôt qu’un autre. Cette Data Science ne confond plus corrélations et causalité, car les événements qu’elle cherche à prédire sont souvent des événements très rares. Tellement rare que cela s’apparente à rechercher une aiguille dans des bottes de foin ! Pour rendre ces prédictions possibles, la Data Science a maintenant recours à des algorithmes d’apprentissage automatique, également appelé Machine Learning, qui ont la faculté de s’auto-organiser pour améliorer par eux-mêmes leur pouvoir prédictif et discriminant, ce qui est souvent supervisé par une fonction globale dite de coût ou d’utilité (cf. Infra).

Mais ces algorithmes sont aussi gourmands en puissance de calcul, si bien que des géants comme Google ont mis au point – il y a quelques années déjà – des architectures de calculs parallèles et distribués. Si l’on revient à notre analogie de « l’aiguille dans des bottes de foin », ces protocoles permettent de rechercher l’aiguille simultanément sur les différentes bottes de foin, éventuellement en les divisant encore en bottes plus petites, au lieu de toutes les agréger et de rechercher ensuite l’aiguille dans le gros amas de foin résultant de cette agrégation. Ces protocoles, au nom de MapReduce, Hadoop, Spark… constituent de véritables sésames à l’emploi pour le Data Scientist que l’on considère d’ores et déjà comme « le job le plus sexy du 21ème siècle ». En effet, les formations en Data Science se développent de plus en plus en France, au sein des institutions scientifiques les plus prestigieuses, telle que l’Ecole Polytechnique. Elles ont pour ambition de former une nouvelle génération d’ingénieurs qui seront de plus en plus recherchés avec la prolifération des start-ups, elles-mêmes de plus en plus incubées au sein de pépinières appartenant à de grands groupes, qui sont en quête d’innovations disruptives. Cependant, cet engouement et cet enthousiasme – frôlant parfois même l’euphorie – occultent de manière assez surprenante un aspect bassement matériel, celui du Hardware, des machines qui auront à traiter et raffiner ces Big Data, afin d’en extraire de la valeur et en faire des modèles prédictifs. Une question émerge naturellement : Les machines actuelles seront- elles assez puissantes pour relever ces défis de plus en plus ambitieux de la Data Science?

Cet article est une analyse prospective sur les mutations technologiques qui affecteront l’informatique et ses machines, dans un avenir proche, afin de répondre aux grands défis soulevés par notre société du tout digital. Nous pensons que ces mutations seront à la fois « quantique » et « cognitive ». Nous étayerons notre analyse en revenant sur ce qui fonde encore aujourd’hui nos ordinateurs, à savoir une architecture vieille de plus d’un demi-siècle, qui est entre autres responsable des espoirs déchus de l’intelligence artificielle. Nous décrirons deux solutions prometteuses et complémentaires que l’on appelle aujourd’hui le Calcul Quantique Adiabatique et l’Informatique Cognitive, qui vont bouleverser les capacités de traitement des Big Data.

téléchargez le pdf

5 Comments »

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :