L’IA n’a pas encore le bon sens mais elle apprend

Le prix Turing (le « prix Nobel de l’informatique ») vient d’être remis aux chercheurs en intelligence artificielle Yoshua Bengio, Geoffrey Hinton, et Yann LeCun pour leurs avancées majeures en matière de réseaux de neurones profonds. Les résultats de leurs recherches ont permis de créer la méthode de l’apprentissage profond (ou deep learning), qui est aujourd’hui la composante essentielle de l’intelligence artificielle.

L’intelligence s’apprend

Pour Yann Le Cun¹, chercheur en intelligence et vision artificielle à l’Université de New York, et directeur de FAIR (Facebook Artificial Intelligence Research), les trois principaux sujets de recherche de la science fondamentale concernent le fonctionnement de l’univers, de la vie, et du cerveau. En s’intéressant aux secrets du fonctionnement de l’intelligence, c’est dans cette dernière catégorie qu’il s’inscrit. Inspiré par les travaux du psychologue Jean Piaget sur le constructivisme en sciences cognitives (Le Langage et la pensée chez l’enfant, Paris, Delachaux et Niestlé, 1923) – selon lesquels l’intelligence n’est pas innée mais se construit- il est convaincu, dès les années 80, que l’apprentissage est un composant essentiel de l’intelligence. Et pour la comprendre, il s’agit d’essayer de la reproduire.

L’ambition d’anthropomorphisme

Depuis les premières recherches en intelligence artificielle – dans les années 1950 avec la discipline de la cybernétique qui aspirait à parvenir à modéliser et simuler les facultés du cerveau – le but ultime des chercheurs en intelligence artificielle est de rendre les machines capables de comprendre comment le monde fonctionne pour pouvoir interagir avec lui. Comme pour les humains, on veut leur donner une capacité de compréhension intuitive du modèle du monde dans lequel elles évoluent afin qu’elles puissent développer les moyens d’y survivre. C’est-à-dire les doter du sens commun.

Pour y parvenir, dans les années 1980, les chercheurs en intelligence artificielle et en neurosciences computationnelles ont concentré leurs recherches sur le bio mimétisme. Ils se sont attachés à reproduire le fonctionnement biologique du cerveau, pour en dégager un principe général d’organisation. Mais le cerveau étant extrêmement complexe, la poursuite de cet objectif a fini par atteindre une limite. Or, si on est toujours loin de savoir créer ce type d’intelligence aujourd’hui, on peut néanmoins déjà l’entrainer, comme on entraine les enfants à reconnaitre des objets dans un livre d’images.

Le virage vers l’apprentissage

C’est le postulat de Yann Le Cun qui, dans les années 1990, a poursuivi ses recherches pour trouver une manière d’entrainer l’intelligence sans avoir à reproduire totalement le fonctionnement du cerveau. Il s’est notamment inspiré des travaux des neurobiologistes David Hunter Hubel et Torsten Wiesel sur l’architecture du cortex visuel pour créer une forme particulière d’apprentissage machine, appelée le réseau neuronal convolutionnel. Mais les puissances de calculs des ordinateurs n’étant pas assez puissantes à l’époque, et les bases de données n’ayant pas assez de mémoire, il a dû attendre jusqu’à ces dernières années pour pouvoir mettre en pratique cette méthode.

En effet, remis au gout du jour dans les années 2000 par les chercheurs en intelligence artificielle Yann Le Cun, Yoshua Bengio et Geoffrey Hinton, le réseau neuronal artificiel permet aujourd’hui aux machines de réaliser deux types d’apprentissage : par renforcement et supervisé. Et les chercheurs espèrent qu’il en permettra un troisième dans le futur : l’apprentissage non supervisé ou prédictif. Si cette approche a longtemps été critiquée, elle est aujourd’hui reconnue comme un réel succès en matière de reconnaissance visuelle et de langage. Au point que toute la communauté scientifique est désormais convaincue de son efficacité, et que les industriels (GAFA et BAIDU en tête) se ruent sur toutes les opportunités d’innovation que cela représente.

L’apprentissage supervisé

L’apprentissage supervisé est celui qui est utilisé par 99% des applications de l’intelligence artificielle aujourd’hui. Il permet la reconnaissance d’images et de mots, très utile notamment pour faire de la traduction, des diagnostics médicaux, et des voitures autonomes. Il s’agit de réunir, à la main, des centaines de millions d’images, de les étiqueter par millions de catégories (chat, chien, maison, etc.), et parfois d’en dessiner les contours. Puis de les télécharger dans le réseau convolutif d’un ordinateur, qui, pour chaque image, fournira ou non une reconnaissance correcte de l’image. Chaque réponse fausse est corrigée, ce qui permet d’ajuster les paramètres du réseau en améliorant l’efficacité de la connexion entre ses neurones.

La reconnaissance visuelle est souvent plus complexe que la reconnaissance du langage. Car chaque langue possède un vocabulaire (sujet, nom, verbe), qui interagit selon des règles de grammaire et de conjugaison prédéfinis. Les objets du langage sont donc facilement identifiables. Tandis que pour l’image, il existe toujours une grande subjectivité d’interprétation, de multiples points de vue, et de nombreux niveaux de granularités. Il faut donc, à défaut de pouvoir les programmer, entrainer les réseaux convolutifs jusqu’à obtenir un taux d’erreur de réponse minime.

L’apprentissage par renforcement

L’apprentissage par renforcement consiste à entrainer la machine à prendre des décisions sur la base de millions d’exemples de scénarios. Au lieu de corriger les réponses au fur et à mesure comme dans l’apprentissage supervisé, il s’agit de laisser la machine tester les multiples scénarios, et de récompenser ses bonnes réponses (les bonnes décisions). C’est le cas d’AlphaGo, le programme informatique capable de jouer au jeu de Go développé par Google DeepMind, qui, après s’être entrainé en effectuant des millions de parties contre lui-même, a battu en 2016 Lee Sedol, l’un des meilleurs joueurs du monde. Cette approche fonctionne très bien pour les jeux mais pas pour d’autres applications, comme celles d’apprendre à un robot à marcher ou à faire du vélo par exemple, car elle requiert trop de scenarios à tester avant de parvenir à une bonne décision.

L’apprentissage non supervisé ou prédictif

Le graal de l’apprentissage est celui qui est non supervisé. La machine apprend sans l’intervention des humains, à partir d’informations non labellisées. Elle observe le monde et en déduit que c’est un environnement tridimensionnel, dans lequel les objets peuvent bouger indépendamment les uns des autres, qu’un objet caché est néanmoins présent, qu’il existe des objets animés (vivants) et fixes, et qu’ils peuvent interagir. L’apprentissage ici est alors prédictif. Les technologies qui permettent ce type d’apprentissage n’existent pas encore, et il y aura certainement de nombreux défis, que l’on ne connait pas encore, à relever avant de parvenir à les développer.

Le cerveau est plus performant que la machine

Aujourd’hui, l’apprentissage profond est encore largement insuffisant pour créer de l’intelligence artificielle autonome, celle qui est dotée de bon sens. En effet, contrairement à ce que l’on peut penser, le cerveau humain est encore bien plus performant que la machine pour réaliser de nombreuses taches. Par exemple, il est capable de réaliser jusqu’à 10 puissance 18 opérations par seconde en consommant 25 watts, alors qu’aujourd’hui, une carte graphique ne peut en faire que 100 000 fois moins et avec 200 watts. En termes de reconnaissance d’images, il faut à un ordinateur 100 000 exemples de photos de chats pour être capable d’en reconnaitre un dans une image avec un taux de réussite de 98%, alors qu’un enfant a besoin de deux photos pour reconnaitre un chat dans n’importe quelle image avec un taux de succès de 100%².

Néanmoins, l’apprentissage profond constitue un élément essentiel de l’intelligence artificielle, incontournable. Pour poursuivre sur sa lancée, il ne faudrait pas que le succès de cette approche fasse concurrence à d’autres recherches, et Yann Le Cun encourage à développer des mécanismes de publication et d’évaluation qui permettront à de nouvelles idées de voir le jour.

1-     France Culture, La Méthode scientifique par Nicolas Martin, Y a-t-il un cerveau dans la machine ? , 30/08/2017

2-     Luc Julia, Vice-président mondial de l’innovation de Samsung, « L’intelligence artificielle n’existe pas » éditions First, 24/01/2019.