Un algorithme capable d’apprendre à jouer aux jeux vidéo

Des chercheurs de Google ont créé un programme capable de découvrir par lui-même le fonctionnement de différents classiques du jeu vidéo.

Ajouter à vos sélections
Partager
- Partager sur Facebook
- Envoyer par e-mail
- Partager sur Linkedin

Capture d'écran de "Breakout", sur Atari 2600.

Une équipe de chercheurs du laboratoire Deep Mind de Google, spécialisé dans l’intelligence artificielle, est parvenue à créer un algorithme capable d’apprendre à jouer par lui-même à des jeux vidéo classiques. Baptisé « DQN », ce logiciel est parvenu à atteindre au moins 75 % du score d’un bon joueur humain dans vingt-huit des quarante-neuf jeux testés, selon les résultats de l’étude publiée ce mercredi par Nature.

De très nombreuses intelligences artificielles sachant « jouer », parfois de façon optimale, à un jeu vidéo, existent déjà, mais elles se limitent en général à un seul jeu. Pour les élaborer, les programmeurs intègrent dans leur algorithme les règles du jeu, et parfois des décisions optimales. Les programmes d’échec évolués, par exemple, « connaissent » les règles du jeu, et ont accès à une base de données de parties. Leurs éventuelles capacités d’apprentissage n’entrent en jeu que dans un deuxième temps.

DQN, à l’inverse, ne connaît pas les règles à l’avance. « [Le programme d’échecs] Deep Blue ou [l’intelligence artificielle championne de Jeopardy!] Watson sont des réussites impressionnantes, mais la différence-clé avec DQN, c’est qu’elles étaient en grande partie préprogrammées », expliquait Volodymyr Mnih, chercheur à Deep Mind et coauteur de l’étude, durant une conférence de presse mardi. « Ce que nous avons créé, c’est un algorithme capable d’apprendre directement de ses expériences – et donc plus proche de la manière dont les humains apprennent, et dont nos cerveaux construisent des modèles. »

L’Atari 2600 comme terrain de test

Pour tester les capacités d’apprentissage de DQN, les chercheurs de Deep Mind se sont tournés vers un classique des années 1980 : l’Atari 2600, « la première console de jeux grand public élaborée ». Ces jeux « rétro » fournissent un environnement à la fois simple et complexe pour une intelligence artificielle : la faible résolution de l’écran limite le nombre de pixels à analyser, mais les jeux font appel à différents types de stratégie pour déterminer le meilleur « coup ». Pour déterminer la meilleure action à entreprendre, DQN s’appuie sur le compteur de score, présent dans tous les jeux de l’époque, et calcule quelle action, d’après son expérience, rapportera le maximum de points.

Cette approche relativement basique, qui ne se fonde pas sur une découverte précise mais sur une combinaison innovante de technologies connues, a très bien fonctionné pour certains jeux – en affrontant le casse-brique Breakout, l’algorithme a su déterminer seul quelle est la stratégie optimale, à savoir attaquer d’abord les briques sur le côté de l’écran afin de pouvoir « coincer » la balle dans la zone du haut du jeu et accumuler le maximum de points en un court laps de temps.

« C’est une très grande réussite – je n’aurais pas cru cela possible », estime Martin Butz chercheur en intelligence artificielle à l’université de Tübingen, où il travaille notamment sur le projet « Mario lives », une intelligence artificielle capable de jouer à Super Mario World et de prendre conscience, d’une certaine manière, de son environnement. « Cependant, la manière dont DQN apprend n’est pas tout à fait équivalente à la manière dont procède le cerveau humain. Cet algorithme analyse des séquences de mouvements plus qu’il ne “comprend” le fonctionnement du jeu. »

Pour certains titres, en effet, DQN n’a pas « compris » comment jouer véritablement au jeu. Sur des titres comme Ms Pac-Man – certes difficile y compris pour un bon joueur humain – l’algorithme est très loin d’égaler les scores d’un joueur. Le jeu de puzzle-aventure Montezuma’s Revenge s’est révélé le plus problématique pour DQN, et termine bon dernier du classement.

Les chercheurs de Deep Mind le reconnaissent dans leur article : « Les jeux dans lesquels DQN excelle sont de nature très variée (...), mais les jeux demandant des stratégies de planification à long terme constituent toujours un défi majeur pour [les intelligences artificielles], y compris DQN. » L’algorithme développé par Deep Mind n’est donc pas adapté à des jeux complexes et récents : il n’est pas encore capable d’analyser des environnements 3D riches ni d’établir des séquences de jeu très complexes, comme celles nécessaires pour finir des jeux d’aventure de type Zelda. Mais, avec du temps, l’équipe qui a créé DQN se dit confiante concernant les capacités de l’algorithme à découvrir des chemins plus sophistiqués, ce qui pourrait, à terme, avoir des applications dans l’imagerie médicale ou la conduite automatisée, par exemple.

Damien Leloup

L’espace des contributions est réservé aux abonnés.

Abonnez-vous pour accéder à cet espace d’échange et contribuer à la discussion.

Réutiliser ce contenu

Magnum photos

Vente exceptionnelle de tirages signés jusqu’au dimanche 05 mai

Elliot Erwitt

Yokohama, Japon, 2003.

Cristina de Middel

Mexique, 2018.

Harry Gruyaert

Moscou, Russie, 1989.

Steve McCurry

Académie Shaolin, province du Henan, Chine, 2004.

Herbert List

Torremolinos, Espagne, 1951.

Bruce Gilden

New York City, États-Unis, 1992.

Lecture du Monde en cours sur un autre appareil.

Vous pouvez lire Le Monde sur un seul appareil à la fois

Ce message s’affichera sur l’autre appareil.

Parce qu’une autre personne (ou vous) est en train de lire Le Monde avec ce compte sur un autre appareil.

Vous ne pouvez lire Le Monde que sur un seul appareil à la fois (ordinateur, téléphone ou tablette).
Comment ne plus voir ce message ?

En cliquant sur « » et en vous assurant que vous êtes la seule personne à consulter Le Monde avec ce compte.
Que se passera-t-il si vous continuez à lire ici ?

Ce message s’affichera sur l’autre appareil. Ce dernier restera connecté avec ce compte.
Y a-t-il d’autres limites ?

Non. Vous pouvez vous connecter avec votre compte sur autant d’appareils que vous le souhaitez, mais en les utilisant à des moments différents.
Vous ignorez qui est l’autre personne ?

Nous vous conseillons de modifier votre mot de passe.

Lecture restreinte

Votre abonnement n’autorise pas la lecture de cet article

Pour plus d’informations, merci de contacter notre service commercial.

Un algorithme capable d’apprendre à jouer aux jeux vidéo

L’Atari 2600 comme terrain de test

Le Monde en partenariat avec Magnum Photos

Services Le Monde

Guides d'achat Le Monde

Codes promo

Le Monde à l'international

Services Partenaires

Sites du groupe