En trois jours d'apprentissage autodidacte, AlphaGo a surpassé 2.500 ans de stratégies humaines

SCIENCES•La nouvelle version du programme de go développé par la filiale de Google, Deepmind, a fait des progrès spectaculaires...

Jeu de go (illustration). - Chad Miller / Creative Commons

P.B. avec AFP

Publié le 19/10/2017 à 03h20 • Mis à jour le 19/10/2017 à 04h40

La machine n’a (presque) plus besoin de l’humain. AlphaGo, le programme de la filiale de Google, Deepmind, qui avait secoué le monde de l’intelligence artificielle en battant le champion du monde de go Lee Sedol en 2016, a trouvé son maître : lui-même. La nouvelle version, baptisée AlphaGo Zero, a battu l’ancienne 100 à 0. Et elle a appris à jouer toute seule, sans données tirées de parties humaines.

L’accès à ce contenu a été bloqué afin de respecter votre choix de consentement

En cliquant sur« J’accepte », vous acceptez le dépôt de cookies par des services externes et aurez ainsi accès aux contenus de nos partenaires.

Plus d’informations sur la pagePolitique de gestion des cookies

La première version avait en effet été nourrie par plus de 100.000 parties humaines, afin de s’en inspirer pour découvrir la meilleure stratégie possible. Mais AlphaGo Zero est parti… de zéro. Les ingénieurs lui ont simplement donné les règles du go, un jeu inventé en Chine il y a plus de 2.500 ans, et les algorithmes pour jouer contre lui-même. C’est la technique de « reinforcement learning », d’apprentissage par renforcement : quand un mouvement l’amène plus près de la victoire, la machine en déduit qu’il s’agit d’un coup efficace.

Alors qu’il existe plus de combinaisons possibles au go que d’atomes dans l’univers, son rythme de progression donne le tourni :

En trois heures, AlphaGo Zero atteint le niveau d’un humain débutant.
En trois jours (5 millions de parties), il bat le programme qui avait terrassé le champion du monde en 2016.
En 40 jours, il écrase la version la plus performante d’Alpha Go 100 à 0.

Des algorithmes programmés par des humains

Avec AlphaGo Zero, une nouvelle étape est franchie, dans la mesure où le logiciel, pour apprendre, n’est « plus contraint par les limites de la connaissance humaine », selon les concepteurs de DeepMind.

Mais s’il progresse « tout seul », AlphaGo est uniquement capable de le faire car des humains ont programmé les algorithmes qui lui permettent d’apprendre en jouant contre lui-même. Et le but n’est pas que de jouer : Deepmind applique désormais ses recherches au repliement des protéines et espère qu’elles déboucheront sur des avancées médicales.