En trois jours d'apprentissage autodidacte, AlphaGo a surpassé 2.500 ans de stratégies humaines
SCIENCES•La nouvelle version du programme de go développé par la filiale de Google, Deepmind, a fait des progrès spectaculaires...P.B. avec AFP
La machine n’a (presque) plus besoin de l’humain. AlphaGo, le programme de la filiale de Google, Deepmind, qui avait secoué le monde de l’intelligence artificielle en battant le champion du monde de go Lee Sedol en 2016, a trouvé son maître : lui-même. La nouvelle version, baptisée AlphaGo Zero, a battu l’ancienne 100 à 0. Et elle a appris à jouer toute seule, sans données tirées de parties humaines.
La première version avait en effet été nourrie par plus de 100.000 parties humaines, afin de s’en inspirer pour découvrir la meilleure stratégie possible. Mais AlphaGo Zero est parti… de zéro. Les ingénieurs lui ont simplement donné les règles du go, un jeu inventé en Chine il y a plus de 2.500 ans, et les algorithmes pour jouer contre lui-même. C’est la technique de « reinforcement learning », d’apprentissage par renforcement : quand un mouvement l’amène plus près de la victoire, la machine en déduit qu’il s’agit d’un coup efficace.
Alors qu’il existe plus de combinaisons possibles au go que d’atomes dans l’univers, son rythme de progression donne le tourni :
- En trois heures, AlphaGo Zero atteint le niveau d’un humain débutant.
- En trois jours (5 millions de parties), il bat le programme qui avait terrassé le champion du monde en 2016.
- En 40 jours, il écrase la version la plus performante d’Alpha Go 100 à 0.
Des algorithmes programmés par des humains
Avec AlphaGo Zero, une nouvelle étape est franchie, dans la mesure où le logiciel, pour apprendre, n’est « plus contraint par les limites de la connaissance humaine », selon les concepteurs de DeepMind.
Mais s’il progresse « tout seul », AlphaGo est uniquement capable de le faire car des humains ont programmé les algorithmes qui lui permettent d’apprendre en jouant contre lui-même. Et le but n’est pas que de jouer : Deepmind applique désormais ses recherches au repliement des protéines et espère qu’elles déboucheront sur des avancées médicales.