AlphaZero: la IA de google que juega al ajedrez
AlphaZero
En 2017, la empresa DeepMind (perteneciente a Google) lanzó la primera versión de su motor AlphaZero. Este motor está formado por una compleja red neuronal y fue capaz de vencer a Stockfish en un famoso encuentro disputado en 2018. En ese enfrentamiento, AlphaZero ganó 28 partidas y empató 72. (Gómez González & de Lope Asiaín, n.d.), posicionándose como el mejor motor de ajedrez del momento. Sin embargo, su principal inconveniente es que es de uso privado, por lo que su código no es accesible, y, a diferencia de Stockfish, no puede utilizarse para analizar jugadas o partidas.
La red neuronal de AlphaZero es extremadamente compleja y constituye uno de los factores más importantes para su éxito. Este motor utiliza un tipo específico de redes neuronales conocidas como redes convolucionales, y emplea una metodología innovadora, pero cada vez más extendida, llamada aprendizaje por refuerzo. Este tipo de aprendizaje se basa en otorgar recompensas a la red cada vez que toma una decisión acertada, lo que le permite mejorar progresivamente su capacidad de toma de decisiones. Gracias a este enfoque, AlphaZero aprendió a jugar partidas de ajedrez jugando contra sí mismo.
En cuanto al algoritmo de búsqueda, AlphaZero emplea el Monte Carlo Tree Search, que es menos efectivo que el algoritmo de búsqueda de Stockfish en términos de posiciones analizadas por segundo. No obstante, su función de evaluación está tan desarrollada que esta limitación no representa un problema significativo para el motor. (Gómez González & de Lope Asiaín, n.d.). Más adelante se hablará en detalle sobre el árbol de búsqueda Monte Carlo.
Una de las características más destacadas de AlphaZero, y que lo convierte en un caso muy relevante, es el hecho de que aprendió a jugar por sí mismo. Solo se le proporcionaron las reglas del juego, y empezó a jugar millones de partidas contra sí mismo. Es decir, AlphaZero no tenía experiencia previa en ajedrez. Cabe destacar que descubrió por sí solo la teoría relevante de aperturas y, en tan solo 24 horas de aprendizaje, obtuvo resultados brillantes. El 5 de diciembre de 2017, el equipo de DeepMind publicó un informe en el sitio web de la Universidad de Cornell titulado: "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm" (Dominando el ajedrez y el shogi mediante autoaprendizaje con un algoritmo general de aprendizaje por refuerzo). (Albert Silver, n.d.).
El informe señala lo siguiente:
"AlphaZero compensa la menor cantidad de evaluaciones utilizando una red artificial de neuronas para calcular de manera mucho más selectiva que los módulos normales. Presta atención únicamente a aquellas variantes que parecen más prometedoras. Es decir, trabaja de una manera similar al enfoque humano, como había sugerido originalmente Shannon. El gráfico indica cuánto tiempo necesita cada programa para reflexionar sobre los movimientos en relación con una valoración 'relativa' de ELO. Resulta que Stockfish o Elmo necesitan unos 40 milisegundos por movimiento, mientras que la evaluación de AlphaZero resulta mucho más eficiente en comparación con el tiempo requerido por Stockfish o Elmo. Esto pone en duda la teoría de que la búsqueda alfa-beta era inherentemente superior para este tipo de cálculos." (D. Silver et al., 2017).
En principio, AlphaZero sigue recibiendo mejoras por parte del equipo de DeepMind, aunque, al no ser de código abierto, estas no son públicas. Hasta la fecha de realización de este trabajo (2024), no se ha disputado ningún otro encuentro entre Stockfish y AlphaZero.
Como alternativa a AlphaZero, y con un funcionamiento similar, existe Leela Chess Zero, un motor de código abierto desarrollado por la comunidad. A continuación, se explica su sistema.