Francisco Herrera Triguero, Universidad de Granada
Hace unos días, un equipo de investigadores de Google DeepMind actualizó el artículo titulado Amortized Planning with Large-Scale Transformers: A Case Study on Chess, que había pasado relativamente desapercibido. En él se presenta un sistema de inteligencia artificial (IA) llamado ChessBench, basado en Transformers (redes neuronales) a gran escala, que juega al ajedrez.
Sin memoria
Hasta la fecha, todos los programas de ajedrez se basaban en complejos procesos de búsqueda del mejor movimiento en el árbol que combina siguientes jugadas y contrajugadas, muchas veces con búsqueda a profundidades superiores a 20 movimientos futuros. Esto, junto a la aplicación de funciones que les permite evaluar la ventaja o desventaja de cada posible decisión, permitía encontrar la mejor jugada.
Mientras que lo fundamental para todas las IA era hasta ahora la memoria, ChessBench supone el comienzo de una nueva era, con máquinas entrenadas en tareas de planificación en las que la memoria es inútil.
Leela Chess Zero y Stockfish son, a día de hoy, los mejores motores de ajedrez, exponentes de la excelencia en el juego lograda con la primera aproximación.
Ambos utilizan aprendizaje basado en redes neuronales de diferente forma: Leela Chess Zero usa aprendizaje por refuerzo a través del autojuego, y Stockfish integra una red neuronal para la mejora de la evaluación de posiciones y la toma de decisiones.
Pero ChessBench de Google DeepMind acaba de iniciar un nuevo modelo que puede superar todos los límites. Como apuntábamos más arriba, es un sistema de IA basado en Transformers (como BERT y GPT) cuya versión más avanzada cuenta con hasta 270 millones de parámetros.
Entrenamiento
Para su entrenamiento y aprendizaje se han utilizado 10 millones de partidas de ajedrez extraídas de Lichess, plataforma de código abierto para jugar al ajedrez en línea a la que diariamente se conectan miles de usuarios humanos en todo el mundo. A partir de esas partidas se generan más de 15 000 millones de anotaciones evaluando cada posición y su mejor acción (movimiento). Esta evaluación la lleva a cabo Stockfish 16, cuyo motor de búsqueda determina el mejor movimiento posible en una posición concreta.
Qué hace especial a ChessBench
El entrenamiento ha permitido que el sistema aprenda a predecir los valores de acción para nuevas posiciones con bastante precisión. Supone una generalización no trivial: lo hace sin hacer búsquedas explícitas de siguientes jugadas y contrajugadas.
Lo que hace increíble el resultado es tener un sistema de IA que sea capaz de jugar ajedrez a ese nivel de calidad.
ChessBench juega sin proceso de búsqueda de la mejor jugada, solo bajo la predicción de la siguiente. Es el sueño de cualquier ajedrecista: mirar una posición y reconocer por la configuración de las piezas el mejor movimiento siguiente.
Esto da pie a la pregunta recurrente en el debate sobre los Transformers a gran escala y los grandes modelos de lenguaje o LLM, como el que está detrás de ChatGPT: ¿Son solo grandes memorizadores o pueden llegar a razonar?
El ajedrez como campo de pruebas
El ajedrez requiere una combinación de estrategia, táctica y previsión. Estos son elementos clave en los procesos de planificación, razonamiento y toma de decisiones.
El modelo utilizado por ChessBench cuenta con 270 millones de parámetros (2,7×10¹¹), mientras que el número de posibles jugadas de ajedrez es inmensamente mayor, aproximadamente de 10¹²⁰. En este juego, la memorización es inútil a gran escala. Existe una inmensa variedad de posibles jugadas, además de la complejidad de las estrategias involucradas.
El ajedrez puede permitir evaluar de manera precisa la capacidad de los modelos de IA para generalizar y adaptarse a nuevas situaciones.
ChessBench ha aprendido a reconocer patrones profundos y complejos dentro del juego de ajedrez. Esta capacidad le permite replicar su éxito incluso en situaciones no previstas durante su entrenamiento.
El hecho de que pueda identificar y aplicar estrategias ganadoras en posiciones no vistas previamente revela un nivel de razonamiento. Este va más allá de la simple memorización; no puede atribuirse simplemente a la codificación de la siguiente mejor jugada en su espacio de parámetros.
ChessBench bate récords
A diferencia de otras disciplinas, en ajedrez se cuenta con un método objetivo para estimar la fuerza de un jugador: el sistema de puntuación ELO. En la modalidad Blitz (ajedrez rápido, con partidas de entre 3 y 5 minutos por jugador para toda la partida), solo 15 personas en el mundo superan los 2 895 puntos ELO alcanzados por ChessBench en la plataforma Lichess. En el listado Blitz top 200 se puede observar que el top 100 sitúa el límite de ELO en 2 784.
El ELO alcanzado por ChessBench representa el nivel de un Gran Maestro. Resuelve posiciones de ajedrez desafiantes. Además, logra este sorprendente ELO jugando contra personas en Lichess.
Superar a Alphazero
ChessBench está todavía lejos de competir con la IA AlphaZero, cuyo nivel está por encima del mejor jugador humano del mundo. Realiza análisis en profundidad combinado con aprendizaje por refuerzo, que le permite aprender jugando contra sí mismo.
Actualmente, ChessBench es una aproximación notablemente buena del algoritmo basado en la búsqueda de Stockfish. La destilación perfecta solo basada en la observación de la posición está aún lejos del alcance de un sistema de IA que utiliza un análisis de las posiciones, sin procesos de búsqueda.
Generalización en el aprendizaje
Esto hace que ChessBench sea un punto de partida adecuado para futuras investigaciones. Por ejemplo, será interesante conocer qué rendimiento ofrecería jugando la modalidad de Fischer, es decir, con las piezas mayores situadas aleatoriamente en la primera fila. Plantea una situación de cambio de posiciones en el inicio de la partida que requiere gran capacidad de generalización, así como aprender la causalidad de cada pieza y su movimiento legal.
Recientemente se ha realizado un estudio inicial intercambiando caballos por alfiles en la posición inicial utilizando GPT4, y que muestra las limitaciones en estas nuevas situaciones para los LLM. El estudio concluye que queda mucho por avanzar y hacer en estos escenarios denominados contrafactuales.
Los procesos de la imaginación
Judea Pearl, investigador de IA galardonado con el Premio Turing, asocia los escenarios contrafactuales, situaciones que no han sucedido en el universo actualmente observable por la investigación humana, al proceso humano de imaginar. Son los mundos imaginados que podrían haber sido.
Los Transformers a gran escala no están sólo orientados al lenguaje: hay un número creciente de aplicaciones en diferentes campos. Ya se están integrando los LLM con la robótica inteligente, jugando un papel importante.
De todos modos, la arquitectura de los LLM será insuficiente para lograr una IA general que alcance el nivel cognitivo humano. Pero tampoco parece cierta la posición de quienes dicen que son solo memorización y los llaman peyorativamente “loros estocásticos”. Esta es una crítica desmedida.
El proceso creativo ya no es único de humanos. La planificación, el aprendizaje continuo junto al procesamiento de capacidades sensoriales de la robótica, el razonamiento matemático y el procesamiento de lenguaje, entre otras habilidades de los Transformers a gran escala, afectarán a todo lo humano conocido.
Será interesante conocer y entender hasta qué punto llega a imaginar ChessBench.
Este artículo ha sido realizado con la colaboración de José Luis Flórez, doctor en economía y matemático, empresario y ejecutivo desde hace 30 años en el campo de ‘machine learning’ e IA.
Francisco Herrera Triguero, Catedrático de Ciencias de la Computación e Inteligencia Artificial, Universidad de Granada
Este artículo fue publicado originalmente en The Conversation. Lea el original.