No es habitual promulgarme en eventos de charlas. Hoy os dejo mi última participación en una de ellas, en la pasada Semana de la Ciencia de Donostia.
En esta ocasión, hablé sobre las consecuencias que puede tener la inteligencia artificial en nuestra visión de las cosas, y de un poco de seguridad informática. Espero que os guste. Tenéis todas las charlas que se impartieron junto a la mía aquí. Cada una de ellas dura unos 10 minutos y tienen una buena dosis de humor.
Aprendizaje por refuerzo (Reinforcement Learning, en la lengua del imperio). Es mi opinión. Pero voy a explicar las razones.
La Inteligencia Artificial la podemos imaginar como un agente que puede terminar ganándonos al ajedrez. Sin embargo, en el caso de Deep Blue (1997), hubo que enseñarle a jugar primero. No era una máquina que partía de 0, sino que tenía almacenadas millones de grandes partidas en su memoria, y a cada movimiento se dedicaba a analizar la mejor opción.
Totalmente distinto es el caso de AlphaGo (2016), la IA de Google que derrotó al campeón del mundo de Go. En este caso, la máquina adquirió el conocimiento por sí misma, jugando ella sola millones de partidas, y comprobando cómo de bueno era cada movimiento. Consiste en una especie de prueba y error. Gracias al poder computacional actual, se pueden hacer muchas miles de pruebas.
Es decir, a AlphaGo no hubo que enseñarle o introducirle un conocimiento previo, sino que es como si a nosotros nos hubieran dado un tablero con las fichas, y lo aprendiéramos a jugar como un maestro nosotros mismos, sin leer ni un solo libro ni ver ninguna partida previa. Mi único conocimiento previo son las instrucciones del juego.
Menos mediático, pero el aprendizaje por refuerzo ya fue noticia en 2015, donde un programa de ordenador aprendió a ganar en 49 juegos distintos del clásico Atari 2600, simplemente haciendo movimientos y viendo qué puntuación obtenía (se publicó en Nature).
En cierto sentido, el aprendizaje humano también sigue el proceso de reinforcement learning, sobre todo en el dominio de habilidades motoras. Imaginémonos cómo aprendimos a andar en bici, o a nadar, o a andar. ¿Cómo nada un buen deportista? Ejecuta los mejores movimientos en el momento preciso que él ha visto que le impulsan con más fuerza o velocidad a través del agua. Es lo mismo que un niño pequeño cuando aprende a andar en bici. Tras un proceso, hay una convergencia en la que el niño aprende a emplear la fuerza justa en cada pierna y espalda para mantenerse en equilibrio.
En el siguiente vídeo, un sencillo robot aprende cuál es la técnica (posición y fuerza) con la que se desplaza más rápido por una alfombra.
En ingeniería, a la consciencia de que un tipo de movimiento lleva a un a buen resultado, se le denomina recompensa.
El aprendizaje por refuerzo no es cosa de ahora. Sin embargo, la combinación de este algoritmo y otras técnicas de inteligencia artificial, como redes neuronales, o árboles de decisión, se está mostrando muy prometedor de cara a que cada vez las máquinas aprendan tareas más complejas y menos limitadas. No nos engañemos, jugar al Go es bastante limitado, tanto como avanzar en línea recta. Es por ello que cada vez se oirá más el término deep reinforcement learning, que nace de sumar deep learning + reinforcement learning. Deep learning lo han hecho muy famoso los gigantes tecnológicos, y su principal característica es la existencia de muchas capas de redes neuronales. No solo eso, una de las compañías que se ha convertido en referencia últimamente es DeepMind, de Google.
De hecho, precisamente es esta capacidad de aprendizaje automático lo que preocupa a los científicos. Hay incertidumbre sobre si una máquina, gracias a algoritmos como el deep reinforcement learning, pueda llegar aprender cosas para los que los humanos no las hemos creado. Es decir, que amplíe descontroladamente el aprendizaje gracias a la mejora de percepción que está sufriendo esta tecnología.