-->

En @MapIgnorance: la convergencia entre inteligencia artificial y neurociencia

Esta semana publiqué un artículo en el blog de divulgación de la Universidad del País Vasco, Mapping Ignorance. El artículo original está en inglés, y esta es una traducción libre de el mismo.



Muchos investigadores de inteligencia artiicial (IA) están alertando sobre un invierno en esta disciplina, lo cual significa que los científicos pueden perder interés en el campo, las instituciones reducir los fondos y perder presencia en el debate público. No sería el primer invierno de IA, no obstante. Las pasadas dos décadas han supuesto una época de optimismo sin parangón en la inteligencia artificial, y a ello han contribuido la mejora del hardware, la existencia de grandes bases de datos y el desarrollo del aprendizaje-profundo. Sin embargo, aún estamos muy lejos de una inteligencia más humana.

Personalmente, no estaría tan seguro sobre el descenso de actividad investigadora en IA, pero de lo que sí que estoy convencido es de que cada vez irá más de la mano de la neurociencia y sus reglas. Por lo tanto, podemos denominar invierno de la IA al período que se necesitará para entender lo suficientemente bien el cerebro como para dar un gran salto adelante, tanto en IA como en neurociencia. Este artículo pretender describir las tendencias actuales de los investigadores en esta dirección y algunos ejemplos de las contribuciones de la neurociencia.



Fuente


Es paradójica la situación actual, ya que en su orgien la IA estaba basada en la neurociencia y en la psicología. A partir del desarrollo posterior y expansión de estas disciplinas, los límites de estas ciencias se hicieron muy níticos y se perdió la interacción entre ellas.

La neurociencia otorga dos ventajas para la IA. En primer lugar, sirve de inspiración para una nueva multitud de nuevos algoritmos, independientes de ideas matemáticas que han dominado tradicionalmente la IA, como el aprendizaje profundo y las redes neuronales. En segundo lugar, la neurociencia puede servir de sistemas de validación de las técnicas de IA que ya existen. Si un algoritmo existente se prueba sobre un modelo de cerebro, se comprobará su plausabilidad como elemento hacia un sistema de inteligencia general.

Sin embargo, en este punto es donde las dos tendencias predominantes entre científicos difieren: investigadores como Henry Markram, Dharmendra Modha y Stepehen Larson están centrados en un modelo de simulación completo del cerebro, incluso desde un punto de vista biológico. Estiman que un millón de líneas de código son suficientes para este propósito. Están tratando de replicar todas las sinapsis, dendritas, activación de axones, etc, para poder entender cómo aprende el cerebro, o cómo obtiene información del entorno, e incluso cómo luchar contra enfermedades mentales. Sin embargo, en este artículo, hablaré sobre trabajos que sólo reproducen cómo funciona el proceso de aprendizaje, desde un punto de vista ingenieril.



Aprendizaje por refuerzo
La neurociencia ha vuelto a poner al aprendizaje por refuerzo (RL) de moda otra vez. Nunca ha sido una técnica particularmente atractiva: es un algoritmo computacionalmente muy muy ineficiente y requiere cientos o miles de experimentos para lograr la solución óptima. Pero durante la experimentación se pasa por distintos estados y decisiones y eso se ha vuelto una gran ventaja para modelar y representar algunas habilidades humanas esenciales.

Por ejemplo, RL se ha vuelto una buena representación del aprendizaje de las habilidades motoras en animales y humanos. Persigue el aprendizaje a través de las repeticiones de acciones. Querido lector, intenta simplemente recordar cómo aprendiste a montar en bici, a nadar o cómo aprendiste en una ciudad nueva el camino a casa. En definitiva, es una adición de prueba y error en el que la persona pondera mucho las buenas decisiones que le hicieron conseguir el equilibrio o llegar a su destino.

Además, la combinación de aprendizaje profundo y RL ha sido un gran hito, ya que representa el uso de memorias episódicas. RL, en este sentido, representa la habilidad natural de aprendizaje de habilidades, como las reglas de un juego. La información permanece almacenada, y a continuación, se extrae y se usa una red neuronal para hallar la solución óptima según las experiencias vividas pasadas. La combinación de RL + aprendizaje profundo se ha comprobado que es válido para simular cómo los niños adquieren experiencia y sentido común al interactuar con el entorno.

Finalmente, el RL también se está mostrando muy útil para modelar la capacidad de imaginar y planificar de los humanos. Los humanos pueden predecir resultados futuros a través de simulaciones, gracias a multitud de experiencias vividas pasadas.



Atención
Hasta hace bien poco, los modelos de redes neuronales más típicos (tradicional, convolucionales) trabajaban directamente sobre imágenes o vídeos completos, dando la misma importancia a todos los píxeles del cuadro a la hora de procesar. Sin embargo, no es así cómo trabaja el cerebro. En realidad, centra su atención en los objetos móviles, colores y partes específicas. Por lo tanto, este tipo de algoritmos de reconocimiento se están implementando para modelar la atención, y reducir el coste computacional al mismo tiempo.


Aprendizaje continuo
Una de las principales características del cerebro humano es la habilidad para aprender continuamente, sin olvidar los conocimientos y habilidades previamente adquiridos. En el caso de las redes neuronales, el re-entrenamietnto era catastrófico ya que borraba todos los conocimientos ya adquiridos. Este fenómeno se representa por el sesgo y los pesos, que representan el camino al conocimiento de una red neuronal. En la actualidad, los investigadores están desarrollando un tipo de aprendizaje y de pesos flexibles para usar la misma red neuronal para aprender nuevos conceptos, sin pérdida de información.


Aprendizaje eficiente
Los humanos tenemos una gran habilidad para aprender rápidamente nuevos conceptos a partir de unos pocos ejemplos, lo cual hace el conocimiento algo muy flexible. Esto es una habilidad extremadamente difícil para la IA. Sin embargo, sistemas de aprendizaje recientes están creando sistemas de redes neuronales que aprenden a aprender. Se puede entender con el siguiente ejemplo: un niño tiene una habilidad nautral para reconocer distintas letras, a pesar de que provengan de distintas caligrafías y personas. Las redes neuronales están adaptando este efecto ponderando el conocimiento previo con problemas parecidos.

Esto es también muy importante en la transferencia de conocimiento de los humanos. Normalmente, una persona que sabe usar un ordenador o conducir un coche, podrá usar cualquier otro ordenador y conducir cualquier otro coche.


Conclusiones
No solo la IA se beneficiará de la colaboración con la neurociencia. En la dirección contrario, la IA y sobre todo, el aprendizaje-máquina, transformaron para siempre la neurociencia y las técnicas para analizar las imágenes de resonancia magnética, la realización de diagnósticos a partir de big-data y el desarrollo de nuevos medicamentos.

En la nueva era, ninguna de las dos ciencias podrá avanzar la una sin la otra.



[1] Hassabis, D., Kumaran, D., Summerfield, C., & Botvinick, M. (2017). Neuroscience-inspired artificial intelligence. Neuron, 95(2), 245-258.

Errores de ajuste y Fukushima

Una famosa cita científica dice que si no usas datos, probablemente lo que hagas no sea ciencia. Pero contar con datos no resuelve el problema completo, ya que normalmente hay que interpretarlos y establecer una relación entre los datos con los que contemos. 

En este artículo pretendo explicar un par de casos históricos famosos sobre el problema de sobreajuste. Es decir, lograr que la relación que calcules sobre tus datos, sea demasiado cercana a los propios datos. Se va a entender muy bien con los siguientes ejemplos:


- Evolución del tamaño de población de Estados Unidos

Este ejemplo apareció en la página de Mathworks del software matemático Matlab. En ella, se dibujan algunos puntos del tamño de población de Estados Unidos a lo largo de la historia, y se ajusta con uan ecuación de segundo grado.


Pero si yo fuera Donald Trump, me preocuparía por ver la evolución de esta gráfica en el futuro:


Es decir, este ejemplo demuestra que a pesar de que la curva se ajusta muy bien a los datos puntuales con los que yo tenía, la gráfica no es correcta (o eso esperamos).

Lógicamente, no todos las líneas, según su grado, van a ajustar correctamente con la realidad, pero puede que arrojen resultados más lógicos.


 

- Ptolomeo y su sistema de círculos

Ptolomeo consideró que la Tierra era el centro del universo, y para eso creó un sistema de círculos que según él, reproducía perfectamente los movimientos de todos los cuerpos celestes alrededor de la Tierra. El problema era que había que dibujar nuevos círculos cada cierto tiempo para ajustar los datos.



Cuando el resto de los astrónomos tuvieron que crear tantos círculos que el modelado les parecía dudoso, llegó Copérnico a desarrollar un sistema más realista.


- La central de Fukushima

Este ejemplo de la central nuclear probablemente sea uno de los más esclarecedores de sobreajuste: para fabricar la central, los ingenieros se basaron en una relación denominada ley de Gutenberg - Richter, la cual establece la frecuencia de que ocurran terremotos de cierta magnitud. Desde los imperceptibles hasta los terremotos de grado 10.

Ahora, fijaros en las siguientes dos imágenes:



La primera imagen representa la relación que crearon los ingenieros, consistente en dos líneas rectas, donde el punto de inflexión ocurre alrededor de 7,3. La segunda imagen muestra un ajuste de los datos peor, consistente en una única recta. Sin embargo, la primera imagen establece que un terremoto de grado 9 se da cada 13.000 años, mientras que la segunda imagen indica que un terremoto así se da cada 300. Y por esta razón, Fukushima fue dimensionada solo para aguantar un terremoto de 8,6 grados.

¿Sorprendente? Un error de cálculo que costaba arreglar 30 segundos provocó que se echase a perder una gran infraestructura. Los datos no lo son todo. También existe su correcta interpretación.





Fuente:

1- https://ml.berkeley.edu/blog/2017/07/13/tutorial-4/
2- https://stats.stackexchange.com/questions/128616/whats-a-real-world-example-of-overfitting
3- https://datascience.stackexchange.com/questions/61/why-is-overfitting-bad-in-machine-learning
4- https://www.britannica.com/science/Ptolemaic-system

 
Design by Free WordPress Themes | Bloggerized by Lasantha - Premium Blogger Themes | Best Web Hosting