Nuestros cerebros tienen una capacidad que las redes neuronales artificiales aún carecen: podemos formar analogías, relacionar entradas dispares y procesarlas usando la misma heurística.
La jerga oficial es ‘aprendizaje de transferencia’. Fundamentalmente, las analogías son una forma de compresión que permite a los cerebros simular la dinámica de muchos sistemas diferentes con un espacio mínimo dedicado a cada subsistema. Donde dos sistemas se comportan de manera similar, una sola analogía los describe a ambos.
Aprendiendo algo nuevo
Las redes neuronales artificiales ahora pueden evitar el olvido catastrófico que fue un gran obstáculo.
Anteriormente, cuando una Neural Networks se capacitaba en una nueva tarea, era demasiado maleable aprendiendo la nueva tarea mientras se olvidaba la anterior, o era demasiado rígida recordando la primera tarea mientras que nunca aprende el segundo.
Este avance es un paso importante hacia la transferencia de aprendizaje, aunque solo participó nuevas tareas en regiones menos útiles de la red – no combina diferentes tareas usando heurística compartida .
Argumento que, para formar analogías y comprimir el espacio dedicado a muchas tareas similares, las redes neuronales deben dedicar tiempo a un estado distinto : hipótesis de analogías .
Al formular hipótesis sobre analogías, la Neural Networks debe ignorar las nuevas entradas sensoriales mientras compara las salidas de varios expertos. Dicha red tiene tres estados : recepción y procesamiento de entradas, propagación inversa de actualizaciones de pesos sinápticos e hipótesis de analogías.
La red alterna entre los tres estados; del mismo modo que alternar entre feed-forward y feed-back, debe pasar un tiempo ‘ponderando’ si espera descubrir conexiones entre subsistemas dispares.
Mapping Inputs to Experts
Para ver cómo funciona la analogía-formación, imagine el espacio de todas las entradas posibles. En este espacio de alta dimensión, cada punto corresponde a una entrada diferente. La tarea de una Neural Networks Mixture of Experts es mapear esas entradas en varios clusters expertos.
Supongamos que un tablero de ajedrez es el espacio de las entradas, y cada experto ocupa una muestra en el tablero, de modo que cada cuadrado en el tablero está asociado con una muestra particular.
La Neural Networks recibe una entrada, verifica qué experto aplica allí y envía los datos de entrada a ese experto para su procesamiento. Este mapeo de entradas a expertos es un análisis de esas entradas.
Cuando la red hace una hipótesis de una analogía, está aceptando como correcto un nuevo mapeo desde el espacio de entradas al espacio de expertos. Un experto que normalmente recibe {X, Y, Z} como entradas puede ser alimentado {A, B, C} en su lugar, para ver si esa nueva asignación genera predicciones correctas.
El proceso de probar cada posible reasignación es el hipótesis del estado; cuanto mayor es el tiempo que la red pasa ‘ponderando’, es más probable encontrar clústeres expertos existentes que modelen con precisión subsistemas dispares.
Mientras se produce esta “reflexión”, los aportes sensoriales quedan en suspenso y no se produce la propagación hacia atrás: la red está “perdida en el pensamiento”.
Comprensión creciente
Al principio, una entrada desconocida recibe su propio grupo de expertos – se trata como completamente nuevo, y el procesamiento es ineficiente y lento. Sin embargo, a medida que se producen más entradas en esa región del espacio de entrada, su grupo de expertos se vuelve más preciso debido a la retro-propagación.
Una vez que el experto de esa nueva tarea es lo suficientemente preciso, la Neural Networks puede comenzar a ponderar; simula las entradas y ve si la respuesta de su clúster experto existente coincide con la del clúster análogo.
Si son lo suficientemente similares, entonces se valida la analogía y el clúster de expertos nuevo y torpe se reemplaza por el módulo más establecido. (Tenga en cuenta que la red es no comparando el clúster de expertos análogos con la realidad ; se lo compara con el experto específico de la tarea!.
La comparación es imaginada ) [19659004] Este comportamiento es similar a lo que vemos en el cerebro: cuando aprendemos una nueva tarea, somos torpes y nos distraemos fácilmente. Sin embargo, una vez que hemos digerido la nueva tarea, nos volvemos fluidos y receptivos.
Esa digestión ocurrió debido a la reflexión sobre la tarea y al proceso de relacionar esa tarea con otras más familiares. Debemos meditar para encontrar conexiones y similitudes que ayuden a la comprensión.
Encontrar estas analogías es un ejercicio tan valioso que pasamos gran parte de nuestro tiempo analizando analogías hipotéticas, y espero que las redes neuronales artificiales avanzadas también tengan que dedicar mucho tiempo a reflexionar.
Curiosidad
Otro grupo de los investigadores han hecho grandes avances en IA para los juegos de Atari, confiando por completo en la curiosidad .
La máquina no sabía sobre recompensas o muerte; simplemente trató de jugar de tal manera que ocurran cosas nuevas e inesperadas. Esto puede parecerse mucho a la neocorteza, que intenta constantemente predecir el futuro y presta gran atención a los tiempos y formas en que sus predicciones se equivocan.
La neocorteza no está impulsada por señales de placer, que son poco frecuentes. En cambio, la neocorteza tiene sed de comprensión.
Sin embargo, existe otra forma de curiosidad.
Supongamos que su Neural Networks ha formado una analogía, X → A, Y → B, Z → C , y quiere ver si esta analogía es válida. Los dos sistemas expertos, uno entrenado explícitamente en los datos {A, B, C}, el otro entrenado en {X, Y, Z} y asumido de forma análoga, tienen casos límite que pueden simularse para comparar esos grupos de expertos. [19659004]
La prueba de esos bordes-caso es una curiosidad diferente – Neural Networks no está buscando nuevas entradas. Más bien, se pregunta si una analogía es apropiada buscando sistemáticamente contradicciones.
Las pruebas de ‘Edge-case’ podrían superar la curiosidad de la ‘nueva experiencia’ para encontrar la dinámica subyacente de una tarea; la curiosidad de la nueva experiencia cae en trampas, como cambiar constantemente un canal de televisión. La curiosidad de la nueva experiencia es una máquina de distracción .
Por el contrario, probar casos extremos es más parecido al trabajo de un científico, formular hipótesis sistemáticamente y luego experimentar en los límites de esas hipótesis.
Toma tiempo
Entonces, una Neural Networks silencia sus sentidos, detiene el retroceso. propagación, y se instala para ponderar analogías hipotéticas.
Desafortunadamente, no existe una regla difícil y rápida para encontrar analogías confiables. Nuestros propios cerebros parecen usar representaciones distribuidas dispersas para codificar información, y si dos representaciones se superponen de muchas maneras, pueden estar sujetas a la misma dinámica.
Entonces, tenemos una medida cruda de similitud, para darnos un buen comienzo. Sin embargo, la reflexión todavía es lenta.
Con cada analogía hipotética, se deben imaginar muchos casos extremos. Cada instancia se presenta al experto específico de la tarea y al clúster de expertos análogos.
Si muchas instancias imaginarias producen resultados coincidentes, entonces el experto análogo encaja perfectamente y reemplaza al experto específico de la tarea .
Esto podría ser raro. Entonces, se deben intentar muchas hipótesis, y cada una de ellas requiere la validación de múltiples instancias imaginadas.
¡Esto podría ser una gran proporción del esfuerzo de Neural Networks! Nuestra propia necesidad de dormir, y su papel en digerir nuevos conceptos, parece ser un espejo de este comportamiento.
Soñamos con formar nuevas conexiones entre subsistemas, cuando nuestros sensores están silenciados y las acciones solo son imaginadas.