Comprender los espacios de alta dimensión en aprendizaje automático

Un sello distintivo del aprendizaje automático es el manejo de cantidades masivas de datos de varios dominios. Independientemente de si estos datos se procesan como una imagen, video, texto, habla o puramente numérico, casi siempre existe en algún espacio de alta dimensión. En este artículo, mostraré cómo se representan los datos en dimensiones más altas y cómo podemos interpolar entre ellos. Ya que es casi imposible visualizar estos espacios abstractos, también proporcionaré algunas analogías útiles para pensar.

Las coordenadas espaciales como imágenes

Podemos dar a cada punto de nuestro espacio tridimensional un (x, y, z) coordenada. Dado que estos puntos se representan como tres números reales, decimos que pertenece al conjunto ℝ³. Estas coordenadas generalmente no son muy significativas, pero codifican nociones útiles de distancia y magnitud.

Lo importante anteriormente es que cuando teníamos tres números en valores reales, podríamos representarlo en nuestros tres espacio dimensional. Pensemos ahora en una imagen. Una imagen es simplemente una gran colección de píxeles, con cada píxel representando una intensidad en algún rango. En aras de la simplicidad, solo pensemos en imágenes en escala de grises, donde la intensidad de cada píxel es entre 0 y 1.

Una imagen de baja resolución puede ser una miniatura de 32 por 32 píxeles. Aunque está representado visualmente como un cuadrado, puedes imaginarte estirándolo en una línea con 1024 = 32 × 32 píxeles. Entonces, ¿cuál es el punto? ¿En qué espacio vive esta imagen? Bueno, ahora tenemos 1024 números reales, por lo que debe existir en el espacio 10²-de 1024 dimensiones.

Pensando en espacios de alta dimensión

En cierto modo, ya tenemos una forma de visualizar un espacio de 1024 dimensiones: Imágenes en escala de grises de 32 por 32! Esto puede parecer un poco circular, pero funciona para algunas situaciones. A medida que nos movemos a través de este espacio dimensional alto, las intensidades de píxeles en nuestra imagen cambiarán. Pero la mayoría de estos cambios no se parecerán a nada y, en su mayoría, parecerán tonterías.

Nosotros, como seres humanos, entendemos cómo interpretar e interpolar entre imágenes. Si queremos cambiar una imagen de parecerse a un gato a un perro, sabemos cómo visualizar ambas imágenes y aislar las diferencias clave. Si tuviéramos que mapear nuestro cerebro, el espacio de todas las imágenes, las fotos de gatos y perros estarían bastante juntas. Hemos aprendido las asociaciones entre las imágenes y cómo unir imágenes similares y diferentes imágenes muy distintas. Pero en un espacio de alta dimensión, cada imagen está mezclada y rodeada de tonterías sin sentido y ruidosas.

Espacio de píxel y espacio latente

La representación de alta dimensión que hemos estado discutiendo hasta ahora a menudo se conoce como espacio ambiente ( o espacio de píxeles en el caso de las imágenes). Así es como pensamos en largas listas de números como vectores en espacios euclidianos de alta dimensión.

El ejemplo más famoso para pensar en imágenes simples son los dígitos escritos a mano. Estas son imágenes en escala de grises de 28 por 28, y cada imagen pertenece a. Si queremos “mover” de una imagen a otra, entonces necesitamos entender la semántica de cada dígito.

Interpolación entre dígitos en espacio de píxeles.

Interpolación en espacio de píxeles

Supongamos que tenemos dos coordenadas p y q. Podemos interpolar entre ellos en el espacio de píxeles simplemente cambiando cada coordenada del primero al segundo en pasos. Por ejemplo, si queremos cambiar de la coordenada (1, 2) a (5, 12) en dos pasos, entonces podemos considerar la progresión (1, 2) → (3, 7) → (5, 12). En cada paso, solo agregamos la mitad de la diferencia entre las coordenadas.

Este algoritmo funcionará para un número arbitrario de coordenadas, así que también funcionará para nuestras imágenes de dígitos escritas a mano. En la imagen de arriba, comenzamos con una imagen de un “5” y terminamos con una imagen de un “9”. La progresión de arriba muestra una interpolación entre ellos en cuatro pasos.

Espacio latente e interpolación

Aunque nosotros Podemos representar una imagen a través de sus píxeles, también podemos clasificar imágenes a través de su representación semántica. Entendemos el aspecto de 5 y 9, por lo que podemos imaginar agrupar todos los dígitos similares. Este espacio puede ser totalmente diferente y puede que solo necesite un puñado de dimensiones. Esta es la base para muchos métodos de reducción de dimensión.

El propósito de muchos modelos de aprendizaje automático es aprender este espacio latente . En futuros artículos, discutiré cómo la arquitectura de estos modelos determina implícitamente la dimensión del espacio latente.

Una vez que aprendemos la representación del espacio latente, podemos interpolar en el espacio latente y obtener una transición mucho más suave entre las imágenes. Considera las mismas dos imágenes de antes. La siguiente figura muestra la interpolación en el espacio latente.

Interpolación entre los mismos dos dígitos en el espacio latente.

Conclusión

En muchos sentidos, el aprendizaje automático consiste en interpretar espacios de alta dimensión. Comprender cómo se usan y transforman estos espacios es una habilidad valiosa, incluso si no podemos visualizarlos nosotros mismos. Dado que la dificultad del aprendizaje automático es diseñar y comprender modelos que reducen los datos a espacios latentes de baja dimensión, hay un gran valor en el aprendizaje de estas representaciones.

¡Gracias!

Le agradezco que haya leído este artículo y espero que haya sido útil. . Planeo escribir más artículos sobre la reducción de dimensiones y la representación del espacio latente en el aprendizaje automático, ¡y sería genial escuchar sus comentarios sobre lo que desea ver! Siéntase libre de escribir cualquier pregunta a continuación o contácteme en LinkedIn .


Comprendiendo los espacios de alta dimensión en el aprendizaje automático se publicó originalmente en Hacia la ciencia de datos en Medio, donde las personas continúan la conversación resaltando y respondiendo a esta historia.

Dejá un comentario