Por Jerry Chi Data Science Manager en SmartNews .
En comparación con otros campos, el aprendizaje automático / la inteligencia artificial parece tener una frecuencia mucho mayor de desarrollos super interesantes en estos días. Las cosas que te hacen decir “wow” o incluso “¡qué momento de estar vivo!” (Como dice el creador de Two Minute Papers siempre))
Descargo de responsabilidad: No estoy usando ninguna definición rigurosa de “Alucinante” o “avance”; es una lista informal … y podría usar una terminología menos rigurosa para hacer más accesible esta publicación
Estimaciones asombrosamente precisas de información aparentemente inutilizable
Estimación de la postura humana a través del muro
Sitio web / video de investigadores del MIT, 2018
Podemos estimar con precisión cómo un humano en el otro lado de una pared está de pie / sentado / caminando solo por las perturbaciones en las señales Wifi causadas por ese humano.
Propiedades físicas de los materiales de gauge del video
Artículo / video de los investigadores del MIT, 2015
Los investigadores primero demostraron en 2014 que pueden, por ejemplo, reproduzca el habla humana del video (sin audio) de una bolsa de papas fritas basada en las vibraciones. Esta parte fue hecha sin aprendizaje automático. En 2015, utilizaron el aprendizaje automático para mostrar que puede estimar la rigidez, la elasticidad, el peso por unidad de área, etc. de los materiales solo a partir de un video (en algunos casos, solo las vibraciones causadas por la circulación normal de aire eran suficientes). [19659008] Estimación de las pulsaciones desde un teléfono inteligente al lado del teclado
Los investigadores demostraron que con el audio grabado por un solo teléfono inteligente instalado junto a un teclado, se puede estimar con 94% de precisión las pulsaciones individuales. A diferencia de los enfoques anteriores que usaban el aprendizaje profundo supervisado con muchos micrófonos colocados alrededor del teclado, este documento en realidad utiliza una técnica de aprendizaje automático relativamente simple (K-significa agrupación) y aprendizaje sin supervisión .
Modelos generativos
Generación de caras realistas, mezcla de estilo e interpolación
Papel / video por los investigadores de NVIDIA, 2018
Los investigadores combinaron una nueva arquitectura con toneladas de GPU para cree caras artificiales extremadamente fotorrealistas que son interpolaciones entre otras caras o aplicaciones del “estilo” de una cara a otra cara. El trabajo se basa en el trabajo pasado en las redes de adversarios generativos (GAN). Las GAN se inventaron en 2014 y han visto una explosión en la investigación desde entonces. El concepto más básico de GAN es dos redes neuronales en duelo entre sí (por ejemplo, una que clasifica las imágenes como “real” o “falsa” y una segunda red neuronal que genera imágenes de una manera que intenta “engañar” a la primera red neuronal
En general, hay mucha investigación impresionante sobre el aprendizaje automático adversarial, que ha existido Por más de una década. Hay muchas implicaciones espeluznantes para la ciberseguridad, etc. Pero estoy divagando.
Enseñando máquinas para dibujar
Blog post por Google Brain, 2017
Interpolación entre 2 dibujos
Mi conocido David Ha en Google Brain usó una red neuronal recurrente generativa (RNN) para hacer dibujos que son gráficos basados en vectores (pienso en esto como Adobe Illustrator, excepto automatizado).
Transfiriendo grandes movimientos de baile a bailarines pobres
Sitio web / video de UC Berkeley investigadores, 2018
Piensa “Auto-Tune para bailar”. Usando la estimación de la postura y el entrenamiento adversarial generativo, los investigadores pudieron hacer una video falso de cualquier persona real (la persona “objetivo”) bailando con excelentes habilidades de baile. La información requerida fue solo:
- un video corto de alguien con grandes habilidades de baile bailando
- unos minutos de video de la persona objetivo bailando (normalmente mal porque la mayoría de la gente apesta al baile)
También vi a Jensen Huang , el CEO de NVIDIA, muestra un video (hecho con esta técnica) de él mismo bailando como Michael Jackson. Me alegro de haber asistido a la GPU Tech Conference, haha.
Aprendizaje de refuerzo
Modelos mundiales: AI que aprende dentro de su propio sueño
Sitio web de Google Brain, 2018
Los seres humanos en realidad no saben ni piensan sobre todos los detalles del mundo en que vivimos. Nos comportamos en base a la abstracción del mundo que está en nuestras cabezas. Por ejemplo, si viajo en bicicleta, no pienso en los engranajes / tuercas / tornillos de la bicicleta; Solo tengo una idea aproximada de dónde están las ruedas, el asiento y la manija, y cómo interactuar con ellos. ¿Por qué no usar un enfoque similar para la IA?
Este enfoque de “modelos mundiales” (de nuevo, creado por David Ha et al) permite al “agente” (por ejemplo, una IA que controla un automóvil en un juego de carreras) para crear un generador. modelo del mundo / entorno que lo rodea, que es una simplificación / abstracción del entorno real. Entonces, puedes pensar en el modelo mundial como un sueño que vive en la cabeza de la IA. Luego, la IA puede entrenarse mediante el aprendizaje por refuerzo en este “sueño” para lograr un mejor desempeño. Entonces, este enfoque es en realidad combinar ML generativo con aprendizaje por refuerzo. Al hacer esto, los investigadores pudieron lograr un rendimiento de vanguardia en ciertas tareas de juego de video.
[Update 2019/2/15] Sobre la base del enfoque de “modelos mundiales” anterior, Google acaba de revelar PlaNet: Deep Planning Network para el aprendizaje por refuerzo que logró una eficiencia de datos 5000% mejor que los enfoques anteriores.
AlphaStar – Starcraft II AI que supera a la Top pro players
Blog post e-sports-ish video por DeepMind (Google), 2019
Hemos recorrido un largo camino desde los históricos partidos Go entre Lee Sedol y el AlphaGo de DeepMind sacudieron el mundo, que fue hace apenas 3 años en 2016 (echa un vistazo al documental de NetFlix que hizo llorar a algunas personas). Entonces, fue aún más sorprendente que AlphaZero en 2017 fuera mejor que AlphaGo en Go (y mejor que cualquier otro algoritmo en ajedrez, shogi AKA, ajedrez japonés, etc.) a pesar de no utilizar ningún dato de entrenamiento de partidas humanas. Pero AlphaStar en 2019 es aún más más increíble.
Siendo fan de StarCraft desde 1998, puedo apreciar cómo “… la necesidad de equilibrar los objetivos a corto y largo plazo y adaptarse a situaciones inesperadas … plantea un gran desafío ”. Es realmente un juego difícil y complejo que requiere comprensión en múltiples niveles para jugar bien. La investigación sobre algoritmos de juego de Starcraft ha estado en curso desde 2009.
AlphaStar esencialmente utilizó una combinación de aprendizaje supervisado (de partidas humanas) y aprendizaje de refuerzo (jugando contra sí mismo) para lograr sus resultados.
Robots de entrenamiento de humanos
Enseñanza de tareas a máquinas con una sola demostración humana
Artículo / video por los investigadores de NVIDIA, 2018
Puedo pensar en 3 enfoques típicos para enseñar a los robots a hacer algo, pero todos toman una mucho tiempo / trabajo:
- Programe manualmente las rotaciones de la articulación del robot, etc. para cada situación
- Deje que el robot intente la tarea muchas, muchas veces (aprendizaje por refuerzo)
- Demuestre una tarea al robot muchas, muchas veces
Por lo general, una crítica importante del aprendizaje profundo es que es muy costoso producir los millones de ejemplos (datos) que hacen que la computadora funcione bien. Pero cada vez más, hay formas de no depender de datos tan costosos.
Los investigadores descubrieron la forma en que un brazo robot puede realizar una tarea con éxito (como “recoger los bloques y apilarlos para que estén en el orden” : bloque rojo, bloque azul, bloque naranja “) basado en un solo video de una demostración humana solo (una mano humana real que mueve los bloques), incluso si el video fue filmado desde un ángulo diferente. El algoritmo en realidad genera una descripción legible por la persona de la tarea que planea hacer, lo cual es excelente para la resolución de problemas. El algoritmo se basa en la detección de objetos con estimación de pose, generación sintética de datos de entrenamiento y transferencia de simulación a realidad.
Traducción automática no supervisada
Publicación en el blog de Facebook AI Research, 2018
Por lo general, se necesita un enorme conjunto de datos de capacitación de documentos traducidos (p. ej., traducciones profesionales de los procedimientos de las Naciones Unidas) para hacer una traducción automática (es decir, aprendizaje supervisado ). Por supuesto, muchos temas y pares de idiomas no tienen datos de capacitación abundantes y de alta calidad. En este documento, los investigadores demostraron que es posible utilizar el aprendizaje no supervisado (es decir, no utilizar datos de traducción y solo utilizar corpuses de texto no relacionados en cada idioma), es posible alcanzar la calidad de traducción del estado de la -art supervisado enfoques de aprendizaje. Wow.
La idea básica es que, en cualquier idioma, ciertas palabras / conceptos tenderán a aparecer cerca (por ejemplo, “furry” y “cat”). Describen esto como “incrustaciones de palabras en diferentes idiomas comparten una estructura de vecindario similar”. Quiero decir, está bien, se me ocurre la idea, pero aún es sorprendente que con este enfoque puedan alcanzar una calidad de traducción tan alta sin capacitación en conjuntos de datos de traducción.
Cierre
Espero que este post te haya entusiasmado más con los desarrollos en ML / AI, si es que aún no lo has hecho. Tal vez escribiré otra publicación similar en un año a partir de ahora. Siéntase libre de dejar cualquier comentario / comentario aquí o envíeme un correo electrónico a jerrychi123 [at] gmail.com.
¡Qué momento para estar vivo! = D
Bio : Jerry Chi tiene experiencia en ciencia de datos, aprendizaje automático, ingeniería de datos y estrategia en industrias digitales.
Original . Publicado de nuevo con permiso.
Recursos:
Relacionados: