MixMatch, Aumento de datos no supervisados y el enfoque PATE
Como estudiante de antropología que estudia una licenciatura en ciencias de la computación, me gustaría hacer mi mejor esfuerzo para entender este desarrollo y sus consecuencias.
Podría haberlo implementado. Sin embargo, primero tenemos que analizar el aspecto práctico de los cambios y las técnicas que permiten un posible enfoque viable de aprendizaje semiprotegido.
Luego pasaré a algunas técnicas que se combinan, y posiblemente pueda cambiar la forma en que abordamos esta área dentro del aprendizaje automático.
Este es el último día de mis tres días analizando tres preguntas.
Día uno: cómo está ¿Google es un pionero en el campo de la IA? (Hecho ✓)
Día tres: ¿Cómo es que la revolución silenciosa en SSL está cambiando la industria?
Hoy día, el último día, escribiré sobre la Revolución silenciosa semi-supervisada . Comenzaré con cómo se acuñó el término; práctica común anterior; y cómo está cambiando el panorama SSL. Luego de lo cual procederé a concluir en breve.
¿Quién acuñó la revolución silenciosa semi supervisada?
El 15 de mayo, el Científico Principal en Google Vincent Vanhoucke publicó un artículo llamado Revolución tranquila semi-supervisada . Por lo que sé, esta es la primera mención de los cambios en SSL utilizados de esta manera.
Comienza hablando de los problemas anteriores de aprendizaje semi supervisado o Semi-Supervised Learning (SSL). Con el acceso a una gran cantidad de datos, supervisión limitada y muchos datos sin etiquetar, SSL parece una solución obvia.
Presenta su opinión sobre el gráfico que más a menudo resulta de experimentos con supervisado y semi-supervisado.
Un ingeniero de aprendizaje automático, según Vanhoucke, realiza un viaje que termina una copia de seguridad en el aprendizaje supervisado que se muestra en este gráfico.
Sin embargo, sigue esto y dice:
Una tendencia fascinante es que el panorama del aprendizaje semi supervisado puede estar cambiando a algo, que se parece más a esto:
¿Cual era la práctica común antes?
SSL se describe como un agujero de conejo para los ingenieros casi como un rito de pasaje solo para volver a los datos etiquetado Anteriormente, según Vanhoucke, la práctica común era:
… primero aprender un auto-codificador en datos sin etiquetar, seguido de un ajuste fino en los datos etiquetados. Ya casi nadie hace esto porque las representaciones aprendidas a través de la codificación automática tienden a limitar empíricamente el rendimiento asintótico del ajuste fino.
Entonces, ¿qué es un codificador automático? Desglosemos esto.
Autoencoder es un tipo de red neuronal artificial que se utiliza para aprender codificaciones de datos eficientes de manera no supervisada.
El objetivo de un autocodificador es aprender una representación (codificación) para un conjunto de datos, generalmente para la reducción de la dimensionalidad entrenando a la red para ignorar el “ruido” de la señal.
Junto con el lado de reducción, se aprende un lado de reconstrucción, donde el autocodificador intenta generar a partir de la codificación reducida una representación lo más cercana posible a su entrada original, de ahí su nombre.
- Dimensionalidad del espacio de entrada . Espacios de alta dimensión (100s o 1000s). El volumen del espacio aumenta tanto que los datos se vuelven escasos. Cálculo de cada combinación de valores en un problema de optimización, por ejemplo. Si desea una inclinación arcana, este punto puede denominarse la Curse of dimensionality .
Asymptote se usa para referirse a una línea en matemáticas que es tangente a una curva en el infinito. La notación asintótica en complejidad computacional se refiere al comportamiento limitante de una función cuyo dominio y rango es Z +, es válido para valores de dominio que son mayores que un umbral particular.
Así, aquí aproximamos curvas con curvas. A menudo, preferiblemente la (s) curva (s) que buscamos que sigue la curva original de cerca.
- El rendimiento asintótico es una forma de comparar el rendimiento del algoritmo. Podría abstraer detalles de bajo nivel (por ejemplo, código de ensamblaje exacto); investigar el comportamiento de escala (¿qué es mejor en entradas realmente grandes?). Rendimiento asintótico: a medida que aumenta el tamaño de la entrada, ¿cómo crece el tiempo de ejecución?
Vanhoucke afirma:
… incluso los métodos generativos modernos muy mejorados no han mejorado mucho esa imagen, probablemente porque lo que hace que un buen modelo generativo no sea necesariamente Lo que hace un buen clasificador. Como resultado, cuando se ven modelos de afinación de ingenieros en la actualidad, generalmente se empieza a partir de representaciones que se aprendieron en datos supervisados …
¿Qué son los métodos generativos?
El aprendizaje generativo es una teoría que involucra la integración activa de nuevas ideas con los esquemas existentes del alumno.
La idea principal del aprendizaje generativo es que, para aprender con comprensión, el aprendiz tiene que construir un significado activamente. Un modelo generativo solo se aplica a los métodos probabilísticos.
En la clasificación estadística, incluido el aprendizaje automático, dos enfoques principales se denominan generativo y el enfoque discriminativo. Los clasificadores generativos (distribución conjunta) se muestran debajo:
¿Qué está cambiando el panorama de SSL?
Ayer escribí un artículo llamado Google AI y Developments in Semi-Supervised Learning. El artículo primero pasó por una explicación aprendizaje no supervisado, aprendizaje supervisado y aprendizaje por refuerzo.
Luego continuó con una explicación del aprendizaje semi supervisado (SSL) y cómo se está investigando sobre SSL con el aumento de datos no supervisados (UDA). Como tal, si no está familiarizado con estos términos, puede ser prudente saltarse a ese artículo.
De todos modos, hay algunos avances que mencionan el cambio hacia una mayor viabilidad de SSL.
Estos tres prevalentes que usted puede querer revisar:
- Combinando métodos para mayor precisión . MixMatch: un enfoque holístico para el aprendizaje semipresupuesto
- Aborde mejor los datos no etiquetados con el aumento de datos no supervisados
- Manteniendo la privacidad . Enfoque PATE ( Transferencia de conocimiento semi-supervisada para el aprendizaje profundo a partir de datos de entrenamiento privado Aprendizaje privado escalable con PATE
Hay nuevas formas inteligentes de etiquetar automáticamente los datos y expresar pérdidas que son más compatibles con el ruido y los posibles sesgos del autoetiquetado.
Dos trabajos recientes que coinciden con los dos primeros puntos ejemplifican el progreso reciente y apuntan a la literatura relevante: MixMatch: Un enfoque holístico para el aprendizaje semi supervisado y Datos no supervisados Aumento.
En el artículo de MixMatch, introducen MixMatch un algoritmo SSL que propone una única pérdida que unifica los enfoques dominantes del aprendizaje semi supervisado.
A diferencia de los métodos anteriores MixMatch se enfoca en todas las propiedades a la vez, lo que nos lleva a los siguientes beneficios:
- En un experimento, muestran que MixMatch obtiene resultados de vanguardia en todos los estándares de imagen estándar
(sección 4.2), por ejemplo, obteniendo una tasa de error de 11.08% en CIFAR-10
con 250 etiquetas (en comparación con el siguiente método que alcanzó el 38%). - Muestran en un estudio de ablación que MixMatch es mayor
- Demuestran que MixMatch es útil para el aprendizaje privado diferencial, permitiendo a los estudiantes en el marco PATE obtener nuevos resultados de vanguardia que
fortalecen simultáneamente las garantías de privacidad proporcionadas y la precisión
La regularización de la coherencia
Aplica el aumento de datos al aprendizaje semi supervisado aprovechando la idea de que un clasificador debe generar la misma distribución de clase para un ejemplo sin etiquetar incluso después de haber sido aumentado.
MixMatch utiliza una forma de regularización de consistencia mediante el uso de aumento de datos estándar para imágenes (tirones horizontales aleatorios y cultivos).
MixMatch
Es un enfoque “holístico” que incorpora ideas y componentes de los paradigmas dominantes para SSL.
MixMatch fue presentado por los miembros del equipo Google Brain como un método de aprendizaje semi supervisado que combina ideas y componentes de los paradigmas dominantes actuales para el aprendizaje semi supervisado.
A través de experimentos extensos en el aprendizaje semi supervisado y preservando la privacidad. , encontramos que MixMatch exhibió un rendimiento significativamente mejorado en comparación con otros métodos en todos los entornos que estudiaron, a menudo por un factor de reducción de dos o más en la tasa de error.
En un trabajo futuro, están interesados en incorporar ideas adicionales de los seminarios. supervisó el aprendizaje de la literatura en métodos híbridos y continúa explorando qué componentes resultan en algoritmos efectivos.
Separa Por lo tanto, la mayoría del trabajo moderno sobre algoritmos de aprendizaje semi supervisados se evalúa en puntos de referencia de imagen; están interesados en explorar la efectividad de MixMatch en otros dominios.
SSL con UDA
Como en la práctica es mucho más fácil obtener datos sin etiquetar que datos etiquetados, a menudo nos encontramos con una
situación en la que existe una gran brecha entre la cantidad de datos sin etiquetar y la de los datos etiquetados.
Para que UDA pueda aprovechar la mayor cantidad de datos sin etiquetar, generalmente necesitan una gran cantidad de datos.
modelo suficiente, pero un modelo grande puede fácilmente adaptar los datos supervisados de un tamaño limitado.
Para abordar
En esta dificultad, introducen una nueva técnica de entrenamiento llamada Training Signal Annealing (TSA) . La principal intuición detrás de la TSA es liberar gradualmente las señales de entrenamiento de los ejemplos etiquetados sin sobreajustarlas, ya que el modelo está entrenado en más y más ejemplos sin etiqueta.
Predicciones de afilado
Observamos que las distribuciones predichas en ejemplos sin etiqueta y ejemplos sin etiqueta aumentados
tienden a ser demasiado planas en todas las categorías, en los casos en que el problema es difícil y el número de personas etiquetadas
los ejemplos son muy pequeños.
Enmascaramiento basado en la confianza
Enmascarar ejemplos en los que el modelo no confía.
Aprendizaje privado escalable con PATE . Me basaré en un extracto del resumen del documento publicado el 24 de febrero de 2018:
La rápida adopción del aprendizaje automático ha aumentado la preocupación sobre las implicaciones de privacidad de los modelos de aprendizaje automático capacitados en datos confidenciales, como los médicos. registros u otra información personal. Para abordar esas inquietudes, un enfoque prometedor es la Agregación Privada de Conjuntos de Maestros, o PATE, que transfiere a un modelo de “estudiante” el conocimiento de un conjunto de modelos de “maestro”, con privacidad intuitiva proporcionada por maestros de formación sobre datos extraños y privacidad sólida garantizado por la agregación ruidosa de las respuestas de los maestros.
Conclusión
SSL con UDA es muy parecido a recrear de la memoria lo que acaba de ver para comprender la impresión visual en un sentido computacional. MixMatch combina muchos enfoques para hacer que SSL funcione mejor. PATE es necesario para mantener la privacidad.
SSL también puede proponer que se mantenga la privacidad cuando el aprendizaje tiene que estar basado en la necesidad de saberlo con datos que quizás no conozca (o que se le permita saber) de antemano.
Por lo tanto, una mayor precisión en este contexto es importante y puede mejorar la industria.
Este es el día 41 de # 500daysofAI.
Espero que hayas disfrutado de este artículo y recuerda darme tu opinión si tienes la oportunidad. Como mencioné en la introducción, hago todo lo posible por entender y escribo para aprender.
Te deseo lo mejor.
¿Qué es el # 500daysofAI?
Me reto a escribir y piense en el tema de la inteligencia artificial para los próximos 500 días con el # 500daysofAI. Aprender juntos es la alegría más grande, por favor, dame un comentario si sientes que un artículo resuena.
¿Cómo es la Revolución silenciosa en el aprendizaje semipresupuesto que está cambiando la industria? se publicó originalmente en Hacia la ciencia de datos en Medio, donde las personas continúan la conversación resaltando y respondiendo a esta historia.