Una solución Google AutoML para datos tabulares

Machine Learning (ML) para datos tabulares (por ejemplo, datos de hoja de cálculo). Es una de las áreas de investigación más activas tanto en investigación de ML como en aplicaciones empresariales. Las soluciones a los problemas de datos tabulares.

Como la detección de fraudes y la predicción de inventarios, son fundamentales para muchos sectores comerciales; incluidos el comercio minorista, la cadena de suministro, las finanzas, la fabricación, el marketing y otros.

Las soluciones actuales basadas en ML para estos problemas pueden ser logradas por aquellos con una experiencia significativa en ML.

Incluyendo la ingeniería de características manual y el ajuste de hiper-parámetros , para crear un buen modelo. Sin embargo; la falta de una amplia disponibilidad de estas habilidades limita la eficiencia de las mejoras comerciales a través de ML.

Los esfuerzos de Google AutoML tienen como objetivo hacer que el ML sea más escalable y acelerar las aplicaciones de investigación y de la industria.

Nuestros esfuerzos iniciales en la búsqueda de arquitectura neuronal han permitido avances en la visión por computador con NasNet.

Y los métodos evolutivos como AmoebaNet y la arquitectura de visión móvil sensible al hardware MNasNet muestran aún más el beneficio de estos métodos de aprendizaje para aprender. Recientemente, aplicamos un enfoque basado en el aprendizaje a los datos tabulares.

Creando una solución Google AutoML escalable de extremo a extremo que cumple tres criterios clave:

  • Automatización completa : los datos y los recursos de computación son las únicas entradas. Mientras que la salida es un modelo servible de TensorFlow. Todo el proceso no requiere intervención humana.
  • Amplia cobertura : la solución es aplicable a la mayoría de las tareas arbitrarias en el dominio de datos tabulares.
  • Alta calidad: los modelos generados por Google AutoML tienen una calidad comparable a los modelos creados manualmente por los mejores expertos de ML.

Para evaluar nuestra solución, ingresamos a nuestro algoritmo en KaggleDays SF Hackathon . Una competencia de 8,5 horas de 74 equipos con hasta 3 miembros por equipo, como parte del evento KaggleDays . La primera vez que Google AutoML compitió contra los participantes de Kaggle.

La competencia consistió en predecir defectos de fabricación. Dada la información sobre las propiedades del material y los resultados de las pruebas de lotes de piezas de automóviles. A pesar de competir contra los participantes, eso estaba en el nivel de maestría del sistema de progresión de Kaggle .

Incluidos muchos que estaban en el nivel de GrandMaster, nuestro equipo (“Google AutoML”) lideró durante la mayor parte del día y terminó en segundo lugar por un margen estrecho , como se ve. en la clasificación final .

La solución Google AutoML de nuestro equipo era una tubería TensorFlow de múltiples etapas. En una primera etapa es responsable de la ingeniería de características automática. La búsqueda de arquitectura y el ajuste de hiperparámetros a través de la búsqueda.

Los modelos prometedores de la primera etapa se incorporan a la segunda etapa, donde  se aplican la validación cruzada y la agregación bootstrap para una mejor selección de modelos. Los mejores modelos de la segunda etapa se combinan en el modelo final.

 

 

Google AutoML1
El flujo de trabajo para el equipo de “Google AutoML” fue bastante diferente del de otros competidores de Kaggle.

Mientras estaban ocupados analizando datos y experimentando con varias ideas de ingeniería de características. Nuestro equipo pasó la mayor parte del tiempo monitoreando trabajos y esperando que terminaran.

Nuestra solución para el segundo lugar en la tabla de clasificación final requirió 1 hora en 2500 CPU para terminar de extremo a extremo.

Después de la competencia, Kaggle publicó un kernel público para investigar las soluciones ganadoras y descubrió que aumentar los mejores modelos diseñados a mano con modelos Google AutoML.

Como el nuestro, podría ser una forma útil para que los expertos en ML creen sistemas con un rendimiento aún mejor. Como puede verse en la gráfica a continuación:

Google AutoML tiene el potencial de mejorar los esfuerzos de los desarrolladores. Y abordar una amplia gama de problemas de LD.

 

Google AutoML1

Potencial mejora de la calidad del modelo en la tabla de clasificación final si los modelos Google AutoML se fusionaran con otros modelos de Kagglers. “Erkut & Mark, Google AutoML”, incluye los modelos ganadores “Erkut & Mark” y el segundo lugar “Google AutoML”. Erkut Aykutlug y Mark Peng utilizaron XGBoost con ingeniería de funciones creativas , mientras que Google AutoML usa tanto la red neuronal como el árbol de aumento de gradiente ( TFBT ) con ingeniería de funciones automática y ajuste de hiperparámetros.

Cloud Google AutoML Tables

La solución que presentamos en las competiciones es el algoritmo principal de Cloud Google AutoML Tables , que se lanzó recientemente (beta) en Google Cloud Next ’19 La implementación de Google AutoML Tables con regularidad se desempeña bien en pruebas comparativas contra competiciones de Kaggle.

Como se muestra en el diagrama a continuación, que demuestra el rendimiento de vanguardia en toda la industria:
Google AutoML3
Punto de referencia de terceros de AutoML Tables en múltiples competiciones de Kaggle

También la optimización de la conversión de clientes potenciales mediante tablas Google AutoML. Y estamos encantados de proporcionar nuestros modelos de última generación para resolver problemas de datos tabulares.

Estamos entusiasmados con la aplicación potencial de los métodos Google AutoML en una amplia gama de problemas empresariales reales. Los clientes ya han aprovechado sus datos empresariales tabulares para abordar tareas de misión crítica como la gestión de la cadena de suministro.

Dejá un comentario