Uso de modelos de aprendizaje automático para recomendar a los transportistas aéreos Parte II

Uso de modelos de aprendizaje automático para recomendar compañías aéreas – Parte II

¿Cómo AI está cambiando la industria de la aviación?

No hay una solución mágica cuando se trata de resolver un problema utilizando modelos de aprendizaje automático. Todavía tengo que encontrar un modelo que sirva como un modelo para todos. Por lo tanto, es altamente recomendable utilizar múltiples modelos para cualquier problema en el que esté trabajando y evaluar por qué un modelo en particular funciona mejor que otros. Consulte parte I de mi blog para obtener detalles sobre el conjunto de datos utilizado.

En esta publicación del blog, mi objetivo es demostrar que se encuentra una solución para recomendar tasas de cancelación futuras para las aerolíneas más confiables que utilizan varios modelos de aprendizaje automático y discuten los pros y los contras de cada uno de estos modelos.

Creación de conjuntos de datos de pruebas y trenes

Figura 1: Creación de conjuntos de datos de trenes de prueba utilizando el método train_test_split en sci-kit learn.

Lo haré utilice los siguientes modelos para el problema de clasificación actual:

Regresión logística
Máquinas de vectores de soporte
Árbol de decisión
Bosque aleatorio

Regresión logística: Contraria a su nombre, se utiliza la regresión logística para el problema de tipo de clasificación donde la variable dependiente es dicotómica (binario / categórico). Calcula la probabilidad de presencia de la característica de interés.

logit (p) = ln (probabilidad de presencia de característica / probabilidad de ausencia de característica)

En lugar de elegir parámetros que minimicen la suma de errores cuadrados en regresión lineal, la estimación en regresión logística elige parámetros que maximizan la probabilidad de observar valores muestrales.

La Figura 4 muestra cómo se crea una instancia de la clase de regresión logística y se utiliza el método de “ajuste” en las variables independientes (X_train) y las variables dependientes (y_train). Obtenemos una puntuación de precisión de ~ 83%. Este es un puntaje de precisión bastante bajo y tratemos de entender por qué el rendimiento de este modelo es tan bajo.