Uso de modelos de aprendizaje automático para recomendar a los transportistas aéreos Parte II

Uso de modelos de aprendizaje automático para recomendar compañías aéreas – Parte II

¿Cómo AI está cambiando la industria de la aviación?

No hay una solución mágica cuando se trata de resolver un problema utilizando modelos de aprendizaje automático. Todavía tengo que encontrar un modelo que sirva como un modelo para todos. Por lo tanto, es altamente recomendable utilizar múltiples modelos para cualquier problema en el que esté trabajando y evaluar por qué un modelo en particular funciona mejor que otros. Consulte parte I de mi blog para obtener detalles sobre el conjunto de datos utilizado.

En esta publicación del blog, mi objetivo es demostrar que se encuentra una solución para recomendar tasas de cancelación futuras para las aerolíneas más confiables que utilizan varios modelos de aprendizaje automático y discuten los pros y los contras de cada uno de estos modelos.

Creación de conjuntos de datos de pruebas y trenes

Figura 1: Creación de conjuntos de datos de trenes de prueba utilizando el método train_test_split en sci-kit learn.

Lo haré utilice los siguientes modelos para el problema de clasificación actual:

  1. Regresión logística
  2. Máquinas de vectores de soporte
  3. Árbol de decisión
  4. Bosque aleatorio

Regresión logística: Contraria a su nombre, se utiliza la regresión logística para el problema de tipo de clasificación donde la variable dependiente es dicotómica (binario / categórico). Calcula la probabilidad de presencia de la característica de interés.

logit (p) = ln (probabilidad de presencia de característica / probabilidad de ausencia de característica)

En lugar de elegir parámetros que minimicen la suma de errores cuadrados en regresión lineal, la estimación en regresión logística elige parámetros que maximizan la probabilidad de observar valores muestrales.

Figura 2: Regresión logística. Fuente
Figura 3: Regresión logística. Fuente

La Figura 4 muestra cómo se crea una instancia de la clase de regresión logística y se utiliza el método de “ajuste” en las variables independientes (X_train) y las variables dependientes (y_train). Obtenemos una puntuación de precisión de ~ 83%. Este es un puntaje de precisión bastante bajo y tratemos de entender por qué el rendimiento de este modelo es tan bajo.

Figura 4: Uso del conjunto de datos de entrenamiento de regresión logística.
Figura 5: Aplicación del modelo de regresión logística en el conjunto de datos de prueba. 19659003] En la Fig. 5 anterior, obtenemos una puntuación de precisión de ~ 84% en el conjunto de datos de prueba. La gráfica de la matriz de correlación a continuación (Fig. 6) muestra que el modelo de regresión logística no toma en cuenta la columna “Mes” mientras predice las cancelaciones. Esto tal vez explica por qué el rendimiento de este modelo es tan bajo.

Figura 6: Factor de conducción detrás del bajo rendimiento del modelo de regresión logística.

Pros vs. contr:

  1. La regresión logística es una generalizada lineal modelo, por lo que no podemos resolver problemas no lineales con este modelo, ya sea un profesional o una contra, depende del tipo de problema que intenta resolver.
  2. La computación es increíblemente sencilla debido a la combinación lineal de parámetros y los vectores de entrada.
  3. La salida puede interpretarse como una probabilidad; así que puedes usarlo para clasificar en lugar de clasificar.
  4. Los árboles generalmente tienen más dificultades para encontrar probabilidades calibradas.
  5. Sufre la multicolinealidad.

Máquinas de vectores de soporte: SVM es un modelo ML muy potente y versátil. , capaz de resolver problemas de tipo lineal, no lineal, de regresión o incluso de detección atípica. Es uno de los modelos más populares en ML. La desventaja es que SVM funciona solo para conjuntos de datos de tamaño pequeño o mediano.

Figura 7: Máquinas de vectores de soporte, también conocida como clasificación de margen grande.

El clasificador de SVM intenta encajar en la calle más amplia posible entre diferentes clases (representada por un rectángulo azul) en la figura 7). Esto se llama clasificación de gran margen. La línea negra a la izquierda de la Fig. 7 separa bien las dos clases pero sin el margen más grande (también conocido como calle / hiperplano), como en el lado derecho. Tenga en cuenta que agregar más instancias “fuera de la calle” no afectará en absoluto el límite de la decisión. El límite de decisión está completamente determinado por las instancias en el borde de la calle. Estas instancias se denominan vector de soporte, de ahí el nombre de máquina de vectores de soporte.

Figura 8: Creación de instancias de la clase SVC.

Dado que estamos trabajando con un conjunto de datos razonablemente más pequeño (solo 6000 instancias), el cálculo es relativamente sencillo. El modelo SVM tiene una precisión de ~ 99.9%.

A diferencia de la Regresión logística, los clasificadores SVM no generan probabilidades para cada clase.

Contras:

  1. Puede ser muy ineficiente entrenar este modelo. No se recomienda para grandes conjuntos de datos.
  2. Los SVM son sensibles al escalado de características, las características que tienen una escala mucho más pequeña en comparación con el resto de las características en un conjunto de datos serán ignoradas en la determinación de grandes márgenes.

Árboles de decisión: similares para SVM, Los árboles de decisión son ​​algoritmos ML muy versátiles que pueden realizar tanto tareas de clasificación como de regresión. Este es un algoritmo de tipo de diagrama de flujo donde cada nodo de decisión es seguido por una consecuencia.

Figura 9: Uso del modelo de árbol de decisión.
Figura 10: Árbol de decisión simple.

Pros contra contras:

  1. Una de las muchas cualidades de los árboles de decisión es que requieren muy poca preparación de datos. No requieren ningún tipo de escala o centrado.
  2. Este modelo es fácil de interpretar, explicar, fácil de usar, versátil y poderoso.
  3. Un árbol de decisión también puede estimar las probabilidades de que una instancia pertenezca a una clase en particular k : primero atraviesa el árbol para encontrar el nodo de hoja para esta instancia, y luego devuelve la proporción de instancias de entrenamiento de clase k en este nodo.
  4. El lado de un Árbol de Decisión es que son muy sensibles a pequeñas variaciones en los datos de entrenamiento. Tienden a ajustarse demasiado a los datos.

Tengo la extraña sensación de que el árbol de decisiones con 100% de precisión está sobre ajustando los datos aquí.

Bosque aleatorio: es un algoritmo de aprendizaje conjunto. Un grupo de predictores se llama un conjunto; La técnica se llama aprendizaje conjunto. Aquí se entrena a un grupo de clasificadores del Árbol de Decisión, cada uno en un subconjunto aleatorio diferente del conjunto de entrenamiento. Para hacer predicciones, podemos obtener las predicciones de todos los árboles individuales, y luego predecir la clase que obtenga la mayor cantidad de votos. Dicho conjunto de árboles de decisión se denomina bosque aleatorio.

El éxito del modelo de bosque aleatorio se puede explicar mediante Ley de grandes números . La explicación más simple es: toma una caja con 100 monedas justas. El valor esperado es de aproximadamente 50 cabezas y 50 colas en cualquier momento dado. Sin embargo, cuando sacudo la caja una vez, es posible que no obtenga el valor esperado. Pero el truco es hacer un conjunto de observaciones razonablemente grande al agitar el cuadro, de modo que el valor medio promedio del número de cabezas y cola se aproxime al valor esperado.

El bosque aleatorio no necesita basarse únicamente en los árboles de decisión como predictores únicos. Uno puede tener un conjunto diverso de clasificadores y predecir la clase que obtenga la mayoría de los votos, como se muestra en la Fig. 11.

Figura 11: Conjunto diverso de clasificadores. Fuente .

La Figura 12 muestra cómo se ejemplifica un clasificador aleatorio de bosques.

Figura 12: Clasificador aleatorio de bosques.

Ventajas y desventajas:

  1. Aleatorio el bosque no es un modelo fácil de interpretar visualmente a diferencia de los árboles de decisión.
  2. Fácil de usar en conjuntos de datos que pueden tener características que pueden estar correlacionadas.

Resumen

He demostrado el uso de varios modelos de ML en esta entrada de blog, junto con sus pros y sus contras. ¡Feliz ML a todos!

Dejá un comentario