Regresión Ridge en Aprendizaje automático

Como ya hay más que suficientes artículos sobre Regresión lineal aquí, no escribiré sobre eso una vez más. En lugar de eso, escribiré sobre un tipo de regresión normalizada, la Regresión de Ridge, que resuelve el problema del exceso de datos.

Motivación para la Regresión de Ridge

El modelo de regresión lineal se obtiene mediante la siguiente ecuación:

 Y = Σ WⱼHⱼ (Xᵢ )

 Aquí, 
 Σ  va de  j = 0  a  j = D  donde D es el número total de funciones. 
 Wⱼ  es el  jᵗʰ  coeficiente 
 Hⱼ  es la función  jᵗʰ  función que lleva  Xᵢ  observación 
 Xᵢ  es la [194590008] iᵗʰ  observación

La ecuación anterior da el valor predicho, siempre que sepamos los valores de W coeficientes.
Para simplificar, denotemos la ecuación anterior mediante 𝔽 ( X ) donde X es la observación.

La función de costo del modelo de Regresión Lineal se da mediante la siguiente ecuación:

 Función de costo =  RSS (W) = Σ [Yᵢ — 𝔽(Xᵢ)] ² 
 Aquí, 
 Σ  va desde  i = 0  i [N] donde  N  es el número total de observaciones. 
 Yᵢ  es el valor conocido de  iᵗʰ  observación. 
 𝔽 (Xᵢ)  da la valor predicho de  iᵗʰ observación .

 RSS significa Residual Sum of Squares

La función de costo siempre funciona en el conjunto de datos de entrenamiento.

La idea general del modelo de regresión lineal gira en torno a minimizar lo anterior Valor de la función de costo. Baje el valor de la función de costo, mejor el modelo de regresión lineal.

En general, para disminuir la función de costo, aumentamos el número de funciones en nuestro modelo. A medida que seguimos aumentando las características en el modelo, el modelo comienza a ajustarse bien al conjunto de datos de entrenamiento y el valor de la función de costo comienza a disminuir.

Pero, con un aumento en el número de características; nuestras ecuaciones se convierten en una ecuación polinomial de orden superior; y lleva a un exceso de ajustes de los datos.

¿Por qué el ajuste excesivo de los datos es malo?
En un modelo demasiado ajustado, el error de entrenamiento se vuelve casi cero, lo que hace que el modelo funcione perfectamente en el conjunto de datos de entrenamiento. Pero, ¿ese modelo funciona perfectamente en conjuntos de datos que no sean conjuntos de datos de entrenamiento como datos del mundo exterior real?
En general, se ve que un modelo sobre ajustado tiene peor desempeño en el conjunto de datos de prueba, y también se observa que el modelo sobre ajustado tiene peor desempeño nuevo conjunto de datos de prueba adicionales también.

Datos demasiado ajustados y peor desempeño en el conjunto de datos de prueba. Fuente

En el gráfico anterior, podemos ver que el modelo superpuesto funciona bien en el conjunto de datos de entrenamiento y la función de costo es cero para el conjunto de datos de entrenamiento.

Pero cuando probamos este modelo con el conjunto de datos de prueba en el gráfico arriba, el modelo no está funcionando bien en absoluto. Para los datos de prueba, el modelo predice valores erróneos que están lejos de los valores correctos reales. Esto es suficiente para etiquetar este modelo como no apto para su uso en la industria.

¿Cómo detectar el sobreacuerdo?
Al visualizar el modelo (como el de arriba), se puede ver fácilmente el sobreajuste en el modelo (observe cómo el modelo encaja bien conjunto de datos de entrenamiento). Pero a medida que aumenta la complejidad de nuestro modelo, adquiere una dimensión más alta, lo que dificulta la visualización en gráficos (o alguna otra herramienta).

En lugar de intentar visualizar el modelo siempre, también podemos ver el sobreajuste al ver el valor de los coeficientes. ( W ). Generalmente, cuando se produce un sobreajuste, los valores de estos coeficientes se vuelven muy grandes.

La regresión de la cresta se usa para cuantificar el exceso de ajuste de los datos a través de la medición de la magnitud de los coeficientes.

Para solucionar el problema del sobreajuste, necesitamos equilibrar dos cosas :
1. En qué medida la función / modelo se ajusta a los datos.
2. Magnitud de coeficientes.

 Entonces, 
 Función de costo total = Medida de ajuste del modelo + Medida de magnitud de coeficiente

 Aquí, 
 Medida de ajuste del modelo = RSS (W) 
 Medida de magnitud del coeficiente = || W || ²

 Si la Medida de ajuste del modelo es un valor pequeño, significa que el modelo se ajusta bien a los datos. 
 Si la Medida de la magnitud del coeficiente es un valor pequeño que significa modelo

  Función de costo total = RSS (W) + λ * || W || ²

 Hemos agregado  λ  en la función de costo total como parámetro de ajuste para equilibrar el ajuste de los datos y la magnitud de los coeficientes.

Cálculo del descenso gradual de la regresión Ridge

Costo de la regresión Ridge = RSS (W) + λ * || W || ² = (Y – WH) * (Y – WH ) + WW

En notación matricial se escribirá como:
Costo de regresión de cresta = (Y – HW) ᵗ (Y – HW) + WᵗW

Gradiente de graduación de la ecuación anterior (diferenciación):

 Δ [RSS(W) + λ||W||] ² 
 = Δ {(Y - HW) ᵗ (Y - HW)} + λ Δ {WᵗW}

 = -2Hᵗ (Y - HW) + 2λW

Ajustando el gradiente anterior a 0 obtener

 W = (HᵗH + λI) -¹HᵗY

Por lo tanto, conocemos los valores de W coeficientes.

¿Cómo elegir el valor λ?

Los datos dados Establecer en tres conjuntos:
1. Set de entrenamiento
2. Conjunto de validación
3. Conjunto de pruebas

*División de datos en tres conjuntos diferentes*

Conjunto de entrenamiento
Este conjunto de datos se utilizará para obtener el valor de los coeficientes W cada valor de λ. Supongamos que el valor de W coeficientes ‘para cada valor de λ valor sea W λ.

Conjunto de validación
Los diferentes valores de W λ se evaluará en el conjunto de validación. El que tenga menor valor de error será seleccionado.

Test Set
El valor seleccionado de W coeficientes ‘será evaluado nuevamente por el conjunto de datos de prueba.

El método anterior se usa solo si hay suficiente cantidad de datos presente.

Y así es como finalmente se selecciona el valor de λ. El proceso es una especie de fuerza bruta. Pero con las suposiciones y la experiencia inteligentes, las iteraciones para adivinar el valor de λ pueden reducirse.

Conclusión

Hemos visto por qué el sobrealimentación es malo en el aprendizaje automático y cómo se identifica en el modelo al observar el modelo W valores de los coeficientes. Luego vimos una nueva función de costo para la regresión lineal que toma en cuenta el ajuste excesivo de datos con el parámetro de ajuste λ.

Luego vimos la fórmula para calcular los valores de W con respecto a la nueva función de costo y cómo elegir el valor para λ.