Regularización y sobreajuste en Aprendizaje automático

http://www.discovery.com/tv-shows/mythbusters/about-this-show/physics-of-seesaws/

Voy a dar una comprensión intuitiva del método de Regularización con palabras tan simples como sea posible . Primero, discutiré algunas ideas básicas, así que si crees que ya eres una familia con ellas, siéntete libre de seguir adelante.

Un modelo de liner

Un modelo de liner es el que sigue una línea recta en el modelo de predicción . Puede tener un solo atributo para predecir el valor, o múltiples atributos para predecir el valor, y la ecuación se ve así:

Aquí theta-0 es el intercepto y theta-1 a theta-n son los pendientes correspondientes a su atributo X-1 a Xn.

Función de costo

Inclinación de la máquina: Función de costo y descenso de gradiente

La función de costo determina la diferencia que hay entre su hipótesis predicha h (x) y los puntos reales . Ya que primero estamos considerando un modelo de revestimiento, veamos cómo se ve en un gráfico.

Uno que solo tiene dos puntos y otro que tiene muchos puntos. Sin embargo, ¿cree que un modelo de liner o una línea de luz estelar puede representar datos que se parecen a esto?

Podría haber tantas posibilidades para ajustar una línea recta en este tipo de conjunto de datos. Por lo tanto, comenzamos a usar una ecuación polinomial de la forma que se muestra a continuación:

Lo que hace es comenzar a formar una línea curva que puede representar mejor los puntos de datos en comparación con una línea recta. Cuando solo teníamos una theta, eso significa que solo teníamos una pendiente de la dirección y, por lo tanto, tenemos una línea recta, pero si tenemos muchas tetas significa que hay muchas pendientes y, por lo tanto, nuestra línea puede cambiar de dirección de muchas maneras diferentes. Vea la imagen a continuación.

https://www.originlab.com/index.aspx?go=Products/Origin/DataAnalysis/CurveFitting

La forma en que queremos que nuestra función de costo sea mínima en caso de línea recta, también queremos que sea mínimo en el caso de una línea polinomial.
Usamos el gradiente descendente para ajustar la mejor línea posible al actualizar continuamente todas las tetas que tenemos en nuestra ecuación.

¿Para qué necesitamos la Regularización? [19659017] Respuesta – Para evitar que el modelo se adapte excesivamente.

https://medium.com/greyatom/what-is-superpuede-y-sopero-confeccionar-machine-learning-and-how-to-deal- with-it-6803a989c76

Underfitted : Vemos que la línea hipotética que dibujamos no sigue realmente la misma tendencia que los puntos. De esta manera, nuestro modelo no ofrece una imagen detallada de nuestros datos.
Solución: Haga una ecuación polinomial que cree una línea curva en lugar de una línea recta.

Goodfitted : mediante el uso de una ecuación polinomial , agrega complejidad a la línea que puede tomar diferentes tipos de formas, mientras que, si tiene una sola variable, diga ‘X’ y predice ‘Y’, entonces solo está creando una sola línea.

Overfitting : Si usted sabe que al hacer que su ecuación sea polinomial puede configurarla para que coincida con sus puntos de datos, sin embargo, si está configurando una línea hipotética en la medida en que trata de pasar cada punto de datos posible, entonces dice que su modelo es overfit.
¿Por qué crea un problema? Porque cuando tuvieras que predecir algo en el futuro, tu modelo no estaría seguro de a dónde se moverá la línea, ya que no generaliza todo el modelo, sino más bien puntos de datos individuales.
Solución: Regularización

Regularización

Como sabemos, cambiando la pendiente podemos cambiar la dirección de la línea y sabemos que nuestro modelo tiene demasiada precisión, por lo que sugeriría eliminar el grado más alto. ¿Términos del final de la ecuación? No.

¿Qué sucede si mantiene todos los términos de mayor grado pero manipula la pendiente asociada con cada término? Recuerde que cada término significa un atributo en su conjunto de datos, por ejemplo, x1 – ventas, x2 – ganancias, x3 – gastos, etc.

¿Cómo hacemos eso?

Con la ayuda del método llamado regularización, usted aumenta el valor de los términos asociados con cada pendiente (theta) a un valor más alto y la pendiente asociada a cada término se reducirá a un valor más bajo. Tenga en cuenta que no estamos eliminando los términos de mayor grado, estamos aumentando su valor para penalizar su pendiente.

1- Si la pendiente es 1, entonces para cada cambio de unidad en x, habrá una unidad. cambio en y. La ecuación será “y = mx + c”, donde m = 1, por lo tanto y = x.

2- Si la pendiente es 2, la ecuación será y = 2x + c. El significado para el cambio de media unidad, en x, y cambiará en una unidad. Por lo tanto, para un valor menor de x tenemos una pendiente mayor.

3- Si la pendiente es 0.5, entonces la ecuación es y = 0.5x + c. El significado de cambio de 2 unidades en x, y cambiará en 1 unidad. Por lo tanto, cuanto mayor sea el valor de x, menor será la pendiente.

Esto significa que la pendiente y los valores de las variables asociadas con él son inversamente proporcionales. En consecuencia, tiene sentido aumentar el valor de los atributos ‘x’ para moldear su pendiente de modo que no se adapten a los datos.

Resumen

En palabras simples, cuando introduce Lambda en la ecuación, el El modelo se generaliza y da una imagen más amplia del conjunto de entrenamiento. Si no fuera por esa lambda, el modelo trataría de adaptarse a todos y cada uno de los puntos del conjunto de entrenamiento y, por lo tanto, fallará durante la fase de prueba porque no sabría a dónde ir a continuación una vez que aparezcan nuevos datos.

Aprendizaje automático: Regularización y adaptación sencilla Explicado se publicó originalmente en Hacia la ciencia de datos en Medio, donde las personas continúan la conversación destacando y respondiendo a esta historia.