¿Qué es la regresión lineal?, En cualquier negocio hay algunas variables fáciles de medir, como Edad, Género, Ingresos, Nivel de Educación, etc. y hay algunas variables difíciles de medir, como la cantidad de préstamo a otorgar.
El número de días que un paciente permanecerá en el hospital, precio de la casa después de 10 años, etc. Entonces Regresión es la técnica que le permite determinar variables difíciles de medir con la ayuda de variables fáciles de medir.
Recomendado: ¿Qué es la regresión lineal? Parte: 1
Regresión lineal: una de las técnicas de regresión :
“La regresión lineal es un campo de estudio que enfatiza la relación estadística entre dos variables continuas conocidas como Predictor y Variables de respuesta “.
(Nota: cuando hay más de una variable predictora, entonces se convierte en regresión lineal múltiple).
- La variable predictora se denota con mayor frecuencia como x y también se conoce como variable independiente.
- La variable de respuesta es más frecuente. denotado como y y también conocido como variable dependiente.
Entendámoslo con la ayuda de un ejemplo en R. Hay un conjunto de datos incorporado “automóviles” disponibles en R que contiene 50 pares de puntos de datos para la velocidad (millas por hora mph) frente a la distancia de frenado (pies), que se recopiló en 1920.
Tomé una captura de pantalla de los primeros 25 puntos de datos para darle una idea del conjunto de datos:
En el conjunto de datos anterior, si vemos cuidadosamente encontrará que para diferentes autos para la misma velocidad hay diferentes distancias de frenado.
Podría haber múltiples factores para esto. Algunos factores podrían ser diferentes condiciones climáticas, calidad de los neumáticos, modal del automóvil, calidad de la carretera, tráfico, etc.
Para comprender la regresión lineal, vamos a evitar todos los demás factores y nos concentraremos solo en la velocidad del automóvil.
Por lo tanto, nuestro objetivo es encontrar si existe alguna relación lineal entre la velocidad y la distancia de frenado y trazar esa relación y luego predecir la distancia de frenado promedio para todos los puntos de datos.
Podemos obtener cierta intuición acerca de la relación al observar la Covarianza y Coeficientes de correlación de la siguiente manera:
Covarianza :
cov (cars_data $ dist, cars_data $ speed) # covarianza
## [1] 109.9469
La covarianza entre la distancia y la velocidad es 109,9469. Su valor es positivo, lo que nos dice que las variables se mueven juntas en la misma dirección. (Opuestos entre sí en caso de valor negativo).
Correlación:
Para conocer la fuerza de cómo las variables se mueven juntas, la covarianza está estandarizada a la cantidad adimensional, correlación. El coeficiente de correlación r es un número entre -1 y +1 que nos dice qué tan bien se ajusta una línea (de regresión) a los datos.
cor (cars_data $ speed, cars_data $ dist) # Correlation
## [1] 0.8068949
-
- El coeficiente de correlación de la Velocidad del automóvil y la Distancia es 0.8068949.
-
- Dado que el valor está cerca de 1 y tiene un signo + ve, podemos concluir que las variables están positivamente correlacionadas.
Artículo recomendado: Covarianza y correlación en detalle Visualicemos el conjunto de datos dibujando el diagrama de dispersión .
-
- Variable independiente (variable de predicción) – Velocidad (mph) – trazada en el eje X .
-
- Variable dependiente (variable de respuesta) – Distancia de frenado (pies) – trazada en el eje Y.
plot(cars_data$speed,cars_data$dist,xlab="Speed in miles per hour",ylab="Distance in feet",main="Stopping Distance Vs. Speed", col= "blue")
Regresión lineal: Observaciones del diagrama de dispersión:
El punto de marca roja, hay múltiples distancias de frenado para la misma velocidad. Esto podría ser posible debido a diferentes automóviles, diferentes carreteras, diferentes condiciones climáticas, etc.
-
- Entonces, si tomamos el promedio de todos esos puntos en la marca roja, entonces nos dará la distancia de frenado promedio en ese punto, pero ¿y si queremos Conozca la distancia de frenado en la marca amarilla. No tenemos ningún dato dado en este punto amarillo.
-
- Entonces, en lugar de centrarnos en cualquier punto local, si tomamos todo el punto y de alguna manera imputamos el valor medio en el punto marcado con amarillo que estaría deteniendo la distancia en ese punto.
Cómo hacer esto, si dibujamos una línea recta a través de todos los puntos de datos que darán la media muestral de la distancia de frenado en función de la velocidad.
Esta ecuación lineal se verá como y = m * x + c m: pendiente yc: intercepción en y Entonces, si cambiamos myc, nos dará todas las líneas posibles que podemos dibujar.
Para llegar a la conclusión necesitamos encontrar los valores óptimos de pendiente m e intersección c que producirán la mejor línea de ajuste. Entonces, comprendamos cuál es la línea de mejor ajuste.
Regresión lineal: Best Fit Line o linea de mejor ajuste
Entonces, se podría decir que la línea que pasa por la mayoría de los puntos de datos es la mejor línea de ajuste.
Pero ahora, si vemos en la figura 01, ¿debemos decir que es la mejor línea?
No. si recordamos nuestros días en la escuela secundaria y se nos pidió que dibujáramos la línea de mejor ajuste, dibujaremos una línea similar a la línea naranja en la figura 02.
Cómo nuestro cerebro lo reconoce como una línea de mejor ajuste. Y sorprendentemente no pasa por ninguno de los puntos de datos.
Entonces, cómo se dibuja?, quizás uniendo los puntos que minimiza la distancia de todos los puntos de datos.
Comprendamos algunas matemáticas detrás de esto.
-
- y es el valor real del punto de datos x.
-
- ŷ = m * x + c (ŷ se lee como y-hat, que es el valor predicho del punto de datos x usando algunos myc que estamos tratando de averiguar)
La diferencia y – ŷ es un término de error o también llamado como error residual. Considerando todos los puntos de datos, esto sería Σ (y (i) – ŷ (i)).
Esto se conoce como la distancia promedio de todos los puntos de datos, que debe minimizarse, pero minimizando a qué nos referimos.
¿Consideramos también los valores negativos de los errores, y en caso afirmativo, si dos puntos de datos tienen errores como +2 y -2, se cancelarán al sumarlos para calcular el error total?
Entonces, la mejor manera de minimizar el error residual es minimizar la suma del error al cuadrado que es:
Ahora hay dos incógnitas my c. entonces, usando el cálculo si tomamos las derivadas parciales relativas a m y c y las ponemos iguales a 0 y resolvemos las dos ecuaciones obtendremos la pendiente m de la siguiente manera:
donde xbar es la media de los valores de x e ybar es la media de y valores. La intersección c se puede calcular colocando los puntos (xbar, ybar) en la ecuación y = m * x + c en lugar de x e y, como sabemos, la línea de mejor ajuste pasará por los puntos medios de x e y esos son xbar e ybar.
Y el valor de m ya está calculado. Este método de ajustar la mejor línea se llama Regresión de mínimos cuadrados Sin embargo, en la práctica, no necesitamos calcular todo esto manualmente.
Por suerte tenemos R funciones incorporadas para hacerlo. veamos esas funciones:
-
- La función lm se usa para ajustar modelos lineales
LinearReg = lm(dist ~ speed, data = cars_data)
coefficients(LinearReg)
## (Intercept) speed
## -17.579095 3.932409
## c = -17.579095
## m = 3.932409
## Summary of the linear model:
summary(LinearReg)
## Call:
## lm(formula = dist ~ speed, data = cars_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -29.069 -9.525 -2.272 9.215 43.201
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -17.5791 6.7584 -2.601 0.0123 *
## speed 3.9324 0.4155 9.464 1.49e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 15.38 on 48 degrees of freedom
## Multiple R-squared: 0.6511, Adjusted R-squared: 0.6438
## F-statistic: 89.57 on 1 and 48 DF, p-value: 1.49e-12
Tracemos el mejor ajuste utilizando la función integrada de la siguiente manera:
plot(cars_data$speed,cars_data$dist,xlab="Speed in miles per hour",ylab="Distance in feet",main="Stopping Distance Vs. Speed: Best fit line", col= "blue")
abline(LinearReg,col="steelblue",lty=1,lwd=4) # The function adds straight line to a plot
Entonces, a partir de la línea de mejor ajuste anterior, podemos determinar la distancia de frenado para cualquier punto de datos a partir de los datos de la población.
La regresión lineal es una técnica muy poderosa para predecir el valor de una variable de respuesta cuando hay una relación lineal entre dos variables continuas.