Con los algoritmos de aprendizaje automático de LassoCV, RidgeCV y Regresión lineal.
En este post, lo guiaré por el proceso científico de mis datos para utilizando el aprendizaje automático para predecir los precios de la vivienda. Antes de comenzar, me gustaría resumir el proceso de la ciencia de datos:
Defina el problema
Reúna los datos
Limpie y explore los datos
Modele los datos
Evalúe el modelo
Responda la problema
Defina el problema
Se me asignó la tarea de crear un modelo de aprendizaje automático para predecir el precio de una vivienda usando el conjunto de datos de viviendas Ames de Kaggle. Queriendo hacer que el problema de la ciencia de los datos sea más realista, agregué la necesidad de mejorar la precisión Zestimate de Zillow (clasificación por estrellas) para áreas como Ames con 3 estrellas (Good Zestimate). Esto se debería a un supuesto aumento en el tráfico web del usuario hacia las propiedades con una estimación de 3 estrellas Zestimates.
Recolecte los datos
El conjunto de datos contenía información de la Oficina del Asesor que se usó para calcular los valores evaluados para propiedades residenciales individuales vendidas en Ames, IA de 2006 a 2010. El conjunto de datos contenía 2051 filas y 81 columnas (características) de información. Estos datos fueron recopilados y proporcionados por Kaggle. Si no me hubieran proporcionado los datos, mi método de recopilación habría sido hacer una investigación para ver si estaba disponible públicamente o bajarla mediante la API de Zillow.
Limpiar y explorar los datos
A continuación, realicé la limpieza de mis datos. y análisis exploratorio. Para el primero, verifiqué y tomé decisiones sobre valores nulos y errores de entrada de datos. Para este último, visualicé los datos para ver y comprender mejor las relaciones y distribuciones.
A continuación se muestran dos visualizaciones de mi variable objetivo, Precio de venta. Quería entender su distribución.