Machine Learning tiene una amplia gama de aplicaciones para el sector de la energía. Una muy emocionante es extraer información sobre el comportamiento de consumo de electricidad. La forma en que un individuo o familia usa energía durante el día también se conoce como “huella digital de energía”.
En este artículo, le mostraré cómo encontrar patrones comunes en los perfiles de carga diaria de un solo hogar con el K -means algoritmo de agrupamiento.
El conjunto de datos contiene 2075259 mediciones recogidas entre diciembre de 2006 y noviembre de 2010 (47 meses). Usted puede encontrarlo aquí .
Primero, preparemos los datos listos para K-means
https://medium.com/media/7c0ab905f16f06047526172592304f1c/href
Se puede ver algunos patrones claros de comportamiento energético al observar las regiones más oscuras (donde se concentran más curvas).
Agrupación con K-means
K-means es un algoritmo de aprendizaje automático no supervisado en el que se debe definir el número de clusters a priori. Esto deja la pregunta de cuántos conglomerados elegir.
Un método común para abordar esto es usar el valor de la silueta. Es una medida de cuán similar es un punto para su propio clúster en comparación con otros clústeres. Va de -1 a 1, donde un valor alto indica que un punto tiene una buena coincidencia con el clúster al que pertenece.
Tomamos el promedio de la silueta en todas las muestras para tener una visión global de cómo el algoritmo está funcionando.
Experimento con un rango de números de clúster (de 2 a 19). Es importante escalar cada período dentro del mismo rango para que la magnitud de la carga de energía no interfiera en la selección del clúster.
https://medium.com/media/2506f01fd636a0f542b705fc48315c96/href
El máximo silueta promedio se produce cuando hay solo 2 grupos. Echemos un vistazo a cómo se ven cuando se trazan por separado:
La principal diferencia entre las cargas en ambos clusters parece ser el consumo de energía durante las horas de la tarde. El clúster 0 probablemente contenga cargas referentes a los días laborables, cuando las personas se van durante el día para trabajar, mientras que el grupo 1 contiene cargas los fines de semana.
Validación de resultados con t-SNE
Una forma de validar los resultados del algoritmo de agrupamiento es utilice una forma de reducción de dimensionalidad para trazar los puntos en un plano 2D. Luego, podemos colorear los puntos de acuerdo con el grupo al que pertenecen.
Un algoritmo popular para este propósito se llama t-SNE. El funcionamiento interno del algoritmo está más allá del alcance de este artículo, pero se puede encontrar una muy buena explicación aquí .
Lo que hay que tener en cuenta es que t-SNE no sabe nada sobre los clusters.
https://medium.com/media/831f7d2af1babea4661313069defe9ec/href
En la gráfica anterior, cada punto representa un diario cargar perfil. Las muestras se redujeron de 24 dimensiones a 2. Los puntos que están muy juntos parecen coincidir con los conglomerados asignados por el algoritmo k-means. ¡Esto es una buena señal!
Conclusión y trabajo adicional
En este artículo, le mostré cómo agrupar los perfiles de carga diarios con el algoritmo de k-medias. Utilizamos la puntuación de silueta para encontrar la cantidad óptima de clústeres y t-SNE para validar los resultados.
En cuanto a los próximos pasos, podríamos probar diferentes algoritmos de agrupamiento. Scikit-learn tiene muchos de ellos para explorar. Algunos no requieren elegir la cantidad de clusters a priori.
Otra aplicación interesante sería extender este modelo a diferentes hogares y encontrar un comportamiento similar de consumo de energía en todas las familias.
¡Espero que lo hayan disfrutado! Si tiene algún comentario y / o sugerencia, no dude en ponerse en contacto conmigo.
Agrupamiento de perfiles de electricidad con K-means fue publicado originalmente en Towards Data Science en Medium, donde las personas continúan la conversación destacando y respondiendo a esta historia.