* e-mail ([email protected])
XVIII ERIAC DÉCIMO OITAVO ENCONTRO
REGIONAL IBERO-AMERICANO DO CIGRE
MODELAMIENTO DE CURVAS TÍPICAS DE DEMANDA ELÉCTRICA EN REDES DE DISTRIBUCION
R. ALARCÓN* M. SAMPER G.E CORIA
Instituto de Energía – UNSJ
- CONICET
Instituto de Energía – UNSJ
- CONICET
Instituto de Energía – UNSJ
- CONICET
Argentina Argentina Argentina
Resumen – En esta investigación se propone desarrollar un procedimiento para la estimación de
curvas típicas diarias de demanda eléctrica, analizando registros de tele-medición de usuarios finales en
función de la estacionalidad del año y los tipos de días de la semana. Dicha estimación se realiza agrupando
los datos de series temporales multivariables. La metodología se basa en el cálculo del grado de similitud
entre los conjuntos de datos de series de tiempo, representados por el consumo promedio diario del usuario.
El algoritmo jerárquico de agrupamiento dinámico de linealidad en el tiempo o DTW (Dinamic Time
Warping, por sus siglas en inglés) se emplea para encontrar patrones similares entre los perfiles
individuales de los usuarios. DTW permite obtener grupos homogéneos que definen el comportamiento del
consumidor. El algoritmo K-means vuelve a formar clusters con los grupos similares obtenidos por el
algoritmo DTW evidenciando diferencias y semejanzas en características eléctricas.
Palabras clave: Perfil de carga – demanda eléctrica – series de tiempo, – análisis de clúster–
iInstrucciones – preprocesamiento.
1 INTRODUCCIÓN
El constante crecimiento de las redes eléctricas y la evolución de los medidores inteligentes (MI) [1] permite
contar con grandes volúmenes de datos de consumo eléctrico. Estos conjuntos de datos, tomados
normalmente cada 15 minutos o 1 hora, aumentan la cantidad de información disponible sobre el uso de
energía y permite hacer análisis que antes no eran posibles. En particular, esta información sobre los patrones
de demanda diaria, posibilita una evaluación temporal del uso de la electricidad, lo cual es importante porque
tiene el potencial de revelar información sobre el consumo eléctrico. Los hábitos de consumo de los usuarios,
la influencia estacional y tecnológica sobre ese consumo es información valiosa que se obtiene del estudio y
la aplicación de diferentes técnicas computacionales de Big data, data mining y machine learning sobre las
mediciones históricas almacenadas en distintas fuentes. El proceso de extracción de la información de los
datos o KDD (Knowledge Discovery in Databases, por sus siglas en inglés) [2], brinda a las empresas
herramientas que facilitan o permiten el cálculo de pérdidas técnicas, determinación de tarifas, transferencias
de carga, planificación a largo plazo y facilidades en la operación de las redes de distribución; identificando
a los candidatos idóneos para la respuesta a la demanda y la mejora de la modelización del perfil energético.
Con el objetivo de extraer información que pueda caracterizar costumbres de usuarios y estimar
comportamiento del uso de la energía, se desarrolla en esta investigación una metodología para clasificar
usuarios teniendo en cuenta sus hábitos de consumo. Para ello se definen curvas de carga típicas de cada
cliente y grupos de clientes junto con sus respectivas curvas de demanda. Dicha clasificación se realiza
utilizando métodos de agrupamientos, siendo estos una herramienta eficaz para analizar datos estáticos o
series de tiempo, como el uso de electricidad [3]. En [4]-[5], existen diversos agrupamientos aplicados en los
sistemas de potencia.
Como caso de aplicación, para el desarrollo de esta investigación, se cuenta con mediciones de consumo
cada 15 minutos durante las 24 horas del día por un período de un año y medio de 400 usuarios de la ciudad
de Córdoba - Argentina. En la primera etapa se realiza la organización y limpieza, normalización,
integración y eliminación de valores atípicos que forman parte del preprocesamiento de la información [6].
19 a 23 de maio de 2019
Comitê de Estudos C6- Sistema de distribución y generación dispersa.
C6.18 Foz do Iguaçu, Brasil
2
En esta etapa se calculan los promedios y se normalizan los datos de consumo promedios diarios que serán
utilizados en los métodos de agrupamiento.
Una vez procesados los datos de entrada, se aplica el algoritmo DTW, donde se hace un agrupamiento que
evidencia la similitud de la forma entre las curvas sin importar los instantes de tiempo de las mediciones. Los
perfiles de carga que comparten el mismo cluster permiten obtener las curvas características de cada grupo.
Los conglomerados son nuevamente clusterizados por el algoritmo k- means [7], teniendo en cuenta la
energía promedio diaria y la potencia máxima de los consumidores. La combinación de estos algoritmos
permite obtener una curva de carga representativa para un grupo de usuarios y clasificar relativamente los
consumidores dentro de cada clúster. Estos métodos de análisis son implementados utilizando el entorno
libre del software Python.
2 MÉTODOS DE AGRUPAMIENTOS
2.1 K-Means
El algoritmo K- Means es uno de los métodos particionales no supervisado más utilizado en el análisis de
datos, propuesto por MacQueen en el año 1968 [8]. Existen muchos estudios en los cuales se aplica dicho
algoritmo sobre mediciones de perfiles de carga de usuarios finales de energía eléctrica[9][10][11][12]. Este
método está basado en el análisis de las varianzas y agrupa un conjunto de datos en un número predefinido
de cluster. El algoritmo K- Means, comienza con un conjunto aleatorio de centroides de cada uno de los
clusters y continúa reasignando los datos del conjunto a los centroides más cercanos, basándose en la
distancia euclidiana. El proceso de reasignación no se detiene hasta que se converge al criterio de parada, el
cual se puede alcanzar con un número fijo de iteraciones definido previamente o cuando los clusters
encontrados se mantiene invariantes luego de cierto número de iteraciones.
Funcionamiento del algoritmo k Means.
1. Selecciona un conjunto aleatorio de centroides iniciales.
2. Asigna cada elemento del conjunto de datos al centroide más cercano.
3. Recalcula los centroides usando:
|
|∑
( 1 )
Donde t es la iteración, x representa un elemento del conjunto de datos que pertenece al cluster ;
es un centroide y |
|corresponde al número de elementos en el cluster .
4. Repetir los pasos 2 y 3 hasta que se alcance la condición de parada.
Una desventaja de este algoritmo es que el resultado obtenido es dependiente de la selección inicial de
los centroides de los clusters y puede converger a óptimos locales [13]. Por lo tanto, la selección de los
centroides iniciales afecta el proceso principal de K-means y la partición resultante de este proceso. En la
actualidad existen técnicas alternativas, que podrían refinar la selección de los centroides iniciales del
cluster obteniendo mejores resultados.
2.2 Deformación Dinámica en el Tiempo DTW.
DTW es una técnica popular para la comparación de series temporales. Con esta técnica no solo se consigue
el valor de la disimilitud entre dos series, sino que además se obtiene el alineamiento óptimo entre ellas,
emparejándolas de forma no lineal mediante contracciones y dilataciones de las series en el eje temporal. Por
consiguiente, este emparejamiento permite encontrar regiones equivalentes entre las series y hallar su
similitud.
Para alinear dos series temporales, P y Q, usando DTW, primeramente, se construye una matriz . El i-
ésimo elemento de la matriz contiene la distancia entre dos puntos y . La distancia
euclidiana es la típicamente usada para calcular su alineamiento:
3
( 2 )
El valor obtenido al calcular la distancia local expresa el efecto de alinear los puntos y de las
series. Un camino W distorsionado es un conjunto de elementos de la matriz que definen una
correspondencia entre P y Q.
( 3 )
Respecto a la longitud del camino encontrado por el algoritmo se cumple que:
( 4 )
Donde el camino distorsionado W debe cumplir las siguientes restricciones:
1. Restricción de frontera:
2. Restricción de monotonía:
3. Restricción de continuidad: +1.
La Fig. 1. –(a) muestra dos series temporales, P y Q, con formas similares pero desfasadas en el tiempo. El
emparejamiento entre los puntos de cada serie usando DTW permite detectar desfasajes en el tiempo (ver
Fig. 1.-(b)). Cada punto de la serie P es conectado con el punto más similar posible en la serie Q mediante
una línea recta que los une.
Fig. 1. –(a) Dos series temporales y con formas
similares pero desfasadas en el tiempo.
Fig. 1. –(b) El emparejamiento entre los puntos de
cada serie usando DTW.
Para el cálculo de DTW [14], se necesita obtener un camino W (ver Fig. 2), tal que la distancia global de
datos sea mínima. Esto se calcula mediante la siguiente ecuación:
{
√∑
}
( 5 )
Donde se define en la ecuación 6.
( 6 )
Fig. 2. Matriz M donde se forma el camino W mínimo para los alineamientos de las series P y Q
Es importante destacar que este algoritmo es considerado actualmente el más usado para la clasificación de
series temporales.
4
3 Características y procesamiento del dataset.
Los datos originales para este caso de estudio se encuentran almacenados en tablas, divididas en cientos de
archivos CSV. Estas tablas contienen una amplia información sobre consumos, dirección y tipo de servicio
de los consumidores de la ciudad de Córdoba - Argentina, para el período comprendido entre enero de 2016
y agosto de 2017.
3.1 Procesamiento de los datos.
El procesamiento de datos está formado por una serie de técnicas que tienen el objetivo de inicializar
correctamente los datos que servirán de entrada para los algoritmos de minería de datos. Las medias
aritméticas de los segmentos de tiempo individuales son el punto de partida para la formación de los perfiles
de carga característicos individuales. En el caso de los patrones de consumo volátiles, la media aritmética no
representa adecuadamente el comportamiento de los clientes. Para hacer frente a este problema, en este
trabajo se emplea una técnica de segmentación de días de análisis (día de la semana, temporada), propuesta
en[15]. Este enfoque de segmentación permite separar los conjuntos de datos sin procesar en subconjuntos
más homogéneos, identificando perfiles de carga característicos para seis escenarios de agrupamiento
(semana, día de la semana, fin de semana) y estacionalidad (verano, invierno, intermedio) (Ver Fig. 3).
Los archivos CSV son leídos individualmente y se inicia un proceso de transformación, en el cual se realiza
limpieza de la hoja de cálculo, descartando celdas nulas o que contengan datos erróneos y definiendo los
atributos que serán útiles para el proceso de agrupamiento.
En función de las mediciones del caso de aplicación, se cuenta con 96 lecturas de consumo para cada
consumidor a lo largo del día, tomados a intervalos de 15 min. Con el motivo de reducir la dimensionalidad
del problema, estas mediciones se transforman en consumos horarios para obtener 24 lecturas durante el día.
Para construir las series temporales que representan el consumo diario de cada cliente, se calculan los
promedios de la energía consumida por hora, dentro del escenario en cuestión. Los valores representativos de
cada hora presentan un alto grado de dispersión debido a la alta estocasticidad de los usuarios (ver Fig.4), de
modo que se definen intervalos de confianza de manera individual sobre las distribuciones que determinan el
promedio de consumo horario. Esto permite la eliminación de datos atípicos eliminando solo el 0.0001% del
total de la distribución (ver Fig. 5).
Fig. 3. Escenarios de análisis.
Fig. 4.Gráfica de caja, promedio
energía horaria de un usuario x.
Fig. 5. Gráfica de cajas sin datos
atípicos de usuario x.
Una vez procesados los datos se tienen el dataset de entrada para el desarrollo de los algoritmos de
agrupamiento. Finalmente, se visualizan y discuten los resultados.
4 Visualización y evaluación de los resultados.
El presente trabajo de investigación, fue desarrollado para la estación de verano considerando los días
hábiles y no hábiles del período de estudio (dos escenarios) sobre mediciones de 400 usuarios. Las siguientes
figuras muestran que el enfoque de agrupamiento utilizado facilita la segmentación homogénea de clientes,
basada en la demanda de cada uno de ellos. En las agrupaciones obtenidas por ambos métodos se observa la
curva de carga típica de color rojo que representa el comportamiento promedio del usuario clasificado dentro
del cluster. La gráfica de puntos muestra una clasificación de los perfiles dentro de cada cluster haciendo una
división por grupos, para la cual se tienen en cuenta dos atributos de los usuarios: la demanda máxima y la
energía promedio consumida durante el día. Esto permite diferenciar usuarios que tienen igual
comportamiento, pero están en distintos grupos tarifarios por sus características eléctricas. De esta manera es
5
posible identificar grupos de clientes con perfiles de carga similares que pueden ser segmentados por su
demanda máxima y por el consumo de energía promedio diario.
Escenario de verano para días hábiles.
6
Escenario de verano para días no hábiles.
7
En el escenario de análisis correspondiente a la estación verano para días hábiles, se identificaron 16 grupos
de perfiles de carga simillares con un umbral de 0.9 para el agrupamiento jerárquico. En contraste con el
escenario de los días de fines de semana que presentaron mayor diversidad con una métrica de agrupamiento
de 1.2 para un total de 18 grupos. En todos los casos para el agrupamiento no supervisado k- means se
calculó el índice Silhoutte[16] el cual se encontró en la mayoría de los casos entre 0.4 y 0.6 por lo que se
pudo considerar que el agrupamiento fue correcto. De las simulaciones realizadas, se determinó el tipo de
cliente y se demostró que el análisis de clusters de datos provenientes de medición inteligente puede facilitar
un análisis más detallado en cuanto a la caracterización del cliente. Por ejemplo, los grupos 4, 10 y 13 del
escenario verano hábil exhiben un pico de consumo en horas del mediodía y comienza a crecer en horas de la
noche hasta alcanzar el pico máximo, lo cual corresponde con el comportamiento propio de un cliente
residencial. En grupos como el 1 y 2 del escenario de días no hábiles, resulta un desafío hacer una distinción
clara sobre dichos perfiles de carga, debido a que pueden pertenecer a clientes distintos con mucha variación
en su consumo diario. Bajo estas circunstancias, agregar información de otros sistemas a los datos de
consumo puede permitir una mejoría en la diferenciación de estos grupos.
5 CONCLUSIONES
En este trabajo se ha presentado la implementación de un enfoque de conglomerados para distintos usuarios,
que poseen medición inteligente, permitiendo así, poder clasificarlos en función de sus hábitos de consumo.
El procesamiento realizado y la utilización de los datos de consumo de clientes que cuentan con medidores
inteligentes brinda a las compañías eléctricas herramientas que faciliten su operación.
Una de las conclusiones más importantes que se desprende de los análisis realizados, es que los grupos
encontrados muestran gran semejanza que resulta de mucha utilidad dada la integración directa con la
tecnología de la información. Por otro lado, se pudo demostrar que existen grupos que pueden tener el mismo
perfil de carga, pero presentar niveles de consumos muy distintos, lo cual es una característica útil para
diferenciar usuarios que poseen la misma forma de consumo. Fue posible, además, encontrar grupos que
presentan diferencias apreciables, lo que nos da una idea de la existencia de usuarios con comportamientos
muy particulares.
Finalmente, es importante aclarar que en este trabajo solo se tuvieron en cuenta mediciones de consumo, sin
embargo, la integración de dichas mediciones con fuentes de datos adicionales, como pueden ser datos
demográficos y socioeconómicos, permitiría respaldar aún más estas de técnicas de agrupamiento y lograr
niveles más altos de eficiencia. Es por este motivo, que en trabajos futuros se pretende realizar un algoritmo
de aprendizaje que combine propiedades socioeconómicas de los usuarios con su comportamiento típico ante
8
los distintos escenarios planteados, y de esta manera realizar clasificaciones de mayor robustez sobre un
dataset con mayor volumen de información.
6 REFERENCIAS
[1] D.-W.-I. C. Flath, D.-W.-I. D. Nicolay, D. T. Conte, P. D. C. van Dinther, and D. L. Filipova-
Neumann, “Cluster Analysis of Smart Metering Data,” Bus. Inf. Syst. Eng., vol. 4, no. 1, pp. 31–39,
2012.
[2] J. P. Jiawei Han, Micheline Kamber, Data Mining – Concepts & Techniques. 2011.
[3] T. Warren Liao, “Clustering of time series data - A survey,” Pattern Recognit., vol. 38, no. 11, pp.
1857–1874, 2005.
[4] C. Beckel, L. Sadamori, T. Staake, and S. Santini, “Revealing household characteristics from smart
meter data,” Energy, vol. 78, no. October 2014, pp. 397–410, 2014.
[5] G. Chicco, “Overview and performance assessment of the clustering methods for electrical load
pattern grouping,” Energy, vol. 42, no. 1, pp. 68–80, 2012.
[6] S. García, J. Luengo, and F. Herrera, Data Preprocessing in Data Mining, vol. 72. 2015.
[7] M. J. L. de Hoon, S. Imoto, J. Nolan, and S. Miyano, “Open source clustering software,”
Bioinformatics, vol. 20, no. 9, pp. 1453–1454, Jun. 2004.
[8] J. MacQueen, “Some Methods for classification and Analysis of Multivariate Observations,” 5th
Berkeley Symp. Math. Stat. Probab. 1967, vol. 1, no. 14, pp. 281–297, 1967.
[9] M. N. Q. Macedo, J. J. M. Galo, L. A. L. Almeida, and A. C. C. Lima, “Typification of load curves
for DSM in Brazil for a smart grid environment,” Int. J. Electr. Power Energy Syst., vol. 67, pp. 216–
221, 2015.
[10] F. McLoughlin, A. Duffy, and M. Conlon, “A clustering approach to domestic electricity load profile
characterisation using smart metering data,” Appl. Energy, vol. 141, pp. 190–199, 2015.
[11] A. Al-Wakeel and J. Wu, “K-means Based Cluster Analysis of Residential Smart Meter
Measurements,” Energy Procedia, vol. 88, pp. 754–760, Jun. 2016.
[12] I. Benítez, J. L. Díez, A. Quijano, and I. Delgado, “Dynamic clustering of residential electricity
consumption time series data based on Hausdorff distance,” Electr. Power Syst. Res., vol. 140, pp.
517–526, 2016.
[13] S. Z. Selim and M. A. Ismail, “K-Means-Type Algorithms: A Generalized Convergence Theorem and
Characterization of Local Optimality,” IEEE Trans. Pattern Anal. Mach. Intell., vol. PAMI-6, no. 1,
pp. 81–87, 1984.
[14] T. Fu, “A review on time series data mining,” Eng. Appl. Artif. Intell., vol. 24, no. 1, pp. 164–181,
Feb. 2011.
[15] Z. Ramos, S., & Vale, “Data Mining techniques to support the classification of MV electricity
customers.,” IEEE Power Energy Soc. Gen. Meet. - Convers. Deliv. Electr. Energy 21st Century.,
2008.
[16] J. M. Luna-Romera, M. del Mar Martínez-Ballesteros, J. García-Gutiérrez, and J. C. Riquelme-
Santos, “An Approach to Silhouette and Dunn Clustering Indices Applied to Big Data in Spark,” vol.
3501, no. September, B. Kégl and G. Lapalme, Eds. Berlin, Heidelberg: Springer Berlin Heidelberg,
2016, pp. 160–169.