Download - MODELAMIENTO DE CURVAS TÍPICAS DE DEMANDA ELÉCTRICA … Tecnicos/C6/C6.18_612.pdf · los datos de series temporales multivariables. La metodología se basa en el cálculo del grado

* e-mail ([email protected])

XVIII ERIAC DÉCIMO OITAVO ENCONTRO

REGIONAL IBERO-AMERICANO DO CIGRE

MODELAMIENTO DE CURVAS TÍPICAS DE DEMANDA ELÉCTRICA EN REDES DE DISTRIBUCION

R. ALARCÓN* M. SAMPER G.E CORIA

Instituto de Energía – UNSJ

- CONICET


- CONICET


- CONICET

Argentina Argentina Argentina

Resumen – En esta investigación se propone desarrollar un procedimiento para la estimación de

curvas típicas diarias de demanda eléctrica, analizando registros de tele-medición de usuarios finales en

función de la estacionalidad del año y los tipos de días de la semana. Dicha estimación se realiza agrupando

los datos de series temporales multivariables. La metodología se basa en el cálculo del grado de similitud

entre los conjuntos de datos de series de tiempo, representados por el consumo promedio diario del usuario.

El algoritmo jerárquico de agrupamiento dinámico de linealidad en el tiempo o DTW (Dinamic Time

Warping, por sus siglas en inglés) se emplea para encontrar patrones similares entre los perfiles

individuales de los usuarios. DTW permite obtener grupos homogéneos que definen el comportamiento del

consumidor. El algoritmo K-means vuelve a formar clusters con los grupos similares obtenidos por el

algoritmo DTW evidenciando diferencias y semejanzas en características eléctricas.

Palabras clave: Perfil de carga – demanda eléctrica – series de tiempo, – análisis de clúster–

iInstrucciones – preprocesamiento.

1 INTRODUCCIÓN

El constante crecimiento de las redes eléctricas y la evolución de los medidores inteligentes (MI) [1] permite

contar con grandes volúmenes de datos de consumo eléctrico. Estos conjuntos de datos, tomados

normalmente cada 15 minutos o 1 hora, aumentan la cantidad de información disponible sobre el uso de

energía y permite hacer análisis que antes no eran posibles. En particular, esta información sobre los patrones

de demanda diaria, posibilita una evaluación temporal del uso de la electricidad, lo cual es importante porque

tiene el potencial de revelar información sobre el consumo eléctrico. Los hábitos de consumo de los usuarios,

la influencia estacional y tecnológica sobre ese consumo es información valiosa que se obtiene del estudio y

la aplicación de diferentes técnicas computacionales de Big data, data mining y machine learning sobre las

mediciones históricas almacenadas en distintas fuentes. El proceso de extracción de la información de los

datos o KDD (Knowledge Discovery in Databases, por sus siglas en inglés) [2], brinda a las empresas

herramientas que facilitan o permiten el cálculo de pérdidas técnicas, determinación de tarifas, transferencias

de carga, planificación a largo plazo y facilidades en la operación de las redes de distribución; identificando

a los candidatos idóneos para la respuesta a la demanda y la mejora de la modelización del perfil energético.

Con el objetivo de extraer información que pueda caracterizar costumbres de usuarios y estimar

comportamiento del uso de la energía, se desarrolla en esta investigación una metodología para clasificar

usuarios teniendo en cuenta sus hábitos de consumo. Para ello se definen curvas de carga típicas de cada

cliente y grupos de clientes junto con sus respectivas curvas de demanda. Dicha clasificación se realiza

utilizando métodos de agrupamientos, siendo estos una herramienta eficaz para analizar datos estáticos o

series de tiempo, como el uso de electricidad [3]. En [4]-[5], existen diversos agrupamientos aplicados en los

sistemas de potencia.

Como caso de aplicación, para el desarrollo de esta investigación, se cuenta con mediciones de consumo

cada 15 minutos durante las 24 horas del día por un período de un año y medio de 400 usuarios de la ciudad

de Córdoba - Argentina. En la primera etapa se realiza la organización y limpieza, normalización,

integración y eliminación de valores atípicos que forman parte del preprocesamiento de la información [6].

19 a 23 de maio de 2019

Comitê de Estudos C6- Sistema de distribución y generación dispersa.

C6.18 Foz do Iguaçu, Brasil

2

En esta etapa se calculan los promedios y se normalizan los datos de consumo promedios diarios que serán

utilizados en los métodos de agrupamiento.

Una vez procesados los datos de entrada, se aplica el algoritmo DTW, donde se hace un agrupamiento que

evidencia la similitud de la forma entre las curvas sin importar los instantes de tiempo de las mediciones. Los

perfiles de carga que comparten el mismo cluster permiten obtener las curvas características de cada grupo.

Los conglomerados son nuevamente clusterizados por el algoritmo k- means [7], teniendo en cuenta la

energía promedio diaria y la potencia máxima de los consumidores. La combinación de estos algoritmos

permite obtener una curva de carga representativa para un grupo de usuarios y clasificar relativamente los

consumidores dentro de cada clúster. Estos métodos de análisis son implementados utilizando el entorno

libre del software Python.

2 MÉTODOS DE AGRUPAMIENTOS

2.1 K-Means

El algoritmo K- Means es uno de los métodos particionales no supervisado más utilizado en el análisis de

datos, propuesto por MacQueen en el año 1968 [8]. Existen muchos estudios en los cuales se aplica dicho

algoritmo sobre mediciones de perfiles de carga de usuarios finales de energía eléctrica[9][10][11][12]. Este

método está basado en el análisis de las varianzas y agrupa un conjunto de datos en un número predefinido

de cluster. El algoritmo K- Means, comienza con un conjunto aleatorio de centroides de cada uno de los

clusters y continúa reasignando los datos del conjunto a los centroides más cercanos, basándose en la

distancia euclidiana. El proceso de reasignación no se detiene hasta que se converge al criterio de parada, el

cual se puede alcanzar con un número fijo de iteraciones definido previamente o cuando los clusters

encontrados se mantiene invariantes luego de cierto número de iteraciones.

Funcionamiento del algoritmo k Means.

1. Selecciona un conjunto aleatorio de centroides iniciales.

2. Asigna cada elemento del conjunto de datos al centroide más cercano.

3. Recalcula los centroides usando:

|

|∑

( 1 )

Donde t es la iteración, x representa un elemento del conjunto de datos que pertenece al cluster ;

es un centroide y |

|corresponde al número de elementos en el cluster .

4. Repetir los pasos 2 y 3 hasta que se alcance la condición de parada.

Una desventaja de este algoritmo es que el resultado obtenido es dependiente de la selección inicial de

los centroides de los clusters y puede converger a óptimos locales [13]. Por lo tanto, la selección de los

centroides iniciales afecta el proceso principal de K-means y la partición resultante de este proceso. En la

actualidad existen técnicas alternativas, que podrían refinar la selección de los centroides iniciales del

cluster obteniendo mejores resultados.

2.2 Deformación Dinámica en el Tiempo DTW.

DTW es una técnica popular para la comparación de series temporales. Con esta técnica no solo se consigue

el valor de la disimilitud entre dos series, sino que además se obtiene el alineamiento óptimo entre ellas,

emparejándolas de forma no lineal mediante contracciones y dilataciones de las series en el eje temporal. Por

consiguiente, este emparejamiento permite encontrar regiones equivalentes entre las series y hallar su

similitud.

Para alinear dos series temporales, P y Q, usando DTW, primeramente, se construye una matriz . El i-

ésimo elemento de la matriz contiene la distancia entre dos puntos y . La distancia

euclidiana es la típicamente usada para calcular su alineamiento:

3

( 2 )

El valor obtenido al calcular la distancia local expresa el efecto de alinear los puntos y de las

series. Un camino W distorsionado es un conjunto de elementos de la matriz que definen una

correspondencia entre P y Q.

( 3 )

Respecto a la longitud del camino encontrado por el algoritmo se cumple que:

( 4 )

Donde el camino distorsionado W debe cumplir las siguientes restricciones:

1. Restricción de frontera:

2. Restricción de monotonía:

3. Restricción de continuidad: +1.

La Fig. 1. –(a) muestra dos series temporales, P y Q, con formas similares pero desfasadas en el tiempo. El

emparejamiento entre los puntos de cada serie usando DTW permite detectar desfasajes en el tiempo (ver

Fig. 1.-(b)). Cada punto de la serie P es conectado con el punto más similar posible en la serie Q mediante

una línea recta que los une.

Fig. 1. –(a) Dos series temporales y con formas

similares pero desfasadas en el tiempo.

Fig. 1. –(b) El emparejamiento entre los puntos de

cada serie usando DTW.

Para el cálculo de DTW [14], se necesita obtener un camino W (ver Fig. 2), tal que la distancia global de

datos sea mínima. Esto se calcula mediante la siguiente ecuación:

{

√∑

}

( 5 )

Donde se define en la ecuación 6.

( 6 )

Fig. 2. Matriz M donde se forma el camino W mínimo para los alineamientos de las series P y Q

Es importante destacar que este algoritmo es considerado actualmente el más usado para la clasificación de

series temporales.

4

3 Características y procesamiento del dataset.

Los datos originales para este caso de estudio se encuentran almacenados en tablas, divididas en cientos de

archivos CSV. Estas tablas contienen una amplia información sobre consumos, dirección y tipo de servicio

de los consumidores de la ciudad de Córdoba - Argentina, para el período comprendido entre enero de 2016

y agosto de 2017.

3.1 Procesamiento de los datos.

El procesamiento de datos está formado por una serie de técnicas que tienen el objetivo de inicializar

correctamente los datos que servirán de entrada para los algoritmos de minería de datos. Las medias

aritméticas de los segmentos de tiempo individuales son el punto de partida para la formación de los perfiles

de carga característicos individuales. En el caso de los patrones de consumo volátiles, la media aritmética no

representa adecuadamente el comportamiento de los clientes. Para hacer frente a este problema, en este

trabajo se emplea una técnica de segmentación de días de análisis (día de la semana, temporada), propuesta

en[15]. Este enfoque de segmentación permite separar los conjuntos de datos sin procesar en subconjuntos

más homogéneos, identificando perfiles de carga característicos para seis escenarios de agrupamiento

(semana, día de la semana, fin de semana) y estacionalidad (verano, invierno, intermedio) (Ver Fig. 3).

Los archivos CSV son leídos individualmente y se inicia un proceso de transformación, en el cual se realiza

limpieza de la hoja de cálculo, descartando celdas nulas o que contengan datos erróneos y definiendo los

atributos que serán útiles para el proceso de agrupamiento.

En función de las mediciones del caso de aplicación, se cuenta con 96 lecturas de consumo para cada

consumidor a lo largo del día, tomados a intervalos de 15 min. Con el motivo de reducir la dimensionalidad

del problema, estas mediciones se transforman en consumos horarios para obtener 24 lecturas durante el día.

Para construir las series temporales que representan el consumo diario de cada cliente, se calculan los

promedios de la energía consumida por hora, dentro del escenario en cuestión. Los valores representativos de

cada hora presentan un alto grado de dispersión debido a la alta estocasticidad de los usuarios (ver Fig.4), de

modo que se definen intervalos de confianza de manera individual sobre las distribuciones que determinan el

promedio de consumo horario. Esto permite la eliminación de datos atípicos eliminando solo el 0.0001% del

total de la distribución (ver Fig. 5).

Fig. 3. Escenarios de análisis.

Fig. 4.Gráfica de caja, promedio

energía horaria de un usuario x.

Fig. 5. Gráfica de cajas sin datos

atípicos de usuario x.

Una vez procesados los datos se tienen el dataset de entrada para el desarrollo de los algoritmos de

agrupamiento. Finalmente, se visualizan y discuten los resultados.

4 Visualización y evaluación de los resultados.

El presente trabajo de investigación, fue desarrollado para la estación de verano considerando los días

hábiles y no hábiles del período de estudio (dos escenarios) sobre mediciones de 400 usuarios. Las siguientes

figuras muestran que el enfoque de agrupamiento utilizado facilita la segmentación homogénea de clientes,

basada en la demanda de cada uno de ellos. En las agrupaciones obtenidas por ambos métodos se observa la

curva de carga típica de color rojo que representa el comportamiento promedio del usuario clasificado dentro

del cluster. La gráfica de puntos muestra una clasificación de los perfiles dentro de cada cluster haciendo una

división por grupos, para la cual se tienen en cuenta dos atributos de los usuarios: la demanda máxima y la

energía promedio consumida durante el día. Esto permite diferenciar usuarios que tienen igual

comportamiento, pero están en distintos grupos tarifarios por sus características eléctricas. De esta manera es

5

posible identificar grupos de clientes con perfiles de carga similares que pueden ser segmentados por su

demanda máxima y por el consumo de energía promedio diario.

Escenario de verano para días hábiles.

6

Escenario de verano para días no hábiles.

7

En el escenario de análisis correspondiente a la estación verano para días hábiles, se identificaron 16 grupos

de perfiles de carga simillares con un umbral de 0.9 para el agrupamiento jerárquico. En contraste con el

escenario de los días de fines de semana que presentaron mayor diversidad con una métrica de agrupamiento

de 1.2 para un total de 18 grupos. En todos los casos para el agrupamiento no supervisado k- means se

calculó el índice Silhoutte[16] el cual se encontró en la mayoría de los casos entre 0.4 y 0.6 por lo que se

pudo considerar que el agrupamiento fue correcto. De las simulaciones realizadas, se determinó el tipo de

cliente y se demostró que el análisis de clusters de datos provenientes de medición inteligente puede facilitar

un análisis más detallado en cuanto a la caracterización del cliente. Por ejemplo, los grupos 4, 10 y 13 del

escenario verano hábil exhiben un pico de consumo en horas del mediodía y comienza a crecer en horas de la

noche hasta alcanzar el pico máximo, lo cual corresponde con el comportamiento propio de un cliente

residencial. En grupos como el 1 y 2 del escenario de días no hábiles, resulta un desafío hacer una distinción

clara sobre dichos perfiles de carga, debido a que pueden pertenecer a clientes distintos con mucha variación

en su consumo diario. Bajo estas circunstancias, agregar información de otros sistemas a los datos de

consumo puede permitir una mejoría en la diferenciación de estos grupos.

5 CONCLUSIONES

En este trabajo se ha presentado la implementación de un enfoque de conglomerados para distintos usuarios,

que poseen medición inteligente, permitiendo así, poder clasificarlos en función de sus hábitos de consumo.

El procesamiento realizado y la utilización de los datos de consumo de clientes que cuentan con medidores

inteligentes brinda a las compañías eléctricas herramientas que faciliten su operación.

Una de las conclusiones más importantes que se desprende de los análisis realizados, es que los grupos

encontrados muestran gran semejanza que resulta de mucha utilidad dada la integración directa con la

tecnología de la información. Por otro lado, se pudo demostrar que existen grupos que pueden tener el mismo

perfil de carga, pero presentar niveles de consumos muy distintos, lo cual es una característica útil para

diferenciar usuarios que poseen la misma forma de consumo. Fue posible, además, encontrar grupos que

presentan diferencias apreciables, lo que nos da una idea de la existencia de usuarios con comportamientos

muy particulares.

Finalmente, es importante aclarar que en este trabajo solo se tuvieron en cuenta mediciones de consumo, sin

embargo, la integración de dichas mediciones con fuentes de datos adicionales, como pueden ser datos

demográficos y socioeconómicos, permitiría respaldar aún más estas de técnicas de agrupamiento y lograr

niveles más altos de eficiencia. Es por este motivo, que en trabajos futuros se pretende realizar un algoritmo

de aprendizaje que combine propiedades socioeconómicas de los usuarios con su comportamiento típico ante

8

los distintos escenarios planteados, y de esta manera realizar clasificaciones de mayor robustez sobre un

dataset con mayor volumen de información.

6 REFERENCIAS

[1] D.-W.-I. C. Flath, D.-W.-I. D. Nicolay, D. T. Conte, P. D. C. van Dinther, and D. L. Filipova-

Neumann, “Cluster Analysis of Smart Metering Data,” Bus. Inf. Syst. Eng., vol. 4, no. 1, pp. 31–39,

2012.

[2] J. P. Jiawei Han, Micheline Kamber, Data Mining – Concepts & Techniques. 2011.

[3] T. Warren Liao, “Clustering of time series data - A survey,” Pattern Recognit., vol. 38, no. 11, pp.

1857–1874, 2005.

[4] C. Beckel, L. Sadamori, T. Staake, and S. Santini, “Revealing household characteristics from smart

meter data,” Energy, vol. 78, no. October 2014, pp. 397–410, 2014.

[5] G. Chicco, “Overview and performance assessment of the clustering methods for electrical load

pattern grouping,” Energy, vol. 42, no. 1, pp. 68–80, 2012.

[6] S. García, J. Luengo, and F. Herrera, Data Preprocessing in Data Mining, vol. 72. 2015.

[7] M. J. L. de Hoon, S. Imoto, J. Nolan, and S. Miyano, “Open source clustering software,”

Bioinformatics, vol. 20, no. 9, pp. 1453–1454, Jun. 2004.

[8] J. MacQueen, “Some Methods for classification and Analysis of Multivariate Observations,” 5th

Berkeley Symp. Math. Stat. Probab. 1967, vol. 1, no. 14, pp. 281–297, 1967.

[9] M. N. Q. Macedo, J. J. M. Galo, L. A. L. Almeida, and A. C. C. Lima, “Typification of load curves

for DSM in Brazil for a smart grid environment,” Int. J. Electr. Power Energy Syst., vol. 67, pp. 216–

221, 2015.

[10] F. McLoughlin, A. Duffy, and M. Conlon, “A clustering approach to domestic electricity load profile

characterisation using smart metering data,” Appl. Energy, vol. 141, pp. 190–199, 2015.

[11] A. Al-Wakeel and J. Wu, “K-means Based Cluster Analysis of Residential Smart Meter

Measurements,” Energy Procedia, vol. 88, pp. 754–760, Jun. 2016.

[12] I. Benítez, J. L. Díez, A. Quijano, and I. Delgado, “Dynamic clustering of residential electricity

consumption time series data based on Hausdorff distance,” Electr. Power Syst. Res., vol. 140, pp.

517–526, 2016.

[13] S. Z. Selim and M. A. Ismail, “K-Means-Type Algorithms: A Generalized Convergence Theorem and

Characterization of Local Optimality,” IEEE Trans. Pattern Anal. Mach. Intell., vol. PAMI-6, no. 1,

pp. 81–87, 1984.

[14] T. Fu, “A review on time series data mining,” Eng. Appl. Artif. Intell., vol. 24, no. 1, pp. 164–181,

Feb. 2011.

[15] Z. Ramos, S., & Vale, “Data Mining techniques to support the classification of MV electricity

customers.,” IEEE Power Energy Soc. Gen. Meet. - Convers. Deliv. Electr. Energy 21st Century.,

2008.

[16] J. M. Luna-Romera, M. del Mar Martínez-Ballesteros, J. García-Gutiérrez, and J. C. Riquelme-

Santos, “An Approach to Silhouette and Dunn Clustering Indices Applied to Big Data in Spark,” vol.

3501, no. September, B. Kégl and G. Lapalme, Eds. Berlin, Heidelberg: Springer Berlin Heidelberg,

2016, pp. 160–169.

Download - MODELAMIENTO DE CURVAS TÍPICAS DE DEMANDA ELÉCTRICA … Tecnicos/C6/C6.18_612.pdf · los datos de series temporales multivariables. La metodología se basa en el cálculo del grado

Top Related