proyecto de grado de ingenierÍa civil minerÍa de datos
Post on 07-Jul-2022
6 Views
Preview:
TRANSCRIPT
PROYECTO DE GRADO DE INGENIERÍA CIVIL
MINERÍA DE DATOS PARA EL MANTENIMIENTO PREDICTIVO DE REDES DE DISTRIBUCIÓN DE AGUA POTABLE
PRESENTADO POR: MANUELA CORTÉS HENAO
ASESOR: ING. JUAN GUILLERMO SALDARRIAGA
UNIVERSIDAD DE LOS ANDES FACULTAD DE INGENIERÍA
DEPARTAMENTO DE INGENIERÍA CIVIL Y AMBIENTAL BOGOTÁ D.C.
DICIEMBRE DE 2014
A mis papás,
por su apoyo incondicional
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
i
Tabla de contenido
1. INTRODUCCIÓN Y OBJETIVOS ......................................................................................................... - 1 -
1.1. Introducción ............................................................................................................................ - 1 -
1.2. Objetivos ................................................................................................................................. - 3 -
1.2.1. Objetivo General ................................................................................................................. - 3 -
1.2.2. Objetivos Específicos ........................................................................................................... - 3 -
1.3. Contenido................................................................................................................................ - 3 -
2. ANTECEDENTES ............................................................................................................................... - 4 -
3. MARCO TEÓRICO ............................................................................................................................ - 8 -
3.1. Minería de Datos ..................................................................................................................... - 8 -
3.1.1. Definición ........................................................................................................................ - 8 -
3.1.2. Funcionalidades de la minería de datos ........................................................................ - 12 -
4. MÉTODO PARA LA INTERPRETACIÓN DE LA MINERÍA DE DATOS .................................................. - 16 -
4.1. Minería de Datos Utilizando Información Histórica .............................................................. - 16 -
Modelos estadísticos .................................................................................................................... - 16 -
EPR ................................................................................................................................................ - 19 -
RankBoost.B .................................................................................................................................. - 22 -
ZINHPP .......................................................................................................................................... - 25 -
Algoritmo A-Priori y Minería de Episodios .................................................................................... - 27 -
Índice de Condición Técnica .......................................................................................................... - 28 -
Conclusiones ................................................................................................................................. - 29 -
4.2. Minería de Datos Utilizando Información en Tiempo Real .................................................... - 30 -
SCADA ........................................................................................................................................... - 33 -
Tipo de Sensores ........................................................................................................................... - 35 -
PipeNET ......................................................................................................................................... - 39 -
WaterWise .................................................................................................................................... - 44 -
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
ii
SmartPipes .................................................................................................................................... - 50 -
iWidget ......................................................................................................................................... - 55 -
InfraSense ..................................................................................................................................... - 60 -
Head Loss Ratio ............................................................................................................................. - 62 -
PCA + ARMA .................................................................................................................................. - 64 -
Conclusiones ................................................................................................................................. - 66 -
4.3. Parámetros de Clasificación .................................................................................................. - 67 -
5. CONCLUSIONES Y RECOMENDACIONES ........................................................................................ - 70 -
6. BIBLIOGRAFÍA................................................................................................................................ - 72 -
Índice de Ilustraciones
Ilustración 1.Minería de datos como un paso en el proceso de descubrimiento de conocimiento ...... - 10 -
Ilustración 2. Arquitectura típica de un Sistema de minería de datos .................................................. - 12 -
Ilustración 3. Estructura del Sistema de Predicción .............................................................................. - 24 -
Ilustración 4. Rol del Monitoreo para la Extensión de la Vida de una Tubería y su Reemplazo ............ - 32 -
Ilustración 5. Implementación de la Fusión de los Datos de Diferentes Sensores ................................ - 33 -
Ilustración 6. Disposición General de un Sistema SCADA. ..................................................................... - 35 -
Ilustración 7. Sensor Típico de Corrosión. ............................................................................................. - 36 -
Ilustración 8. Arquitectura del Sistema PipeNET. .................................................................................. - 39 -
Ilustración 9. Instalación del Sistema PipeNET. ..................................................................................... - 41 -
Ilustración 10. Ejemplo del Algoritmo para Detector Cambios en la Presión. ....................................... - 42 -
Ilustración 11. Manifestación de una Fuga por Ondas Acústicas. ......................................................... - 43 -
Ilustración 12. Ubicación de la unidad de procesamiento. ................................................................... - 46 -
Ilustración 13. Instalación del Sistema WaterWise. .............................................................................. - 46 -
Ilustración 14. Esquema del Flujo de Información en WaterWise. ....................................................... - 47 -
Ilustración 15. Ejemplo de la Información Obtenida para un Nodo en una Semana. ............................ - 48 -
Ilustración 16. Ejemplo del Algoritmo para Detector Cambios en la Presión en WaterWise ................ - 48 -
Ilustración 17.Ejemplo Algoritmo de Localización de la Fuga WaterWise. ............................................ - 49 -
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
iii
Ilustración 18. Esquema Propuesto para SmartPipes. .......................................................................... - 51 -
Ilustración 19. Esquema de un Nodo Sensor......................................................................................... - 52 -
Ilustración 20. Esquema de la Instalación del Sensor............................................................................ - 52 -
Ilustración 21. Cambios de Presión a Causa de una Fuga. .................................................................... - 54 -
Ilustración 22. Mediciones de los Sensores en el Montaje de Campo. ................................................. - 55 -
Ilustración 23. Imágenes de la Interfaz del Usuario del Sistema iWidget.............................................. - 57 -
Ilustración 24. Arquitectura del Sistema iWidget. ................................................................................ - 58 -
Ilustración 25. Arquitectura del Sistema iWidget. ................................................................................ - 59 -
Ilustración 26. Diagrama del Sistema InfraSense. ................................................................................. - 61 -
Ilustración 27. Patrón del Indicador HLR al Presentarse una Fuga. ...................................................... - 63 -
Ilustración 28. Datos Simplificados Usando PCA. .................................................................................. - 65 -
Ilustración 29. Diagrama de Flujo del Método Propuesto. ................................................................... - 66 -
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 1 -
1. INTRODUCCIÓN Y OBJETIVOS
1.1. Introducción
El agua es el recurso de mayor importancia para la existencia humana, pues toda la vida biológica,
así como la mayor parte de los bienes que se consumen dependen de manera directa o indirecta de
éste. Sin embargo, este recurso no siempre se encuentra dónde se necesita, cómo se necesita y con
la calidad mínima aceptable para el uso humano (Grayman, et al., 2014, p. 6).
Debido a lo anterior, el ser humano ha conseguido maneras de superar los inconvenientes
nombrados, con el fin de poder garantizar el acceso de la población a este recurso. En primer lugar,
desde la época de los romanos, se han desarrollado redes de distribución de agua potable, para
asegurar que los habitantes que no viven cerca a fuentes de agua, puedan tener acceso a este
recurso. En segundo lugar, para garantizar la calidad mínima aceptable, se crearon plantas de
tratamiento, donde, después de diversos tratamientos, se garantiza la calidad mínima requerida
para el consumo que realizan los humanos.
De esta manera, las redes de distribución de agua potable se convirtieron en uno de los pilares
básicos de las civilizaciones modernas, al garantizar el acceso al recurso donde se necesita, cuando
se necesita y con la calidad necesaria. Sin embargo, el aumento acelerado de la urbanización ha
generado una carga cada vez mayor en la gestión y administración del recurso del agua (Grayman,
et al., 2014, p. 9). De manera específica, el aumento del uso de la redes, junto con presupuestos
irrisorios para el mantenimiento de éstas, ha generado un detrimento general en la calidad de la
infraestructura y por ende, de la calidad que se puede obtener del recurso.
Según la Sociedad de Ingenieros Civiles de América, ASCE por sus siglas en inglés, en sus reportes
acerca del estado de la infraestructura de América, el agua potable recibe una calificación pobre.
Esto ocurre porque, en general, la infraestructura para la distribución del agua potable está llegando
al final de su vida útil, pues la mayoría de las tuberías tienen más de 100 años de uso. Igualmente,
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 2 -
las pérdidas que presentan las tuberías se estiman en siete billones de galones de agua potable al
día (ASCE, 2013).
Esta situación, unida con el aumento constante de la población urbana en el mundo que lleva a
esperar a que en el año 2030 cinco billones de personas vivan en áreas urbanas (United Nations
Population Fund, 2007), genera que la gerencia integral de las redes de distribución de agua potable,
se haya convertido en un tema de gran importancia para garantizar que éstas van a seguir
funcionando y siendo útiles a la sociedad. Entre los diferentes métodos utilizados para garantizar su
funcionamiento, se encuentra la inspección manual e inspección por circuitos cerrados de
televisión.
En los últimos años, se ha empezado a utilizar el acceso y el análisis a la información en tiempo real
que se obtiene de sensores colocados en las redes. Esto con el fin de poder conocer cuál es el estado
de la red física y cuál es el estado del agua, con el fin de maximizar la efectividad del sistema, y
disminuir las fallas que pueden interrumpir el servicio y reducir su calidad. A la vez, al ser en tiempo
real, permite que las compañías de distribución de agua potable reparen o reemplacen rápidamente
tuberías, permite disminuir la probabilidad del rompimiento de otros tubos por la presencia de
variaciones anormales en la presión y permite disminuir el número de clientes con quejas acerca del
estado del servicio, entre otros (Romano, et al., 2014).
En el presente trabajo, se busca realizar una exploración de qué es lo que se está realizando a nivel
mundial en el tema del acceso y análisis de la información en tiempo real en redes de distribución
de agua potable, con el fin de garantizar un buen funcionamiento éstas. Concretamente, se busca
conocer cómo esta información se utiliza para realizar mantenimientos predictivos a las redes, con
el fin de disminuir las fallas en éstas.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 3 -
1.2. Objetivos
1.2.1. Objetivo General
Con este proyecto se busca establecer cuál es el estado del arte del uso de la minería de datos como
herramienta para determinar el mantenimiento predictivo de redes de distribución de agua potable.
1.2.2. Objetivos Específicos
Investigar qué es la minería de datos, cómo se hace y para qué funciona, con el fin conocer
sus usos potenciales en las redes de distribución de agua potable en Colombia.
Determinar la efectividad de la minería de datos como herramienta determinante para la
toma de decisiones de mantenimiento predictivo de redes de distribución de agua potable.
Investigar las últimas tecnologías que han sido desarrolladas para el uso de la minería de
datos como herramienta de mantenimiento en los sistemas de distribución de agua potable.
1.3. Contenido
Como se nombró, en este trabajo se realizará una exploración de qué se está realizando en la
minería de datos aplicada a las RDAP. La organización del trabajo consiste en: en el segundo capítulo
se realiza una revisión de los antecedentes que hay del tema; en el tercer capítulo se continúa con
un marco teórico, donde se exponen los conceptos generales de las RDAP y de la minería de datos.
En el cuarto capítulo, se realiza la investigación de qué datos se obtienen de la redes, y cómo se
analizan, para conocer cuál es el estado de éstas. El último capítulo presenta las principales
conclusiones del trabajo.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 4 -
2. ANTECEDENTES
Una red de distribución de agua potable, en adelante RDAP, “(...) está considerada por todo el
sistema de tuberías desde el tanque de distribución hasta aquellas líneas de las cuales parten las
tomas o conexiones domiciliarias.” (OMS, Cosude, 2005). Actualmente, y desde hace varios siglos,
estas redes se construyen subterráneamente, debido a que éstas “(…) requerían menor cantidad
de material que estructuras en arco, por lo que eran, generalmente, más económicas. También, no
estaban sujetas a efectos del viento y erosiones que podían debilitar las estructuras superficiales.”
(Aicher, 1995, p. 11). Por último, las estructuras subterráneas, al aislar el agua del medio ambiente,
previenen que ésta se contamine y por lo tanto, la calidad disminuya, evitando potenciales
problemas de salud en la población que consume el agua.
Sin embargo, a pesar de las aparentes ventajas de la construcción subterránea de las redes, también
se generan problemas, pues una vez las tuberías son construidas y utilizadas en el tiempo, éstas se
van desgastando y se dificultaba conocer cuál es su estado real. Es decir, por la edad y el uso
continuo de la infraestructura, ésta se va desgastando sin poder conocer en tiempo real cuál es su
estado y qué tan cerca está de la falla. En la práctica, el deterioro de las tuberías puede ser
clasificado en dos categorías: estructural, que genera una disminución de la capacidad de soportar
las solicitaciones a las que la tubería se encuentra sometida; y funcional, que hace referencia a la
degradación de la superficie interna de la tubería, generando una menor capacidad hidráulica y
disminución de la calidad del agua (Berardi, et al., 2008, p. 2). Ambos tipos de deterioro son
igualmente importantes y preocupantes dado que el primero aumenta la probabilidad de falla del
tubo, mientras que la segunda puede generar riesgos en la salud de los usuarios.
Como consecuencia de lo anterior, a través de la historia se han generado diversos métodos con el
fin de conocer si las redes están cercanas a fallar, si es necesario realizar mantenimientos predictivos
y/o correctivos, si es necesario realizar cambios de infraestructura, entre otras consideraciones.
Todo lo anterior se realiza con el fin de evitar la interrupción del servicio, así como los altos costos
sociales y económicos que puede llegar a generar la detención del servicio de agua potable, “(…)
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 5 -
como lo son las pérdida de agua y energía, costos de reparación, demoras de tráfico y pérdidas de
producción en fábricas por servicio inadecuado de agua.” (Xu, et al., 2010)
Hasta hace unos años, e incluso hoy en día en algunos países en vía de desarrollo, la decisión de
dónde realizar rehabilitación y/o renovación de tuberías se hace por medio del número de quejas
colocadas por los usuarios del sistema, la variación de diversos indicadores en los puntos de control
de las redes, e incluso la experiencia de los operarios al escuchar los sonidos de las redes. Una vez
tomada la decisión de dónde rehabilitar, el procedimiento se realiza por medio de aperturas de
zanja, o excavaciones que varían de profundidad y propiedades según las características de cada
lugar, siempre considerando que la tubería puede no estar fallando y el procedimiento puede ser
realizado en vano. Por lo tanto, como es de esperarse, este método es costoso en tiempo y en
recursos, debido a que es necesario realizar señalizaciones adecuadas, “(…) desviar el tráfico de las
calles afectadas, demoler y reconstruir los andenes y vías, bloquear negocios y entradas vehiculares
(…)” (Mackenzie, 2003), entre otros, además del riesgo laboral implícito que existe. Por lo tanto, es
posible observar la complejidad técnica y logística de esta opción.
Por otro lado, el incremento de la población de los centros urbanos genera que las compañías de
acueducto y alcantarillado se centren en la construcción de infraestructura y no en el
mantenimiento y rehabilitación de la misma. Es decir que, se centran en ampliar la cobertura, mas
no en garantizar el servicio actual. Esto lleva a que la mayoría de la infraestructura haya cumplido,
o esté cerca de cumplir su vida útil, que se refleja en mayores probabilidades de daño, fugas e
incumplimiento de servicio. Se conoce que en Estados Unidos la mayoría de tubería supera los 100
años de longevidad (ASCE, 2013), mientras que en Bogotá, Colombia, el 38% de las tuberías tiene
entre 80 y 50 años de haber sido construida (Gómez, 2012) . Igualmente, como se observa en la
Gráfica 1, se conoce que el 20% de la infraestructura del acueducto se encuentra en estado crítico,
y el 25% en colapso. También se conoce que, en el año 2012, en Bogotá había más de 8,000
kilómetros de tuberías, a las que al 28% se les debía hacer rehabilitación; pero tan sólo 40 kilómetros
(0%) había recibido algún tipo de tratamiento, ver Gráfica 2.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 6 -
Gráfica 1. Estado de las Tuberías de Distribución de Agua Potable en Bogotá. (Ruíz, 2012)
Gráfica 2. Características de la Red de Acueducto en la Ciudad de Bogotá (Gómez, 2012)
De acuerdo con lo anterior, es un hecho de que a nivel mundial, y específicamente en Bogotá, es
necesario la utilización y aplicación de nuevos métodos, más confiables y efectivos, que permitan
conocer con precisión dónde realizar mantenimiento correctivo de tuberías que han fallado, a la vez
que permiten conocer con anticipación dónde realizar mantenimiento predictivo con el fin de
Estable20%
Medio35%
Crítico20%
Colapsado25%
Longitud Total de laTubería
Longitud de TuberíaRehabilitada
Longitud de Tuberíaque debería habersido rehabilitada
km 8000 40 2000
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
Lon
gitu
d d
e tu
ber
ía (
km)
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 7 -
garantizar el funcionamiento continúo y estable de la red, y el ahorro de los costos nombrados
anteriormente.
Por último, investigadores han afirmado que los métodos y las técnicas actuales utilizadas para
analizar redes e identificar lugares de falla, están llegando a sus límites, por lo que es importante
identificar nuevos enfoques que promuevan la administración proactiva de redes de distribución de
agua potable. (Romano, et al., 2014). Esto, unido al hecho que “(…) monitorear la infraestructura se
ha convertido en un tema atractivo para los investigadores en los últimos años. Avances en
electrónica y la disminución en los costos de sensores y componentes eléctricos han convertido en
una realidad el concepto de infraestructuras inteligentes.” (Sadeghioon, et al., 2014), han permitido
que cada vez más empresas de manejo y distribución de agua potable se encuentren interesadas en
instalar y aplicar esta última tecnología, pues analizando de manera adecuada los datos
recolectados, es posible realizar mantenimientos predictivos y correctivos con el fin de evitar la falla
de la red, y por ende la interrupción del servicio. Como afirman los autores “(…) la tendencia de
introducir el concepto de distribución inteligente de agua está permitiendo aumentar la efectividad
operacional y de gestión.” (Kim, et al., 2014).
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 8 -
3. MARCO TEÓRICO
3.1. Minería de Datos
3.1.1. Definición
En primer lugar es necesario realizar la distinción entre “Big Data” y minería de datos, pues a pesar
de que son dos conceptos que están estrechamente interconectados, hacen referencia a procesos
diferentes. El primero concierne con “(…) datos de alto volumen, alta complejidad y constante
crecimiento que proviene de múltiples fuentes que son autónomas (…)” (Wu, et al., 2014). Como
afirman los autores este término cumple con el teorema HACE, es decir que “Big Data” empieza con
grandes volúmenes de fuentes Heterogéneas y Autónomas con control distribuido y
descentralizado, que busca explorar relaciones Complejas y Evolutivas entre los datos.
El reto con estos datos es poder descubrir conocimiento útil, que pueda ser utilizado en diversos
campos. Por el contrario, el segundo concepto hace referencia a los procesos asociados a detectar
información, patrones, modelos, relaciones, entre otros, de grandes cantidades de datos, con el fin
de poder obtener información de éstos. O, en otras palabras, es el descubrimiento de modelos en
una información dada (Leskovec, et al., 2011), donde los modelos pueden ser estadísticos, de
aprendizaje computacional, de resumen o agrupamiento, entre otros. Por lo tanto, es posible
afirmar que el segundo concepto es la manera de procesar el primero con el fin de encontrar
información. En este trabajo se explica y se hace énfasis en el segundo concepto. A continuación se
hace un recuento de lo qué es la minería de datos, su significado, su contexto y sus aplicaciones.
De acuerdo con Berry, la idea central de la minería de datos consiste en que los datos del pasado
contienen información que puede ser útil en el futuro. Es necesario, entonces, descubrir aquellos
patrones en los datos históricos con el fin de poder predecir información futura. Por lo tanto, los
autores definen la minería de datos como “(…) la exploración y el análisis de grandes cantidades de
datos para descubrir patrones y reglas con significado.” (Berry & Linoff, 2011, p. 7). Minn afirma que
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 9 -
la minería de datos “(…) es una nueva tecnología poderosa que hace parte de un proceso para
descubrir información de múltiples pasos, con el fin de extraer patrones y modelos útiles de bases
de datos sin filtros.” (Minns, 2000, p. 1). Kumar define la minería de datos como “(…) una nueva
tecnología que ayuda a extraer información escondida y predictiva (tendencia futuras y
comportamientos) de grandes bases de datos, facilitando que los tomadores de decisiones hagan
decisiones proactivas y basadas en conocimiento.” (Kumar, et al., 2009, p. 1). También, se conoce
que “(…) los datos tienden a ser voluminosos, pero carecen de valor en la medida que no se puede
realizar un uso directo de los mismos, es a través de la información escondida que los datos
adquieren valor y usabilidad (…)” (Kumar, et al., 2009, p. 2). Como se nombró “(…) la minería de
datos es la búsqueda de relaciones y patrones globales que existen en grandes bases de datos pero
están escondidas en una gran cantidad de información. Estas relaciones representan un
conocimiento valioso de la base de datos y, si la base de datos es un fiel espejo, el mundo real está
registrado en los datos.” (Holsheir & Siebes, 1994, p. 2).
Luego de haber definido lo que es la minería de datos, es lógico pensar, y muchos autores lo han
afirmado, que el proceso de minería de datos es un proceso de descubrimiento de conocimiento en
bases de datos, o KDD1 por sus siglas en inglés (Kumar, et al., 2009) (Berry & Linoff, 2011).Otros
autores afirman que es un paso más en la creación de conocimiento y otros afirman que es la
creación de conocimiento. Más allá de la manera cómo se quiera interpretar, en cualquiera de los
casos es posible observar que al final, la minería de datos permite adquirir un conocimiento que no
era conocido previamente y que, además, no era posible observar de manera directa e intuitiva en
la base datos. En la Ilustración 1 se observa cómo funciona el proceso de adquisición de
conocimiento por medio de la minería de datos, donde se muestra como un proceso iterativo de 7
pasos.
1 Knowledge discovery in databases o Knowledge discovery from data
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 10 -
Ilustración 1.Minería de datos como un paso en el proceso de descubrimiento de conocimiento Adaptado de (Han & Kamber, 2006, p. 6)
Estos pasos son:
1. Filtración de los datos: busca eliminar ruido y datos inconsistentes.
2. Integración de los datos: en caso de que se utilicen varias bases de datos.
3. Selección de datos: escoge los datos que son relevantes para el objetivo específico y los
toma de la base de datos.
4. Transformación de los datos: los datos se consolidan en formas apropiadas para la minería,
por medio de operaciones como agregación, resumen, entre otras.
5. Minería de Datos: Aplicación de métodos con el fin de extraer patrones de los datos.
6. Evaluación de los patrones: Identifica, con base en medidas previamente establecidas, la
significancia de los patrones encontrados.
Bases de datos
Almacenamiento
de datos
Patrones
Conocimiento
Filtración e
integración
Selección y
transformación
Minería de
datos
Evaluación y
presentación
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 11 -
7. Presentación de la información: Los patrones identificados se hacen asequibles a los
tomadores de decisiones, empleando técnicas de visualización de datos y presentación de
conocimientos.
A partir de lo anterior, se han desarrollado métodos para facilitar la interacción entre los datos y los
usuarios de los mismos. En la Ilustración 2 se observa cuál es la arquitectura típica de un sistema de
minería de datos en la actualidad. En la parte inferior del diagrama se tiene una o varias bases de
datos, que proveen información continua y constante al sistema. Es posible utilizar técnicas de
filtración e integración a los datos. Luego se tiene el servidor, que es el encargado de identificar los
datos relevantes, basado en los algoritmos colocados, y en los intereses del usuario final.
Continuando, a la derecha del diagrama se tiene la base de conocimiento, que es utilizada para guiar
la búsqueda o evaluar patrones resultantes de posible interés. La manera como se organiza la
información depende de los intereses del usuario final y de los algoritmos definidos por el mismo.
A continuación, se tiene el motor de minería de datos que consiste en módulos funcionales que
aplican diversos algoritmos con el fin de identificar patrones en los datos. En seguida, se tiene el
módulo de evaluación de los patrones identificados, que permite que el módulo de minería de datos
centre la búsqueda en patrones de interés, por medio del establecimiento de umbrales que filtren
los patrones identificados. Por último se tiene la interfaz del usuario, que es el que permite que los
usuarios se comuniquen con el sistema de minería de datos, permitiendo que el primero especifique
qué está buscando, cómo lo está buscando, cuáles son los umbrales permitidos, entre otros. Así
mismo, permite que el usuario evalúe de manera manual los patrones encontrados, así como que
pueda visualizar los patrones de diferentes formas. (Han & Kamber, 2006)
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 12 -
Ilustración 2. Arquitectura típica de un Sistema de minería de datos Adaptado de (Han & Kamber, 2006, p. 8)
3.1.2. Funcionalidades de la minería de datos
Existen varias funcionalidades, o tareas, que puede realizar la minería de datos. Éstas dependen del
tipo de patrones que se quieren encontrar. Sin embargo, por lo general se clasifican en dos
categorías: minería de datos descriptiva y minería de datos predictiva. La primera, como su nombre
lo indica busca describir, o caracterizar, la propiedades generales de una base de datos. Esto,
también se puede definir como minería de datos dirigida, pues se busca encontrar valores de
variables previamente establecidas. La segunda, busca realizar inferencias en los datos con el fin de
realizar predicciones a futuro de una variable que no ha sido tenido en cuenta o que no ha sido
Interfaz del Usuario
Evaluación de Patrones
Motor de Minería de
Datos
Servidor de la Base de
Datos
Base de Conocimiento
Base de Datos
Almacén de Datos
Internet Otros depósitos
de información
Limpieza, Integración y Selección de Datos
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 13 -
medida a partir de la información conocida o variables independientes; por esto también es
conocida como minería de datos no dirigida en donde se busca descubrir estructuras de datos sin
considerar variables previamente establecidas. A continuación se enumeran las funcionalidades
más conocidas y utilizadas.
Clasificación: Consiste en examinar las características de nuevos objetos y asignarlos en una
de varias clases definidas previamente (Minns, 2000). Esta tarea se caracteriza porque se
tiene una definición clara y no ambigua de las clases, tal que todos los datos pueden ser
asignados a una de éstas (Berry & Linoff, 2011). La información obtenida se presenta,
generalmente, por medio de gráfico circulares, gráficos de barras, tablas
multidimensionales y reglas de caracterización (Kumar, et al., 2009). Lo anterior se realiza
con el fin de poder predecir en un futuro la clase a la que pertenecería un objeto cuya clase
es desconocida.
Estimación: Está relacionada con valores continuos, y busca conocer un valor desconocido
de una variable continua. Usualmente se utiliza como una tarea de clasificación pero
diferenciada para valores continuos. Es común utilizar modelos estadísticos de regresión,
análisis de supervivencia, entre otros (Berry & Linoff, 2011).
Predicción: Se considera igual que clasificación o estimación, pero los datos se clasifican de
acuerdo con un valor futuro o estimado según el modelo. Por lo tanto, la única manera de
conocer qué tan acertado estuvo el modelo, es necesario esperar para corroborar qué tan
exacta estuvo la predicción (Berry & Linoff, 2011). De este modo, de acuerdo con la precisión
de la predicción, es posible realizar ajustes al modelo con el fin de mejorar el nivel de
predicción del mismo. La razón por la que no se considera como una tarea de clasificación
o estimación, radica en la importancia de considerar las relaciones temporales entre las
variables independientes y las variables dependientes.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 14 -
Patrones frecuentes y análisis de asociación: Busca determinar, como su nombre lo indica,
patrones que se repiten de manera constantes en los datos. Esto permite facilitar análisis
de asociaciones y correlaciones. (Han & Kamber, 2006).
Clustering: Consiste en segmentar poblaciones heterogéneas en un número de grupos más
homogéneos, sin considerar clases definidas previamente. En todos los casos se busca
maximizar la similitud entre objetos de la misma clase y minimizar la similitud entre objetos
de diferentes clases. Entre los algoritmos utilizados se encuentran métodos jerárquicos,
estadísticos, de densidad, entre otros (Kumar, et al., 2009).
Análisis atípicos: Un dato atípico es un dato que es completamente diferente, o
inconsistente, con los datos obtenidos, por lo tanto no puede ser agrupado en clases
definidas o en clústeres. Esto puede ocurrir por errores de medición, o por la variabilidad
inherente de los datos. En la mayoría de los casos este tipo de datos suele ser descartado,
sin embargo, en el tema de interés un dato atípico puede dar más información del estado
del sistemas que los datos típicos. Usualmente, se utilizan pruebas de estadística con el fin
de determinar cuáles datos son considerados atípicos (Han & Kamber, 2006).
Análisis Evolutivo: Describe y modela tendencias en objetos cuyo comportamiento está
cambiando en el tiempo. Se caracteriza porque tiene en cuenta la relación entre los datos
y el tiempo en que estos ocurrieron. Se suele utilizar análisis de series de tiempo, análisis
de datos basado en similitudes y patrones de periodicidad recurrentes (Han & Kamber,
2006, p. 28).
A partir de lo anterior es posible concluir que la minería de datos es la unión de diversas disciplinas
y técnicas, como la estadística, la tecnología de bases de datos, ciencia de la información,
aprendizaje de máquinas, redes neuronales, lógica difusa, entre otros, que busca conocer patrones
en grandes cantidades de datos, con el fin de adquirir conocimiento del mundo real que se
encontraba atrapado en bases de datos. Igualmente, es posible clasificar la minería de datos como
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 15 -
minería de datos usando información histórica y minería de datos utilizando información en tiempo
real. Lo primero, hace referencia a minería de datos que se aplica a bases de datos que tienen
información que ha sido almacenada durante un tiempo determinado, mientras que el segundo
hace referencia a la minería de datos que es realizada en tiempo real sobre información que es
adquirida en el momento y que se va sumando de manera paulatina a los análisis realizados. Sin
embargo, ambos buscan encontrar patrones con el fin de adquirir conocimiento en un campo
específico.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 16 -
4. MÉTODO PARA LA INTERPRETACIÓN DE LA MINERÍA DE DATOS
Como se nombró, es posible clasificar la minería de datos en dos grandes grupos, usando
información histórica y usando información en tiempo real. En el presente capítulo se realiza un
recuento de los métodos reportados en la literatura con base en esta división. En primer lugar se
listan los métodos que pueden clasificarse en el primer grupo, y se continúa con los métodos que
clasifican en el segundo. Se termina realizando un resumen de acuerdo con los parámetros utilizados
para la clasificación.
4.1. Minería de Datos Utilizando Información Histórica
De manera general, la minería de datos utilizando información histórica busca conocer de manera
precisa los lugares físicos, o las tuberías, donde una RDAP va a fallar en un futuro, de acuerdo con
un análisis numérico de ciertos datos previos, usualmente los del año inmediatamente anterior. En
otras palabras, por medio del “(…) análisis de datos existentes de las compañías de agua
relacionados con la infraestructura física y con los registros históricos de eventos de falla (…)”
(Berardi, et al., 2008, p. 2) se busca determinar dónde y cuándo va fallar la red en el futuro cercano.
A continuación se listan los métodos más relevantes para este fin.
Modelos estadísticos
Los modelos estadísticos, como su nombre lo indica, utilizan herramientas estadísticas para realizar
el análisis de los datos históricos y lograr hacer predicciones precisas del futuro cercano. Estos
métodos se caracterizan porque proporcionan un medio de análisis que es eficiente en costo y que
permiten utilizar la información histórica para identificar patrones de falla de las tuberías (Xu, et al.,
2010, p. 2). Existen dos tipos de modelos estadísticos, los modelos determinísticos y los modelos
probabilísticos. Los primeros buscan determinar los patrones de falla de manera probabilística, por
medio de modelos de tiempo lineal (Kettler & I.C., 1985) y modelos de tiempo exponencial. Los
segundos buscan determinar la probabilidad de falla de una tubería específica por medio de
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 17 -
modelos como árboles de decisión, modelos de Poisson tiempo dependientes, modelos de vida útil
acelerada, entre otros. A pesar de las diferencias de enfoque, todos los modelos basados en
estadística buscan determinar las tasas de falla de las tuberías con una expresión única en la que las
tuberías comparten las mismas variables explicativas (Xu, et al., 2010, p. 2); así mismo asumen que
todas las tuberías con características similares y trabajando en ambientes semejantes
experimentaran los mismos patrones de deterioro y los mismos patrones de falla (Wang, et al.,
2013, p. 2).
A continuación se listan cuatro modelos estadísticos que fueron utilizados para la predicción de las
fallas de tuberías en una gran ciudad de Texas, Estados Unidos, entre el año 2000 y 2005, que se
caracteriza por tener más de cien mil clientes en un área mayor a 40,000 hectáreas; se tienen más
de 1500 kilómetros de tuberías, con un promedio de 22 años. El objetivo era realizar un comparativo
entre estos métodos con el fin de establecer cuál es el mejor modelo predictivo para determinar el
número de fallas en la red para esta ciudad. Los métodos utilizados se presentan a continuación
(Yamijala, et al., 2009).
Modelo de tiempo lineal
Conocido en inglés como time linear ordinary least squares. En este tipo de modelo se asume que
la variable de interés es una función lineal de un set de variables explicativas, o independientes. Los
autores definen una relación lineal del número de fallas por tubería en seis meses en función del
diámetro, de la longitud, del material, del año de instalación, la presión de operación, el uso de suelo
encima de la tubería, la temperatura, la cantidad de agua lluvia en la vecindad de la tubería, el tipo
de suelo alrededor de la tubería, la máxima humedad alrededor de la tubería, la diferencia entre el
máximo y el mínimo de humedad del suelo y, por último, la corrosividad del suelo en los seis meses.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 18 -
Modelos de tiempo exponencial
Conocido en inglés como time exponential ordinary least squares regression. Este tipo de modelos
extiende la regresión lineal a una regresión más compleja y más general, en donde la variable de
interés es función de un vector no lineal de parámetros. Los autores plantean que el número de
fallas por longitud por año depende de manera exponencial del tiempo que ha pasado desde la
última falla y del año de instalación.
GLM
También conocido como modelo lineal generalizado. Se caracteriza porque relaciona la respuesta
media de una distribución condicional de probabilidad con una función de predicción. Es decir, se
asume que las variables independientes son probabilísticas y se pueden relacionar con la variable
dependiente por medio de las covarianzas. Por lo tanto, es posible obtener las probabilidades de
falla en la red.
Logistic GLM
Como su nombre lo indica es un modelo lineal logístico generalizado, que permite predecir la
probabilidad de un resultado discreto a partir de un grupo de variables explicativas que pueden ser
discretas, continúas, dicótomas o una combinación de éstas. El valor de este enfoque consiste en
que, para las empresas de RDAP puede ser más valioso conocer si al menos va a ocurrir una falla en
el sistema, que el número total de fallas que van a ocurrir. Se caracteriza porque la variable
dependiente, que es la probabilidad de falla, tiene una relación no lineal con las variables
independientes que se suele modelar por medio de transformaciones logit.
Ahora bien, a pesar de las diferencias estructurales de estos métodos, todos buscan determinar las
fallas en la red, bien sea por la predicción de las tuberías exactas que van a fallar, o por la
determinación de las probabilidades de falla, con base en la información histórica reciente de la red.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 19 -
Igualmente, todos dependen de la disponibilidad de una gran cantidad de información histórica, que
en muchos casos es difícil de encontrar en compañías de acueductos. Esto, con el fin de obtener
inferencias más sólidas acerca de las predicciones de las fallas. Por esta razón sólo es aconsejable
utilizarlo en aquellas empresas con información histórica de, al menos, cinco años.
Luego de aplicar los diferentes modelos al set de datos, los autores encontraron que el modelo más
robusto para determinar el número de fallas futuras es el de tiempo exponencial. Sin embargo,
ninguno de los modelos presento un ajuste significativo.
A partir de lo anterior, es posible concluir que, a pesar de que los modelos pretenden ser bastante
explicativos, al incluir una gran cantidad de variables que afectan el correcto desarrollo de las
tuberías, en muchos casos es difícil obtener acceso a esa gran cantidad de información. Así mismo,
los modelos mostraron no tener una alta significancia, lo que implica que su capacidad de predecir
las fallas futuras es poca y de baja confiabilidad. Por último, se nombró que la edad promedio de las
tuberías es de 22 años, que es un valor inferior a la edad promedio de las tuberías en Bogotá, lo que
lleva a que este modelo no sea de gran aplicabilidad al contexto específico de Bogotá.
EPR
También conocido como regresión polinómica evolutiva, o evolutionary polynomial regression. Es
un método desarrollado por Giustoli y Savic (Giustoli, et al., 2004) (Giustoli & Savic, 2006) que se
caracteriza por ser un modelo de dos pasos en el que, primero, se debe identificar la estructura del
modelo por medio de un código entero MOGA (algoritmos genéticos multi-objetivo) y, segundo, se
debe realizar la estimación de los parámetros del modelo identificado. De manera más específica,
EPR utiliza algoritmos genéticos para encontrar la estructura de los datos y luego utiliza mínimos
cuadrados para encontrar los parámetros. El algoritmo se caracteriza porque el resultado que arroja
consiste de diversas formulaciones matemáticas. Con el fin de determinar cuál presenta un mejor
ajuste, se suele calcular un coeficiente de determinación. En resumen, el método “(…) incorpora las
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 20 -
potentes capacidades de regresión de las técnicas numéricas tradicionales de regresión y la
capacidad superior de búsqueda de la programación genética.” (Xu, et al., 2010, p. 2).
Berardi (Berardi, et al., 2008) utilizó este algoritmo para analizar una base de datos que contenía
un inventario de todas las tuberías y sus fallas de una RDAP en Gran Bretaña. Específicamente, se
tenía información acerca del diámetro, material, longitud, año de instalación, número de
propiedades de las tuberías y el número total de fallas registradas a nivel individual de cada tubería
durante un período de 14 años, entre 1986 y 1999. En la Tabla 1 se resume las características de la
red analizada.
Tabla 1. Características de la Red. (Berardi, et al., 2008, p. 4)
Característica Valores
Año de Instalación de la Tubería Desde 1910 hasta 1999
Diámetro Desde 32 mm hasta 250 mm
Longitud Total de 172,984 m
Propiedades dadas Total de 19,494
Número de tuberías 3,669
Número de fallas 354
A partir de los datos se observa que, como ocurre en la mayoría de RDAP, el número de fallas
corresponde a menos del 10% del número total de tuberías. También se conoce que, varías tuberías
fallaron más de una vez en el mismo período y que no se conoce el tiempo entre fallas en éstas. Con
base en esta información, el autor decidió agrupar las tuberías en clases bajo el supuesto que
tuberías de características similares fallan en forma similar. Por lo tanto, el autor buscó conocer la
predicción de una falla en una tubería, según la clasificación realizada de las tuberías basada en la
edad, el diámetro, la longitud, el número de tuberías y el número de propiedades por clase.
Una vez ejecutado el algoritmo, se obtuvieron 14 modelos con coeficientes de determinación
variando entre 0.550 y 0.859. A partir de los modelos obtenidos se concluye que las fallas dependen
de la edad, el diámetro y la longitud. Adicionalmente, en todos los casos se obtuvo una relación
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 21 -
inversa entre el diámetro y el número de fallas, así como una relación directa entre la longitud y el
número de fallas. A pesar de la gran cantidad de modelos obtenidos, no se realizan pruebas para
demostrar la confiabilidad del algoritmo, por lo que no es posible conocer la precisión del mismo. A
la vez, el autor sólo aplicó este método para tuberías con diámetros de hasta 250 mm, por lo que
no se ha probado la efectividad del mismo para RDAP con tuberías de mayor tamaño.
Este algoritmo fue utilizado por unos investigadores chinos (Xu, et al., 2010) en una red en la ciudad
de Beijing. La base de datos utilizada contiene información acerca del diámetro, la longitud, el año
de instalación, el material de la tubería, información espacial, entre otros. A la vez, tenían una base
de datos de 19 años, entre 1987 y el 2005, acerca de las fallas presentadas incluyendo el año de la
falla y el motivo de la misma. Al igual que con Berardi, los autores agruparon la información en clases
según el diámetro de la tubería y el año de instalación. Así mismo, asignaron 16 años de información
de fallas a los grupos anteriormente mencionados, y dejaron 3 años de datos para poder validar los
modelos. Esta información se resume en la Tabla 2. Los autores buscaron encontrar el número de
fallas de las tuberías en función de los diámetros equivalentes, la edad equivalente y la longitud
equivalente.
Tabla 2. Información del Modelo, Caso Beijing. (Xu, et al., 2010, p. 3)
Datos para la construcción del modelo Datos de validación del
modelo Set 1 Set 2
Período de observación Año Instalación-2002 1987-2002 2003-2005
Año de instalación 1987-2002 1901-1986 1901-2005
Diámetro (mm) 75-600 75-600 75-600
Longitud (km) 2028 1270 4194
Fallas 112 256 194
En este caso, se obtuvieron 12 ecuaciones para seleccionar, con coeficientes de determinación
variando entre 0.178 y 0.719. A pesar de los resultados obtenidos, los autores concluyeron que no
llegan a un modelo estadísticamente significativo debido a que el número de fallas registradas no
es significativo en comparación del número total de datos manejados. Contrastando con el estudio
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 22 -
realizado por Berardi, se observa que en ambos casos se obtiene una gran cantidad de modelos de
los que es posible seleccionar uno con base en los coeficientes de determinación y el criterio del
investigador. A la vez, en ambos estudios se observa que las variables explicativas son las mismas,
tal que el número de fallas se puede modelar en función del diámetro, edad y longitud de las
tuberías. Sin embargo, en general, se puede observar que en este último estudio se utilizó un set de
datos con tuberías de mayor tamaño, por lo que se demuestra que este algoritmo no está
restringido a tubería de diámetros menores a 250 mm. Sería igualmente deseable que se probara
hasta qué tamaño de diámetros es posible utilizar EPR.
Por último, los autores utilizan la ecuación obtenida con el fin de probar la capacidad de predicción
de futuras fallas en la red. En general, se obtuvo que el modelo sub estima el número total de fallas
que se van a presentar, a pesar de que el nivel de predicción de las fallas estuvo cercano al 80%.
Esto ocurre debido a que, según los autores, no todas las fallas históricas han sido detectadas, lo
que lleva a que, si las fallas registradas han sido subestimadas, también lo estarán las fallas futuras
predichas. Por lo tanto, a medida que se tiene mayor cantidad y calidad de información histórica,
será posible actualizar el modelo y obtener predicciones más precisas. Igualmente, con los
resultados de predicción, las empresas de manejo de RDAP pueden establecer políticas de prioridad
de detección de fallas en tuberías, así como mejorar la eficiencia en la detección de las mismas.
RankBoost.B
En este estudio, los autores (Wang, et al., 2013), proponen formular la tarea de predecir qué
tuberías van a fallar como un problema de categorización. En otras palabras, se crea un sistema que
categoriza las tuberías según su riesgo de falla en el próximo año. Según lo obtenido, las empresas
de servicio público pueden organizar su plan de mantenimiento predictivo para el siguiente año.
El método utilizado consiste en, primer lugar, utilizar el algoritmo que categoriza las tuberías
conocido como RankBoost.B; luego se introduce un indicador de desempeño que mide la precisión
del sistema predictivo. A continuación, se explica cada uno de los pasos a seguir.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 23 -
El algoritmo RankBoost.B, se utiliza para resolver problemas bipartita de categorización. En otras
palabras, el algoritmo crea un modelo robusto de forma iterativa, tal que en cada iteración
encuentra objetos débiles, o de baja significancia, que necesita categorizar; luego actualiza el peso
de cada instancia según el desempeño que fue asignado al anterior objeto. Finalmente, los objetos
débiles se combinan de forma lineal para formar un modelo robusto de categorización. Dicho de
otro modo, el algoritmo asigna un valor a cada tubería, a medida que nueva información se va
analizando, el algoritmo actualiza el valor de la tubería, con el fin de representar el riesgo de falla
de la misma. El resultado final consiste en una puntuación entre 0 y 1 que representa la probabilidad
de falla de la tubería en el siguiente año.
El segundo paso consiste en calcular un indicar de desempeño, que permite conocer cómo se está
comportando el sistema. En este caso se calcula un indicador conocido como el área bajo la curva,
AUC. Valores menores a 0.5 indican que la capacidad de categorizar del modelo se puede mejorar;
un valor de 0.5 indica que el algoritmo tiene igual capacidad de categorización que uno en el que
los valores son asignados de manera aleatoria, y valores mayores a 0.5 indican que el algoritmo es
capaz de discriminar el orden de los datos.
Con base en lo anterior, este algoritmo consta de dos partes, la primera es un algoritmo de
aprendizaje que es alimentado por la información histórica de las tuberías y el status de las mismas
en el año actual; la segunda parte es un sistema de predicción que se alimenta de toda la
información histórica incluido el año actual, tal que es posible obtener cuál va a ser el status de las
tubería en el siguiente año. Esto se observa esquemáticamente en la Ilustración 3. Es posible notar
que la predicción realizada está basada en los datos disponibles al final del año. Dado que cada año
se instalan una mayor cantidad de tuberías, es de esperar que el sistema, cada año, aumente la
información que contiene en sus bases de datos. Igualmente, se espera que cada año la compañía
actualice las bases de datos, con el fin de mejorar la predicción para el siguiente año. Por último,
este sistema de predicción no considera nueva tuberías instaladas en el siguiente año, lo que es
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 24 -
razonable dado que no se puede predecir sobre la falla de tuberías que aún no han sido instaladas
(Wang, et al., 2013, p. 4).
Ilustración 3. Estructura del Sistema de Predicción (Wang, et al., 2013, p. 4)
Este método fue aplicado en una empresa de acueducto de una gran ciudad china con más de
500,000 tuberías de agua, sumando casi 6,000 kilómetros de longitud. La base de datos tiene
información recolectada entre los años 1931 y 2011, por lo que se tienen 80 años de datos
históricos. En promedio la edad de las tuberías es de 10 años. Los autores dividieron los atributos
dados por la empresa en tres grupos. El primero incluye características físicas del tubo, como el
diámetro, longitud, material y número de uniones. El segundo grupo contiene características
ambientales y operacionales como la presión, la cantidad de lluvia promedio en la región de la
tubería, el número de veces que se ha excavado cerca del tubo en los últimos 10 años, el tipo de
suelo, la profundidad de la instalación, la exposición, entre otros. El tercer grupo contiene datos
para la identificación del tubo como dónde se encuentra, cuál es la identificación, cuándo fue
instalada, cuándo presentó una falla, entre otros.
En primer lugar se realizó una filtración de los datos, que consistió en eliminar los atributos que
tenían una gran cantidad de valores faltantes o no registrados, como la presión, así como se eliminó
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 25 -
aquellos atributos considerados irrelevantes, específicamente se eliminó el departamento al que la
tubería pertenece dentro de la empresa, la región donde se encuentra localizada, el número de
identificación y el número de identificación de cada falla. Luego se dividió el set de datos en dos, la
primera parte para entrenar el algoritmo y la segunda para probarlo.
Luego de correr el algoritmo, se obtuvo que la empresa de acueducto donde se realizó el estudio
hubiese podido prevenir el 50% de las fallas de sus tuberías en el 2011 si hubiesen hecho
mantenimiento predictivo al 6.98% de todas las tuberías al final del año 2010. Por lo tanto, es
recomendable que las empresas que utilicen este algoritmo realicen planes de mantenimiento
predictivo según los resultados obtenidos, con el fin de prevenir mayor cantidad de fallas. Sin
embargo, los autores señalan que sería recomendable incluir información como la temperatura y la
presión de la tubería, datos que no se encontraban disponibles en las bases de datos.
Por último, los autores afirman que la base de datos con la que trabajaron es la base de datos real
más grande que se ha utilizado en la literatura de la predicción de la falla de tuberías. Esto hace que
los resultados y conclusiones presentadas tengan mayor significancia estadística y se demuestre que
el algoritmo tiene mayor capacidad de procesamiento de datos.
ZINHPP
Es el acrónimo de Zero Inflation Non Homogeneous Poisson Process. Los procesos de Poisson no
homogéneos se utilizan para predecir la ocurrencia de una falla en el tiempo, siendo su principal
característica, como su nombre lo indica, la no homogeneidad en el tiempo. Esto permite
representar, de manera adecuada, los mecanismos de deterioro por la edad de las tuberías de agua
por medio de la modelación de la tasa de falla (Economou, et al., 2012, p. 2). En otras palabras, un
modelo NHPP es una distribución de Poisson con una media que varía en el tiempo, tal que el
número total de fallas para cada tubería puede representarse como variables aleatorias que tienen
una distribución de Poisson.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 26 -
Sin embargo, dado que las fallas en las tuberías tienden a ser procesos anómalos en la vida útil de
las tuberías, se presenta una gran cantidad de ceros en las bases de datos. Estadísticamente, la gran
cantidad de ceros representa un problema al momento de realizar cálculos futuros. Por lo tanto, los
autores plantean un modelo ZINHPP que puede considerar una mayor cantidad de ceros que un
proceso no homogéneo de Poisson, por medio de la distribución de mayor probabilidad para las
posibilidades de ninguna falla. Por otro lado, en la mayoría de modelos se asume que tuberías de
similares características, presentan la misma falla. Este modelo permite incorporar la diferencia que
puede existir entre diversas tuberías de características similares, por medio de la consideración de
las diferentes resistencias que las tuberías pueden tener.
Este modelo fue aplicado a dos sets de datos de la vida real. El primero eran 1,349 tuberías que
hacen parte de un sistema de acueducto de América del Norte, que por razones de confidencialidad
no es posible revelar el lugar geográfico exacto. El segundo set de datos consiste de 532 tuberías de
la ciudad de Manukau en Nueva Zelanda. Los datos son presentados en la Tabla 3. Para el caso de
Estados Unidos, todas las tuberías son de hierro fundido, tienen el mismo diámetro y sólo se tiene
como variable independiente la longitud de la tubería. Para el caso de Nueva Zelanda todas las
tuberías son de fibrocemento con longitudes mayores a 5 metros. Se tiene que las variables
independientes son la longitud de la tubería, el diámetro que varía entre 25 mm y 300 mm, la
máxima presión absoluta y el máximo cambio de presiones en un día.
Tabla 3. Datos de Estudio Modelo ZINHPP. (Economou, et al., 2012, p. 3)
Norteamérica Nueva Zelanda
Número de Tuberías 1349 532
Total de fallas 5425 175
Falla más temprana registrada 1962 1990
Falla más tardía registrada 2003 2001
Instalación más temprana 1945 1930
Instalación más tardía 1960 1983
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 27 -
Luego de correr el modelo en los dos sets de datos fue posible observar que el modelo presenta
mejora ajuste para los datos de Nueva Zelanda. Esto ocurre debido a que, como era de esperarse,
esta base de datos tiene mayor cantidad de datos que permiten predecir las fallas en un sistema.
Así mismo, el modelo muestra su utilidad al permitir la modelación de grandes cantidades de ceros,
o de gran cantidad de tuberías que no presentan ninguna falla.
A pesar de las bondades que los autores afirman que el modelo tiene, es posible observar que es un
modelo cuya aplicación a bases de datos con grandes cantidades de datos no está demostrada.
Además la cantidad de variables utilizadas para predecir las fallas es mínima en comparación con
otros modelos que han sido presentados. Por lo tanto, no se recomendaría utilizar este algoritmo.
Algoritmo A-Priori y Minería de Episodios
El algoritmo A-Priori busca analizar una colección de datos frecuentes. En otras palabras, su objetivo
es encontrar reglas validadas por indicadores que se encuentren por encima de ciertos niveles de
confianza establecidos. Esto se realiza por medio del cómputo de ítems frecuentes, seguido de la
extracción de reglas de asociación de los mismos (Ferro, et al., 2004, p. 2). El primer paso se puede
calcular por medio de uso de algoritmos de “fuerza bruta”, que cuenta, de forma sencilla, el número
de veces que un ítem se repite. Sin embargo, debido a la alta cantidad de datos, el costo
computacional de este enfoque es muy alto. Por lo tanto, el algoritmo A-Priori busca reducir este
costo, por medio de la propiedad de monotonicidad de los datos analizados, permitiendo así la
reducción del espacio de búsqueda.
Las operaciones realizadas por medios de algoritmos A-Priori se caracterizan porque no tienen un
orden temporal preciso. En los análisis de eventos físicos que ocurren en una RDAP es importante y
necesario conocer el orden temporal. Por lo tanto, la minería de episodios permite incluir la
dependencia temporal en los datos analizados, estableciendo ventanas de tiempo en donde los
datos adquiridos por medio del algoritmo A-Priori son clasificados. Es así que, lo que estos dos
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 28 -
algoritmos buscan, es encontrar relaciones de dependencia entre objetos que pertenecen a una red
en el tiempo, por medio de la identificación de ítems frecuentes en el espacio de búsqueda.
Ahora bien, los autores aplican este método en la red de acueducto del área de Nápoles, Italia.
Específicamente, se analizaron cerca de un millón de datos de los tres últimos años con el fin de
identificar las causas de un vaciado repentino de uno de los tanques. Los resultados encontrados
consisten en que es posible calcular el tiempo que se demora en vaciarse un tanque inferior, una
vez un tanque superior ha sido vaciado. A pesar de que este método no permite conocer cuándo y
dónde se va a presentar una falla, si permite establecer las relaciones de dependencia que no son
identificables de manera trivial, tal que se puede conocer cómo va a responder una red ante una
falla y cuáles objetos se van a ver más rápida y seriamente afectados. Además, es posible establecer
la probabilidad de falla de un objeto y, dadas las relaciones previamente establecidas, el tiempo que
la empresa tiene para actuar y reparar la falla antes de que se propague por toda la red.
Índice de Condición Técnica
El índice de Condición Técnica, o TCI, es un número entre 0 y 100 que describe el estado que
presenta un objeto. El máximo valor indica que el objeto tiene las condiciones de diseño, y el mínimo
valor indica un estado de degradación total (Berge, et al., 2013, p. 2). Los autores utilizan este índice
en una estación de bombeo, que la dividen en subsistemas, compuesto por diversos nodos, donde
a cada nodo se le asigna un valor de TCI. Al final, se calcula el valor del TCI de la estación como la
suma ponderada de todos los índices del subsistema. A pesar de que el estudio fue realizado en
una estación de bombeo, el mismo procedimiento puede ser aplicado a las RDAP, dividiendo una
red en DMAs y asignando a cada uno de éstas un TCI.
En el estudio de la bomba, los autores definieron dos variables de seguimiento en cada nodo, los
kilovatios y la temperatura. Por medio del seguimiento, bien sea en tiempo real o de los datos
históricos, se establece el valor del TCI por medio de reglas de asignación. Es decir que, si las
variables independientes están entre ciertos rangos, se asigna un valor del TCI de acuerdo con los
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 29 -
criterios establecidos previamente por los expertos. Luego, se establecen acciones a tomar según el
nivel del indicador. En la Tabla 4 se observan los valores establecidos por los autores para el
problema de la bomba. Sin embargo, estos valores pueden cambiar según la importancia del sistema
que se está evaluando y del criterio de los agentes que toman decisiones sobre el sistema en
cuestión.
Tabla 4.Valores y Acciones para el TCI. (Berge, et al., 2013, p. 3)
Valor Acción Color
90-100 No se necesitan más acciones Verde
80-90 Observar la tendencia y evaluar la necesidad de mejoramiento Amarillo
0-80 Necesidad de acción y mejoramiento Rojo
Como se nombró este no es un método que haya sido desarrollado para RDAP. Sin embargo, es
posible observar que su implementación en este tipo de redes no representa un desafío mayor. En
primer lugar es necesario determinar hasta qué punto es posible dividir la red en subsistemas a los
que se les puede realizar seguimiento. Una vez establecidos los nodos, se procede al
establecimiento de variables de seguimiento que pueden ser obtenidos en la red, o en las bases de
datos, como la presión de operación, la temperatura, o la humedad del suelo. Con esto se definen
rangos para establecer el valor de cada TCI. Por último, la ventaja de este método, más allá de su
simplicidad, consiste en que permite asignar la importancia de cada nodo, lo que además de permitir
conocer el estado de cada uno de éstos, por medio de los TCI individuales, permite conocer el estado
de la red en diferentes niveles de agregación, por medio de los TCI agregados, ponderado por lo
pesos asignados. Sin embargo, este no es un método que ha ya sido aplicado a RDAP y que, además,
no está reportado en la literatura, por lo que no es posible conocer su efectividad.
Conclusiones
Los métodos y modelos presentados anteriormente no abarcan toda la literatura que se encuentra
acerca de la minería de datos utilizando información histórica. Sin embargo, se presentaron debido
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 30 -
a que se considera que son los métodos más relevantes y de mayor aplicabilidad en el caso
colombiano. A partir de lo encontrado y discutido, es posible observar que estos métodos pueden
dividirse en dos grandes grupos, aquellos que utilizan herramientas estadísticas para predecir
futuras fallas de los sistemas, y aquellos que se basan en herramientas “puras” de la minería de
datos. En el primer grupo entran los modelos estadísticos, EPR, ZINHPP y podría incluirse TCI. En el
segundo grupo entraría el RankBoost.B y el algoritmo A-Priori y de minería de episodios. Ahora
bien, dada la aplicabilidad mostrada por los autores, y por la cantidad de datos que puede manejar
cada uno de estos métodos, se recomendaría explorar la aplicación de EPR y RankBoost.B al caso
colombiano, con el fin de observar la adaptabilidad de los modelos a los datos, y la confiabilidad de
los resultados obtenidos.
4.2. Minería de Datos Utilizando Información en Tiempo Real
Anteriormente se mencionó que la minería de datos en tiempo real hace referencia al análisis y
tratamiento de datos que son adquiridos en tiempo real, y que se van sumando de manera paulatina
a las bases de datos y a los análisis realizados. Esta información en tiempo real es adquirida por
medio de sensores que son colocados en ciertas partes de una red de tuberías, tal que se tiene “(…)
un flujo continuo de datos para tener conocimiento del desempeño de la tubería y su estado de
salud.” (Liu & Kleiner, 2012).
Dado que las tuberías para la distribución de agua potable son subterráneas, es necesario que los
sensores se encuentren bajo tierra. Sin embargo, tener este tipo de sensores, bajo tierra, en
constante funcionamiento y contacto con el suelo, implica grandes retos en la capacidad de
transmitir información, así como en el correcto funcionamiento de los mismos y su respectivo
mantenimiento. “Excavar trincheras para reparar o reemplazar sensores es extremadamente
costoso, por lo tanto los sensores deben tener una vida operacional larga sin ningún tipo de
mantenimiento. Esto significa que los sensores deben ser robustos y consumir una pequeña
cantidad de energía, con el fin de que tengan la vida útil deseada.” (Sadeghioon, et al., 2014, p. 3).
Sin embargo, otros autores afirman que las redes de monitoreo subterráneo ofrecen “(…) muchas
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 31 -
ventajas como la ocultación, facilidad de implementación, secuencia temporal de los datos,
confiabilidad, densidad de cobertura, calidad del servicio, etc.” (Van Hieu, et al., 2009, p. 1).
Más allá de las oportunidades y retos que esta tecnología ofrece, lo cierto es que las redes de
sensores inalámbricos subterráneos, UWSN por sus siglas en inglés, han aumentado su usabilidad
en los últimos años, especialmente para el monitoreo y seguimiento de tuberías en general. Por lo
tanto, más allá de su confiabilidad, deben ser estructuras fáciles de instalar en tuberías nuevas y
tuberías existentes, a la vez que deben ser no invasivos con el fin de no interferir en el correcto
funcionamiento de la estructura, así como no deben generar amenazas a la integridad estructural
de la tubería.
Por otro lado, el uso de sensores para el monitoreo continuo de redes es relevante para el concepto
de monitoreo de salud estructural, que se define como “(…) el proceso para implementar una
estrategia de identificación de daño para diversas infraestructuras.” (Liu & Kleiner, 2012, p. 1). Es
decir, es importante para asegurar que la red continuará realizando su labor a pesar de su inminente
envejecimiento y el daño acumulado. En la Ilustración 4 se observa cómo funciona, de manera
general, el monitorio constante de las tuberías, con el fin de determinar cuál es su condición,
conocer cuál es su tasa de deterioro y, a partir de esto, determinar una acción a realizar.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 32 -
Ilustración 4. Rol del Monitoreo para la Extensión de la Vida de una Tubería y su Reemplazo (Liu & Kleiner, 2012, p. 1)
Actualmente existen dos tipos de técnicas, la primera se basa en el uso de un único sensor para el
monitoreo de una red; la segunda en el uso de múltiples sensores con el fin de caracterizar de
manera completa la condición de una tubería y de una red. Esta última representa una mayor
complejidad, dado que se necesita escoger cuáles tipos de sensores utilizar, tal que sean
compatibles entre ellos mismos, a la vez que se necesita un programa que pueda integrar y analizar
los diversos datos recogidos por los sensores. En la Ilustración 5 se observa cómo funciona un
sistema compuesto de múltiples sensores, en dónde se tienen tres niveles de análisis, el nivel del
sensor, el nivel de fusión de datos, donde se validan las señales y se identifican patrones, y el nivel
de decisión, donde los operarios deciden qué acciones tomar de acuerdo con la información
obtenida.
A continuación se nombran los métodos desarrollados en la última década que buscan cumplir con
todo lo anterior, unido con la capacidad de detectar de manera rápida y temprana fallas en las redes
que pueden amenazar con su continuo funcionamiento.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 33 -
Ilustración 5. Implementación de la Fusión de los Datos de Diferentes Sensores (Liu & Kleiner, 2012, p. 5)
SCADA
Un sistema SCADA hace referencia a un sistema de control y adquisición de datos. “Es un sistema
de adquisición de datos basado en computador, diseñado para obtener datos de operaciones de
una colección de sitios en campo geográficamente remotos, y transmitir estos datos por medio de
links de comunicación a uno o más centros de control, para poder visualizar, controlar y reportar.”
(Yoon, et al., 2007, p. 1). En otras palabras es un sistema “(…) diseñado para recolectar información
en campo, transferirla a una central de cómputo, donde un operador la puede visualizar en forma
gráfica o de texto, permitiendo que el operador monitoree o controle todo el sistema desde una
localización central en tiempo real.” (U.S. Department of Commerce, 2006, pp. 2-6). Sin embargo,
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 34 -
un sistema SCADA, a pesar de que asiste a los operarios en la operación de una red, no provee una
función de control completa y robusta.
De acuerdo con Ferro, un sistema SCADA provee una gran cantidad de medidas y alarmas en
diferentes parte de una red. Sin embargo, las alarmas transmitidas al centro de control no explican
la causa de la misma, por lo tanto un sistema SCADA no puede basarse únicamente en la adquisición
de datos, es necesario que exista un software que permita el manejo de los datos y de las alarmas,
así como permite identificar y visualizar datos falsos y la investigación de las primeras causas de
porqué se activaron las alarmas (Ferro, et al., 2004, pp. 1-2).
Usualmente, un sistema SCADA está compuesto de un hardware y un software. El hardware típico
está compuesto de sensores, equipos de comunicación, y uno o varios centros de control. El
software busca decirle al sistema cuándo y cómo monitorear, qué rango de parámetros son
aceptables y qué respuesta iniciar cuando los parámetros están por fuera de los rangos establecidos.
En la Ilustración 6 se observan los componentes y la configuración general de un sistema SCADA. A
la izquierda se presenta el centro de control, que recoge y registra la información obtenida de los
sitios de campo, genera un registro visual de la información recolectada y genera acciones de
acuerdo con los eventos detectados. También es responsable de generar alarmas centrales, análisis
de tendencia y reportes de cómo está el sistema. A la derecha de la ilustración se tienen los sensores
de campo, que registran información de manera constante y envían la información a los centros de
control. Por último, en la zona de la mitad de la ilustración se tienen los protocolos de comunicación
entre el centro de control y los centros en el campo. Esta información puede ser transmitida por
líneas telefónica, radio frecuencia, satélites, entre otros.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 35 -
Ilustración 6. Disposición General de un Sistema SCADA. (U.S. Department of Commerce, 2006, pp. 2-7)
A partir de lo anterior, es posible observar que la mayoría de datos adquiridos sobre el
funcionamiento de una red, son recolectados por medio de sistemas SCADA. Sin embargo, los
algoritmos con los que se analiza esta gran cantidad de información en tiempo real todavía siguen
en desarrollo. Los métodos y programas nombrados a continuación, buscan, en la mayoría de los
casos, desarrollar sistemas de apoyo a la decisión, en los que se integra la información obtenida de
los sistemas SCADA con programas computacionales de minería de datos, que filtren y seleccionen
los datos, tal que se puedan identificar patrones del desempeño y funcionamiento de la red, con el
fin de realizar acciones correctivas o preventivas sobre la misma.
Tipo de Sensores
Hasta el momento se ha mencionado que en el campo se utilizan diversos sensores con el fin de
determinar cuál es el estado de la red. Por lo tanto, se va a realizar un recuento de cuáles son los
sensores que se utilizan, para qué se utilizan y cómo se utilizan.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 36 -
Corrosión
Son sensores que miden la tasa de corrosión de una tubería. Funciona por medio de resistencias
eléctricas que miden la cantidad de metal perdido a causa de la corrosión. En otras palabras, un
elemento metálico que se encuentra subterráneo experimentará pérdida de material debido a la
corrosión. Como consecuencia experimentará un cambio, específicamente un aumento en su
resistencia eléctrica. Por lo tanto, a mayor aumento de su resistencia eléctrica con respecto al valor
original o un valor de referencia, mayor habrá sido la corrosión experimentada por un tubo.
En la Ilustración 7 se observa un sensor típico de corrosión. Es recomendable que esté fabricado con
el mismo material de la tubería, con el fin de que las características sean las mismas. También se
recomienda que al momento de colocar el sensor, sea colocado cerca del objeto de interés, tal que
ambos se encuentren a la misma temperatura y así disminuir los posibles errores presentados por
diferencias de temperatura. Como es de esperarse, estos sensores se colocan en sitios específicos
de las tuberías, sin embargo es raro que éstas se corroan de manera uniformes. Por lo tanto, colocar
un único sensor en tuberías de gran longitud no garantiza que se presente una buena representación
de la condición en la que éstas se encuentran.
Ilustración 7. Sensor Típico de Corrosión.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 37 -
Sensores de Emisiones Acústicas
“Las pruebas de emisión acústica se basan en la detección de ondas de sonido generadas dentro del
material (por ejemplo, cuando una grieta se propaga).” (Liu & Kleiner, 2012, p. 2). Estos sensores
se colocan dentro de la tubería o encima de la misma para monitorear la actividad acústica. Las
señales que son obtenidas de las tuberías son comparadas con señales o patrones conocidos de
eventos que han sido registrados previamente. De esta forma, si el patrón coincide con alguno
conocido, es posible conocer cuál es el problema que se está presentando.
Actualmente existen diversos tipos de sensores que se utilizan para este fin. Más allá de cuáles son
los sensores utilizados, existen dos variables generales con los que todos los sensores están
relacionados. La primera es el espaciamiento de los sensores y la segunda la duración del monitoreo.
El espaciamiento es importante dado que determina la precisión de los datos obtenidos, donde a
mayor espaciamiento menor precisión y viceversa. Sin embargo, el espaciamiento óptimo es aquel
que permite que dos sensores capturen el mismo evento acústico y, además, tenga suficiente
información para identificar la fuente del evento. Para el caso del tiempo de monitoreo, a mayor
tiempo de monitoreo mayor representación de la situación de la tubería, pero esto representa un
mayor funcionamiento permanente de los sensores. Por el contrario, a menor tiempo de monitoreo
es posible colocar sensores temporales en las tuberías, tal que estos se puede ir desplazando por la
longitud de la misma.
Sensores de fibra óptica
Actualmente se implementa un sensor de fibra óptica para monitorear la corrosión de las tuberías.
Éste mide los cambios en el grosor de la pared de la tubería por medio del cambio en la deformación
superficial que se presenta por la variación en los estados de esfuerzos. Para poder calcular el
cambio en el grosor de una tubería es necesario colocar tres tipos de sensores. El primero mide la
deformación que es causada por el adelgazamiento de la pared por las variaciones en la presión
interna de la tubería. Los otros dos sensores compensan por la variación operacional que se
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 38 -
presenta en la temperatura y la presión de la tubería. En otras palabras, estos últimos buscan
disminuir el error que se puede presentar por los cambios de presión y de temperatura que ocurren
por la operación de la tubería. En algunos casos, la literatura ha reportado que estos sensores
también se utilizan para medir la deflexión de las tuberías por movimientos de tierra.
Sensores de Presión
Para el monitoreo de tuberías, es usual utilizar sensores de presión piezoeléctricos. “Éstos se basan
en el principio de que una presión externa ejercida en cristales piezoeléctricos causan una
deformación elástica, que es convertida a una señal eléctrica.” (Yoon, et al., 2007, p. 85). Por lo
tanto, a mayor variación de las señales eléctricas recibidas, se está presentando mayor variación de
la presión dentro de la tubería.
Estos sensores se caracterizan por su alta precisión, que es del orden del 1%, así de como su rápida
respuesta en el tiempo. También por su facilidad de instalación, uso y su adaptabilidad a la mayoría
de materiales utilizados para las tuberías.
Detectores de resistencia de temperatura
Como su nombre lo indica, es un sensor para detectar la temperatura, que funciona por medio de
los efectos termoeléctricos de ciertos materiales. Este efecto indica que un material presenta un
cambio lineal en su resistencia eléctrica debido a los cambios de temperatura que se encuentran en
ciertos rangos establecidos (Yoon, et al., 2007, p. 87). Este tipo de sensor es ampliamente utilizado
por su sencillez, facilidad de aplicación y capacidad de obtención de medida precisas bajo
condiciones normales de operación. Además presenta gran estabilidad y repetitividad.
Se nombraron los sensores más utilizados para el monitoreo de redes de tuberías. Esto no implica
que los sensores nombrados sean los únicos que existen en el mercado, mas si son los sensores que
se suelen utilizar en los métodos que se van a nombrar a continuación. Por último, vale la pena
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 39 -
resaltar que en muchos casos, cada empresa manda a fabricar sus sensores de acuerdo con sus
propias necesidades.
PipeNET
El sistema PipeNET, que fue instalado y probado durante 22 meses en la ciudad de Boston, está
basado en una red de sensores con conexión inalámbrica, cuyo objetivo es el de “(…) detectar,
localizar y cuantificar las explosiones, fugas y otras anomalías en tuberías de agua como bloqueos o
válvulas de control que están mal funcionando.” (Stoianov, et al., 2009, p. 1). También se puede
utilizar para monitorear la calidad del agua en sistemas de distribución de agua potable y monitorear
los niveles de agua en alcantarillados. Todo lo anterior lo permite debido a que soporta el análisis y
recolección de grandes cantidades de datos recolectados de múltiples lugares geográficos.
En la Ilustración 8 se muestra la arquitectura general del sistema. Está compuesto por tres tipos de
sensores, sensores piezoeléctricos para medir la presión y la velocidad de flujo de una tubería,
medidas que permiten detectar grandes fugas y explosiones; sensores de emisiones acústicas para
detectar pequeñas fugas, que pueden ser las precursoras de explosiones catastróficas; y sensores
genéricos que permiten monitorear la calidad del fluido que se está transportando.
Ilustración 8. Arquitectura del Sistema PipeNET. (Liu & Kleiner, 2012, p. 4)
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 40 -
Este proyecto fue financiado por instituto de Cambridge-MIT y fue desarrollado en dos fases. La
primera consistió en evaluar los componentes críticos del sistema por medio de la instalación del
montaje en una infraestructura real. Es decir que se realizó el montaje en la infraestructura existente
de la ciudad de Boston, por medio de la realización de unas pruebas de instalación de los sensores
en escala pequeña. Específicamente se instalaron los sensores en tres nodos de la red, con el fin de
conocer la durabilidad de los sensores, la confiabilidad del protocolo de comunicación bajo
condiciones de operación normal y conocer la facilidad de instalación, mantenimiento y costo
asociado a cada montaje. La segunda fase consistió en realizar una serie de algoritmos para detectar
y localizar la posición exacta de la fuga, que fueron probados en un laboratorio. Luego de haber
ensayado lo anterior, se procedió a validar en el laboratorio la capacidad de capturar y transmitir
grandes cantidades de datos en tiempo real, así como el alcance de las técnicas de análisis de datos.
Para la parte de la instalación en la infraestructura existente, como se nombró, se utilizaron tres
tipos de sensores. Los sensores de presión recolectaban información en intervalos de 5 minutos,
por un período de 10 segundos, con una tasa de captación de información de 100 muestras por
segundo. Es decir, que en el período de medición se obtenía en cada sensor un total de 1,000 datos.
También se utilizaron sensores ultrasónicos para corroborar las mediciones de presión. Dado el alto
consumo energético de estos sensores, sólo se utilizaban cuando las mediciones de presión
excedían un umbral definido. Acerca de la utilización de los otros sensores no se da ninguna
información. Por último, la tasa de envío de datos era de 600 muestras por segundo. Sin embargo,
no todos los datos eran enviados a la central; el sensor puede calcular medidas estadísticas básicas,
como la media, la desviación estándar y el máximo y mínimo, que luego eran enviados a la central
de control. Así mismo, lo sensores no están comunicados directamente a la central de control; por
medio de conexión Bluetooth se conectan con antenas que se comunican con cajas de control,
conocidas como Stargates, colocadas en postes cercanos, que vía GPRS, la misma red de los
celulares, envían la información a la central de control. En la Ilustración 9 se puede observar cómo
es la instalación de uno de estos sensores.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 41 -
Ilustración 9. Instalación del Sistema PipeNET. (Stoianov, et al., 2009, p. 2)
Después de haber instalado y probado el sistema, se encontró que, en primer lugar, es necesario
que los sensores no funcionen con baterías comerciales, pues debido a su baja durabilidad se
presentaron grandes intervalos de tiempo en los que no se tuvo información dado que no fue
posible ir a realizar el cambio de baterías. En segundo lugar, se presentaron problemas para separar
los datos que eran recolectados y los que debían ser enviados. Esto ocurrió por la gran cantidad de
datos manejados, unido con la baja capacidad de almacenamiento interno de los sensores, así como
por el hecho de que la recolección de datos y el envío de los mismos eran tareas realizadas en el
mismo sitio interno del sensor.
Ahora bien, luego de haber expuesto el funcionamiento físico del sistema, se procede a exponer los
algoritmos desarrollados por los autores con el fin de poder detectar pequeñas y grandes fugas. Es
necesario recordar que estos algoritmos sólo fueron probados en el laboratorio. Se desarrolló un
algoritmo para el análisis de los datos de presión, conociendo que grandes fugas generan caídas en
la presión del sistema. Por lo tanto, por medio de transformaciones que permiten detectar pulsos
de presión, es posible determinar aquellos cambios de presión que generan los pulsos de mayor
magnitud. Esto se puede observar en la Ilustración 10, donde en la imagen (a) se muestra el montaje
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 42 -
del laboratorio, en la imagen (b) se muestran los datos recogidos por los sensores, donde el color
rojo representa el sensor más cercano a la falla, y el color verde el sensor más lejano, en la imagen
(c) se muestra las transformaciones realizadas, tal que a más cercano a 1 sea el valor de la
transformada mayor es la caída en presión, y a más cercano a -1 mayor es el aumento en la presión.
Ilustración 10. Ejemplo del Algoritmo para Detector Cambios en la Presión. (Stoianov, et al., 2009, p. 5)
Es posible observar que con este algoritmo se puede identificar el sensor más cercano a donde
ocurre la fuga, a la vez que es posible conocer qué tan grande es la fuga. Sin embargo, para poder
llevar a cabo el mismo fue necesario que toda la información fuese transmitida a los computadores,
donde luego era almacenada y procesada. Se espera que, en un futuro, el análisis pueda ser
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 43 -
realizado en los sensores, de tal forma que la cantidad de información que es transmitida y
almacenada en los computadores sea disminuida, minimizando los costos operacionales.
Luego, se desarrolló un algoritmo para el análisis de los datos acústicos. Este algoritmo se basa en
el hecho de que en el momento en que se presenta una fuga, se presenta una señal acústica, que
se propaga de manera uniforme en las dos direcciones horizontales, de magnitud relativamente alta
en bandas de frecuencia que son características del material de la tubería. En otras palabras, “(…) si
no se presenta una fuga u otras fuentes de señales auditivas en la tubería, la señal en los diferentes
sensores no debe estar correlacionada. No obstante, si se presenta una fuga, todos los sensores
deberían ‘oírla’, aunque la señal recibida por diferentes sensores estará desplazada en el tiempo
dependiendo de la localización de éstos con respecto a la fuga.” (Stoianov, et al., 2009, p. 6). En la
Ilustración 11 se observa como se ve una fuga en los datos obtenido por un sensor. El algoritmo
debe hallar señales parecidas, o correlacionadas en los otros nodos, con el fin de poder determinar
el lugar de la fuga.
Ilustración 11. Manifestación de una Fuga por Ondas Acústicas. (Stoianov, et al., 2009, p. 6)
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 44 -
Analizando el comportamiento de estos algoritmos, a pesar de que no son perfectos, permitieron
detectar una gran cantidad de fugas simuladas en el laboratorio. Adicionalmente, el último
algoritmo sólo detectaba fugas que estuviesen a 30 centímetros de un sensor cuando éstos estaban
separados a máximo 3 metros de distancia. Esto puede ocurrir debido a la escala pequeña de
implementación del experimento. Es decir, que es necesario probar estos algoritmos en la
información enviada por los sensores colocados en la red, con el fin de determinar el alcance y la
confiabilidad de los mismos.
Sin llegar a ser un sistema perfecto, y con mucho camino por delante, PipeNET ha sido uno de las
primeras aproximaciones al desarrollo de un sistema de apoyo de toma de decisiones basado en los
datos obtenidos en campo en tiempo real, y en los análisis realizados con el fin de adquirir
información del estado del sistema. Así mismo, es un sistema de bajo costo de producción,
instalación y mantenimiento que puede ser aplicado en una gran cantidad de materiales. Por lo
tanto, es necesario esperar para conocer el resultado de la tercera fase del estudio, que es la
implementación del software desarrollado en el laboratorio, en la información obtenida de los
sensores colocados en la red.
WaterWise
WaterWise “(…) es un sistema integrado de hardware y software que busca monitorear, analizar y
modelar grandes sistemas urbanos de distribución de agua en tiempo real.” (Allen, et al., 2011, p.
1). Por medio de éste, se busca implementar una red inalámbrica de sensores de bajo costo para
realizar monitoreo online de parámetros hidráulicos y de calidad de la red; aplicar algoritmos de
minería de datos para poder realizar la detección remota de y fugas y roturas; y, por medio de
mediciones en tiempo real de presión y flujo de los sensores, poder asimilar esta información en
modelos hidráulicos que permitan mejorar las estimaciones realizadas de la red.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 45 -
Este proyecto fue realizado en la ciudad de Singapur y fue financiado por una fundación en Singapur
unido con el MIT. Se colocaron 25 sensores en 60 kilómetros cuadrados del centro de la ciudad. La
red en esta área se caracteriza por tener más de 19,000 uniones y más de 20,000 tuberías. La
distancia promedio entre sensores era de un kilómetro. El costo aproximado de realizar el montaje
fue de $500,000 dólares americanos.
Durante el estudio se utilizaron dos tipos de sensores, ambos con la capacidad de recolectar de
forma continua grandes cantidades de datos y transmitirlos, en tiempo real, a los servidores del
proyecto. Adicionalmente, ambos tipos de sensores están en la capacidad de realizar análisis
internos de los datos, en caso de ser necesario. El primer tipo de sensor era la unión de un
transductor de presión, un hidrófono (o sensor acústico) y un caudalímetro. Los primeros dos podían
recoger hasta 2,000 datos por segundo, mientras que el caudalímetro tan sólo recolectaba un dato
por segundo. El segundo sensor utilizado consistía en los mismos anteriores unido con un sensor de
calidad de agua, con una frecuencia de 0.033 datos por segundos. Además se le incluyó una memoria
digital de 2 Gb capaz de almacenar los datos de varios días, en caso de que la comunicación
inalámbrica se viese interrumpida. Todos los datos capturados por los sensores son procesados por
unidades de procesamiento resistentes al agua, como el que se observa en la Ilustración 12 (a).
Adicionalmente, todos los sensores están equipados con un modem USB de tecnología 3G para
poder transmitir por medio de internet y de forma continua los datos recolectados. También tienen
una unidad GPS para coordinar el reloj interno del sensor con la hora universal, permitiendo la
uniformidad y homogeneidad de los datos recolectados.
En cuanto a la instalación física de los sensores, cada nodo estaba conectado a la tubería, como se
muestra en la Ilustración 13. Específicamente los sensores de presión y de acústica, que se observan
en la Ilustración 13 (a) se colocan al lado de la pared de la tubería, mientras que los sensores de
caudal y calidad de agua están conectados con el interior de la tubería (Ilustración 13 (b)).
Adicionalmente, los sensores se comunican por medio de cables eléctricos a la unidad de
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 46 -
procesamiento, que se encuentra sobre el suelo, Ilustración 12 (b), y está alimentada por baterías
que se recargan durante el día por medio de energía solar.
(a) Unidad de procesamiento de los sensores
(b) Conexión a la tubería
Ilustración 12. Ubicación de la unidad de procesamiento. (Allen, et al., 2011, p. 5)
(a) Sensor WaterWise
(b) Conexión a la tubería
Ilustración 13. Instalación del Sistema WaterWise. (Allen, et al., 2011, p. 4)
Luego de conocer cómo funcionan los sensores y cómo están instalados, se procede a conocer la
forma en que los datos se analizan. Esto se observa en la Ilustración 14. En primer lugar, los diversos
sensores recogen los datos de las diferentes tuberías, luego se realizan diversos algoritmos de
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 47 -
reducción y filtración, con el fin de sólo considerar datos relevantes y no redundantes. Esta
información filtrada es transmitida a los servidores. Estos tres pasos se realizan en cada unidad de
procesamiento de los nodos. Los datos recibidos por el servidor son analizados para obtener las
medidas estadísticas básicas como la media, el mínimo, el máximo y la desviación estándar. Después
de obtener estos valores, los datos son archivados para usos futuros, y los valores son calibrados y
transmitidos a la base de datos para que puedan ser visualizados en la plataforma web del sistema.
Ilustración 14. Esquema del Flujo de Información en WaterWise. (Allen, et al., 2011, p. 6)
El sistema WaterWise se caracteriza porque toda su interfaz al usuario está soportada en la web.
Esto permite que un usuario, desde cualquier lugar del mundo, pueda tener acceso a la visualización
de la información hidráulica y de calidad del agua, a la detección de anomalías y a modelaciones
hidráulicas de la red. Todo lo anterior se obtiene con los valores estadísticos calculados
anteriormente. Además, el usuario puede tener acceso a la información agregada de los diferentes
sensores, así como a la información obtenida de manera individual por cada uno de éstos. Un
ejemplo de la información obtenida en un sensor se muestra en la Ilustración 15, donde se muestran
los registros de presión del nodo sensor para una semana.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 48 -
Ilustración 15. Ejemplo de la Información Obtenida para un Nodo en una Semana. (Allen, et al., 2011, p. 7)
Otro de los objetivos del sistema, como se nombró al inicio, es el de aplicar algoritmos de minería
de datos para poder realizar la detección remota de fugas y roturas. La metodología que los autores
utilizan para detectar una fuga y poder localizarla es la misma que utiliza el sistema PipeNET. La
diferencia radica en que, para este caso, el algoritmo fue probado en una red real de gran tamaño,
y no sólo en el laboratorio como en el caso de Stoianov. En la Ilustración 16 se observa el resultado
del algoritmo, donde, al igual que en el caso anterior, un valor de la transformada cercano a 1 indica
una fuerte caída en la presión del sistema, mientras que un valor cercano a -1 indica un fuerte
aumento en la presión.
Ilustración 16. Ejemplo del Algoritmo para Detector Cambios en la Presión en WaterWise (Allen, et al., 2011, p. 9)
Luego de identificar una fuga, es necesario proceder a localizar dónde se encuentra la misma. Para
esto, los autores utilizan un método similar al de PipeNET. El algoritmo de localización está basado
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 49 -
en un procedimiento de búsqueda en gráficas, que determina el lugar físico que presenta un mejor
ajuste a las diferencias relativas de tiempo entre las llegadas de los frentes que simbolizan los
cambios de presión en los diferentes nodos de sensores. En otras palabras, compara las gráficas de
presión de cada nodo, y aquel donde primero se presentó la disminución de presión es el más
cercano a la fuga. De manera similar, el siguiente nodo donde se presentó una disminución es el
siguiente más cercano, y así consecutivamente. De esta manera, es posible ir creando un perímetro
de nodo para localizar la fuga. Un ejemplo, aplicado a 3 nodos se encentra en la Ilustración 17. Para
el futuro, con el fin de mejorar el alcance y la confiabilidad del sistema, se busca experimentar con
la red de sensores, con el fin de analizar fugas de mayor realismo, así como se busca determinar si
existe algún beneficio de utilizar múltiples parámetros para estimar el sitio donde ocurrió la fuga.
Ilustración 17.Ejemplo Algoritmo de Localización de la Fuga WaterWise. (Allen, et al., 2011, p. 9)
Por último, los autores hacen especial énfasis en la confiabilidad de la transmisión de los datos entre
los nodos y el servidor, tal que se pueda garantizar que un alto porcentaje de los datos recogidos
son transmitidos. En la literatura se ha reportado que un 99.99% de los datos recogidos son enviados
de manera satisfactoria (Doherty & Teasdale, 2006, p. 4). En la red reportada se alcanzó una
confiabilidad del 86%. Entre las causas encontradas de la baja confiabilidad se encuentra la pausa
en la actividad de los sensores debido a baterías descargadas, problemas de software y
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 50 -
mantenimiento; y pausas en el envío de datos debido a problemas de la red de datos. Esta falta de
datos genera una imprecisión en los datos analizados y, por ende, lleva a la necesidad de realizar
estimaciones que reducen la confiabilidad de los algoritmos aplicados.
La importancia de este sistema radica en que demuestra que es posible realizar la implementación
de redes de sensores inalámbricos en RDAP existentes, sin necesidad de incurrir en altos costos de
operación y reparación. De manera específica, su valor radica en que prueba los algoritmos en las
redes existentes de la ciudad y no en unas cuantas tuberías en un laboratorio. Adicionalmente, no
sólo se preocupa por la precisión de los algoritmos, sino que revisa la confiabilidad y durabilidad de
los datos, logrando así, la construcción de un sistema robusto y confiable. Se espera que, en un
futuro el desarrollo de este sistema esté basado en la implementación de algoritmos de minería de
datos en los nodos de los sensores, que permitan disminuir la cantidad de datos transmitidos, así
como permitan conocer el sitio de las fugas sin necesidad de que los datos sean analizados en el
servidor principal.
SmartPipes
Este proyecto consistió en el diseño, desarrollo y realización de pruebas en una red inteligente de
sensores inalámbricos, para la detección de fugas en tuberías pláticas de transporte de agua, basado
en los cambios indirectos de presión presentados. Se realizaron pruebas en campo y en el
laboratorio, esto último con el fin de validar los resultados y algoritmos obtenidos. Finalmente, este
sistema se caracteriza por hacer hincapié en el uso de sensores de consumo ultra bajo de energía,
con el fin de garantizar una larga vida útil de los mismos, así como una fuerte confiabilidad para la
captura de datos y el envío de los mismos.
La red de sensores propuesta por los autores consiste en una cantidad de sensores colocados en
función del presupuesto y del tamaño de la red. Se caracteriza porque cada nodo sensor está
comunicado con el nodo inmediatamente anterior y el nodo inmediatamente posterior por medio
de radio frecuencia. Para cada 4 o 5 nodos existe un nodo maestro, que también se comunica por
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 51 -
medio de radio frecuencia, y tiene la capacidad de conectarse a internet y transmitir la información
que ha recibido de los nodos. Luego, la información que ha sido colocada en internet, puede ser
consultada por cualquier aparato que tenga conexión a la web. Esquemáticamente, lo anterior se
observa en la Ilustración 18.
Ilustración 18. Esquema Propuesto para SmartPipes. (Stoianov, et al., 2009, p. 4)
En la Ilustración 19 se muestra el esquema propuesto para un nodo sensor. Está compuesto por una
unidad micro-controladora, MCU, que es responsable de obtener los datos de las mediciones,
procesar la información, manejar el régimen de energía y enviar la información al transmisor para
que envíe los datos al nodo maestro o a los nodos adyacentes. La unidad de manejo de energía es
la encargada de transformar la energía recibida como voltaje de las baterías, para que pueda ser
utilizable por lo demás elementos. Por último, el acondicionador de señal regula y condiciona las
señales a formato digital, antes de que sean transmitidas al MCU.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 52 -
Ilustración 19. Esquema de un Nodo Sensor. (Stoianov, et al., 2009, p. 4)
En la Ilustración 20 se observa el montaje propuesto para la instalación de los sensores. Es posible
notar que es un sistema no invasivo, pues está colocado sobre la pared externa de la tubería sin
afectar el ambiente interno de la misma. Por lo tanto, el sistema opera basado en el principio de
que cambios en la presión de la tubería generan cambios en el diámetro de la misma. De esta
manera, a medida que el diámetro aumenta, el sensor es forzado a mantener contacto con el clip
colocado. Es así que, el sensor mide la presión interna de la tubería según la magnitud de la fuerza
experimentada entre el sensor y el clip.
Ilustración 20. Esquema de la Instalación del Sensor. (Stoianov, et al., 2009, p. 7)
Los autores también proponen utilizar sensores para detectar las fluctuaciones de la temperatura
en la tubería. La razón por la que se decide monitorear este parámetro consiste en que, según los
MCU
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 53 -
autores, una fuga puede no ser registrada por los sensores de presión, pero, “(…) potencialmente
puede cambiar el perfil local de temperatura del suelo, en comparación con las medidas de otros
nodos que se encuentran a mayor distancia de la fuga.” (Sadeghioon, et al., 2014, p. 9).
Adicionalmente, cambios en los flujos pueden generar cambios en la temperatura de la pared de la
tubería en comparación con la temperatura del suelo alrededor.
Como se nombró, se hace especial énfasis en el bajo consumo de energía. Esto se logra manteniendo
en estado de hibernación a los sensores. Por medio de alarmas programadas, se inicializan los
sensores para que capturen y procesen los datos, luego creen paquetes de datos y los envíen a otros
nodos para así, volver a quedar en estado de hibernación. En este estado el componente MCU corta
el suministro de energía a todos los demás componentes, con el fin de minimizar el consumo. Con
base en la teoría de que las condiciones estructurales de la tubería presentan tasas de cambio muy
pequeñas, se determinó que los sensores funcionaran por tres segundos aproximadamente cada 6
horas, lo que permite obtener una vida útil teórica de los sensores de 100 años, si se utilizan dos
baterías de litio AA.
Después de haber diseñado lo sensores, se realizó un montaje de laboratorio y se colocó un nodo
sensor en una tubería de la RDAP. Para el montaje del laboratorio, se simuló una pequeña fuga que
se convirtió en un rompimiento. Los resultados obtenidos se muestran en la Ilustración 21, donde
es posible notar que una fuga se puede identificar como una disminución momentánea y repentina
de la presión del sistema. Al igual que con los sistemas pasados, SmartPipes identifica cuáles fueron
los dos sensores que más pronto identificaron la disminución de la presión, para localizar la fuga
entre estos dos. Sin embargo, este sistema no permite conocer de manera exacta la localización
física de la fuga.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 54 -
Ilustración 21. Cambios de Presión a Causa de una Fuga. (Stoianov, et al., 2009, p. 11)
Para el montaje en campo, por medio del manejo de diversas válvulas se buscó simular fugas en el
sistema de tuberías. Los resultados se muestran en la Ilustración 22. A partir de ésta, es posible
concluir que el sensor propuesto es capaz de registrar de forma fiel los cambios en la presión del
sistema, pues cada una de las disminuciones repentinas de la presión está acorde con una válvula
abierta. Adicionalmente, es posible observar que, cuando la presión disminuye, también lo hace la
temperatura de la tubería. Sin embargo, no es posible determinar un patrón dominante entre la
temperatura del suelo y fugas en el sistema. Por este motivo, la hipótesis que los autores habían
señalado no es válida.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 55 -
Ilustración 22. Mediciones de los Sensores en el Montaje de Campo. (Stoianov, et al., 2009, p. 12)
A partir de los datos presentados, es posible concluir que tanto los sensores de presión como de
temperatura funcionan para determinar si se han presentado fugas en el sistema. Estas fugas se
registran como caídas de temperatura y de presión súbitas y repentinas. Adicionalmente, el uso de
sensores con ultra-bajo consumo de energía representa una ventaja dado que garantiza una larga
vida útil del sistema, así como la confiabilidad del mismo. Sin embargo, este sistema no hace énfasis
en el tipo de algoritmos utilizados, ni desarrolla un algoritmo para establecer la localización exacta
de la fuga. Esto, unido al hecho de que tan sólo fue probado en un punto de una RDAP, genera que
el sistema tenga baja confiabilidad y credibilidad. Tan sólo en la medida que otros investigadores
prueben y validen la metodología aquí propuesta, será recomendable aplicar este sistema a otras
redes.
iWidget
iWidget es un proyecto de la comunidad europea, que cuenta con la participación de 9
organizaciones distribuidas en toda la Unión Europea. Es un proyecto que inició en el año 2012 y
tiene como fecha de finalización el año 2015, por lo que todavía está en desarrollo y la bibliografía
disponibles reducida. Uno de los fines del proyecto consiste en avanzar en el conocimiento y
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 56 -
entendimiento de las tecnologías inteligentes de medición, con el fin de alcanzar un manejo
inteligente del recurso y llegar a tener una sociedad inteligente; también se espera “(…) desarrollar
un set de metodologías y herramientas que sean novedosas, robustas y eficientes en costos, que
permitan manejar la demanda urbana de los hogares a través de Europa.” (Savic, 2014)
Entre otras definiciones del proyecto se tiene que “(…) busca encontrar soluciones novedosas
basadas en las tecnologías de información, con el fin de apoyar un manejo integral del agua,
mejorando drásticamente la eficiencia en su uso, disminuyendo el desperdicio por casa y
permitiendo que las empresas de servicios públicos realicen un mejor manejo de la demanda del
recurso.” (iWidget, 2014). En otras palabras, es un proyecto que busca mejorar la eficiencia del uso
del agua, por medio de la implementación de nuevas tecnologías de información y comunicación,
que buscan integrar el manejo del recurso tanto por los usuarios como los proveedores. Todo lo
anterior se realiza para mejorar el entendimiento que tienen los usuarios y los proveedores de los
patrones del uso del agua con el fin de disminuir el uso de este recurso, unido con una disminución
del desperdicio del mismo.
Entre los objetivos específicos del proyecto se encuentra que se quiere manejar y extraer
información relevante de grande cantidades de datos obtenidos de los patrones de consumo de los
usuarios; desarrollar campañas personalizadas de intervención y concientización para inducir los
cambios de comportamientos de los usuarios y de los proveedores; lograr la integración del sistema
iWidget en un sistema de apoyo a la decisión para proveedores y consumidores.
Como es posible notar, este sistema está compuesto por dos módulos, el módulo para los usuarios
del sistema en los hogares, y el módulo para las empresas proveedoras del agua potable. Para el
primer caso, se busca que el sistema analice los patrones de consumo individual de cada hogar. De
esta forma es posible presentar, de manera fácil y entendible, los datos acerca del consumo de un
hogar. Con el fin de mejorar los hábitos del consumo, se espera que el sistema permita comparar el
consumo de un hogar con el consumo de otros usuarios de características similares; comparar el
consumo con perfiles de consumo estándar, como por ejemplo consumidores con factores socio-
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 57 -
demográficos similares; comparar el consumo con los usuarios más eficientes; predecir el precio de
la factura del próximo mes, entre otros. Todo lo anterior, para poder dar recomendaciones
personalizadas de cómo mejorar el consumo de agua para poder reducir el desperdicio del recurso.
También se espera que el sistema genere alarmas en caso de que se sospeche que se presenta una
fuga. En la Ilustración 23 es posible observar la interfaz del usuario, donde en la imagen (a) se
muestra las gráficas de consumo a las que un hogar tiene acceso, y en la imagen (b) se muestra
cómo el sistema busca concientizar a los usuarios acerca del uso que le están dando a los recursos,
por medio del uso de caritas felices.
(a)
(b)
Ilustración 23. Imágenes de la Interfaz del Usuario del Sistema iWidget. (Savic, 2014)
En cuanto al módulo para las empresas de servicios públicos, éste consiste en ayudar a predecir la
demanda del sistema y el manejo de la misma. También, permitirá diseñar campañas de
intervención y concientización, por medio del uso de las teorías de cambio de comportamiento de
las ciencias sociales. Se espera, además, optimizar la operación en tiempo real del sistema, en
términos de la eficiencia energética de la distribución del agua, y mejorar la planeación operacional
y el manejo a largo plazo de los activos (Loureiro, et al., 2010, p. 2). Desafortunadamente, para este
módulo no se tienen imágenes disponibles.
Ahora bien, en cuanto a la arquitectura del sistema, en la Ilustración 24 se observa cómo fue
planeada. La idea es que se recolectan datos en los hogares y en la redes de distribución, que luego
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 58 -
serán transmitidos a la base de datos del sistema iWidget, en donde, por medio de diversos
algoritmos de minería de datos se podrán conseguir patrones con el fin de dar recomendaciones
para mejorar el consumo de los hogares, y se pueda mejorar las estrategias de operación de las
empresas. Esto último se puede hacer por medio de la presentación de la información a través de
la interfaz gráfica al usuario. De forma más intuitiva, lo anterior se puede observar en la Ilustración
25, donde se observa cómo, después de todo los análisis realizados, se espera tener dos sistemas
de apoyo a la decisión, el primero para los hogares y el segundo para las empresas prestadoras de
los servicios.
Ilustración 24. Arquitectura del Sistema iWidget. Adaptado de (iWIDGET, s.f., p. 7)
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 59 -
Ilustración 25. Arquitectura del Sistema iWidget. (Savic, 2014, p. 4)
A pesar de que es un proyecto que todavía está en desarrollo y que todavía no se tienen los
productos finales esperados, es posible observar la envergadura del mismo. No sólo se espera tener
el montaje de un hardware para ambas partes del sistema, también se espera tener un software
especialmente diseñados para las necesidades y requerimientos de cada parte. Así mismo, es
posible observar la significancia de este proyecto, en el que están incluidos más de cinco países de
Europa. Aunque actualmente sólo se están realizando pruebas en campo en Inglaterra, Portugal y
Grecia, si el proyecto logra crear un sistema exitoso, que cumpla con los objetivos planteados al
inicio, se logrará mejorar el consumo y distribución del agua por parte de los usuarios y las empresas
prestadoras del servicio respectivamente.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 60 -
InfraSense
InfraSense es un sistema de “(…) recolección de datos y tecnología de administración que extrae
indicadores estáticos y dinámicos que caracterizan la ocurrencia de inestabilidades hidráulicas y
flujos inestables.” (Hoshkins & Stoianov, 2013, p. 1). Lo anterior se realiza por medio del desarrollo
de algoritmos que, de manera dinámica, establecen umbrales para poder definir eventos anormales.
Este sistema está compuesto de sensores de bajo consumo energético, colocados en hidrantes, que
de manera continua registran la presión del sistema; así como de un sistema de manejo de datos
que permite aplicar los algoritmos desarrollados con el fin de correlacionar y analizar altos
volúmenes de datos que están sincronizados en el tiempo, es decir, que fueron tomados en el mismo
instante de tiempo. Como afirman los autores, el sistema InfraSense es comparable con la caja negra
de un avión, que de manera continua extrae registros del desempeño del sistema, y a la vez, obtiene
indicadores esenciales que describen el comportamiento dinámico del mismo.
En la Ilustración 26 se observa el diagrama del sistema, en donde se muestra cómo funciona. En
primer lugar se tiene una gran cantidad de datos que son registrados por cada uno de los nodos
colocados. Toda la información recolectada es transmitida a una base de datos central, donde es
almacenada durante cuatro meses. A la vez, a los datos se le aplican algoritmos, con el fin de calcular
los indicadores estáticos y dinámicos del sistema, que indican el estado actual de la red. La
combinación de estos indicadores, con información topológica de la red y de las propiedades físicas
de las tuberías, por medio de promedios ponderados, permite obtener un sistema de alerta que
funciona con los colores de un semáforo. Por lo tanto, es posible obtener qué áreas de la red
necesitan intervención con el fin de garantizar el funcionamiento de la misma y reducir el riesgo de
fugas y explosiones.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 61 -
Ilustración 26. Diagrama del Sistema InfraSense. (Hoshkins & Stoianov, 2013, p. 4)
De manera específica, los indicadores estáticos hacen referencia a información acerca de las
características que presentan bajas tasas de cambio en un sitio durante el horario diurno, como por
ejemplo la presión de operación. A estos datos se les calcula el rango intercuartil, el primer y tercer
cuartil, la media, el mínimo y el máximo, con el fin de obtener el resumen de las características de
la red. Los indicadores dinámicos hacen referencia a la identificación y caracterización de eventos
transitorios que pueden generar altas presiones en las tuberías, así como cambios dramáticos en los
caudales transportados. En otras palabras, un evento transitorio es aquel donde “(…) los gradientes
absolutos entre una serie de puntos tiene una baja probabilidad de ocurrencia (…)”, inicia donde
“(…) el gradiente entre datos de puntos cercanos excede un valor contante (…)” y termina cuando
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 62 -
“(…) ha pasado un tiempo fijo desde que ocurrió el último gradiente destacable.” (Hoshkins &
Stoianov, 2013, p. 6).
La importancia de este sistema radica en permite conocer el estado de una red por medio del análisis
de mayor cantidad de datos de parámetros analizados y no sólo se basa en análisis de la presión de
la red. Así mismo, al tener mayor cantidad de datos para realizar el análisis, permite tener una visión
más completa del estado de la red. Lo anterior, unido a que, luego de realizar los análisis, a cada
nodo en la red se le asigna un color cada 24 horas, es posible conocer qué nodo(s) de la red están
en riesgo de fallar, y por lo tanto necesitan revisiones predictivas, o, en algunos casos se necesitan
mantenimientos reactivos. Por último, este sistema es utilizado en 3 empresas de acueductos en el
Reino Unido, lo que demuestra su usabilidad y confiabilidad (InfraSense Labs Research, s.f.).
Head Loss Ratio
Este estudio propone un nuevo algoritmo de detección en tiempo real de fugas en RDAP usando,
exclusivamente, mediciones en tiempo real de la presión en el sistema, por medio de un sistema
SCADA colocado en la red. Para esto, proponen el uso de un indicador llamado Relación de Pérdida
de Carga, o Head Loss Ratio, que es la relación entre dos mediciones de presión como indicador de
una fuga, o una explosión, en una red. Más detalladamente, se espera que un HLR permita detectar
el efecto de anomalías locales, como fugas y/o consumos anormales en la redes de distribución.
Este indicador se caracteriza por estar calculado con información de presiones de 3 o 4 nodos, por
lo que se puede interpretar como la relación entre las presiones de dos sectores de la red, y no debe
interpretarse como la relación entre puntos específicos.
Luego de definir el indicador, se procede a desarrollar el algoritmo para detectar fugas usando el
indicador. Este algoritmo consiste en calcular, en un momento dado, los indicadores para cada
tripleta o cuádrupla de sensores previamente identificados. Luego, se grafican los valores obtenidos
para cada uno de los grupos, y se revisa si los valores están contenidos entre unos valores umbrales
previamente definidos. En caso de que si estén contenidos, se procede a repetir el procedimiento
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 63 -
para el siguiente instante de tiempo, de lo contrario es posible que exista una fuga en los sectores
analizados y es necesario proceder a intervenir la fuga.
El algoritmo propuesto fue validado por medio de simulaciones en el software EPANET2. Se simuló
una red de 63,088 metros de longitud, con una demanda diaria de 2,630 metros cúbicos por día,
que fue obtenida de una parte de la red de la ciudad de Yokohama, Japón. La utilidad del indicador
se demuestra en que las presiones de la red presentan pequeñas variaciones cuando existe una gran
cantidad de ruido en el ambiente; por el contrario, el indicador presenta grandes divergencias en el
patrón de relaciones en el momento en que ocurre una fuga. Esto se observa en la Ilustración 27
(a), donde se observa como decaen los valores del indicador cuando se presenta una fuga, en
comparación con los valores de presión registrados mostrados en la Ilustración 27 (b).
(a)
(b)
Ilustración 27. Patrón del Indicador HLR al Presentarse una Fuga. (Ishido & Takahashi, 2014, p. 7)
La importancia del método presentado radica en que permite detectar fugas únicamente utilizando
información acerca de las presiones de la red. Sin embargo, todavía no permite conocer en qué lugar
exacto del tramo se presentó la fuga. Así mismo, todavía no ha sido probado en redes reales, por lo
que su usabilidad y confiabilidad no están demostradas.
Hasta el momento, todas las metodologías presentadas consisten en sistemas que buscan crear
programas de apoyo a la decisión que integren de manera satisfactoria la recolección de datos, el
análisis de los mismos y la visualización de los resultados, con el fin de poder tomar decisiones
acerca de la red por parte de las empresas prestadoras del servicio y/o de los hogares. A
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 64 -
continuación se nombran algoritmos descritos en la literatura que buscan optimizar el proceso de
recolección y análisis de datos, mas no proveen soluciones integrales para el manejo de RDAP.
PCA + ARMA
En este estudio se plantea un algoritmo que permite mejorar la calidad del monitorio de las redes,
así como prolongar la vida útil de los sensores, por medio de la disminución de la cantidad de datos
transmitidos. Esto se logra por medio de la predicción de cuál va a hacer el comportamiento de los
datos, detectando sólo aquellos eventos considerados importantes y por ende, sólo transmitiendo
datos considerados como relevantes. Para lograr esto se propone el uso de un algoritmo conocido
como Análisis de Componente Principal, PCA por sus siglas en inglés, y un modelo de predicción para
el monitoreo de datos hidráulicos basado en el modelo de series de tiempo ARMA o modelo auto
regresivo de media móvil (Mohamed, et al., 2013, p. 1).
Al momento de instalar una red de sensores inalámbricos, una de las mayores preocupaciones es la
duración de las baterías de los sensores, pues sólo en la medida que los sensores trabajen de forma
continua y constante adquiriendo y transmitiendo datos, se tendrá un sistema confiable y robusto.
Existen diversas maneras de reducir el consumo energético de los sensores, puede ser por la
reducción del número de datos que un sensor toma, o por la reducción de los datos que deben ser
transmitidos a una central de datos. El enfoque del presente estudio consiste en reducir el número
de datos que son recogidos por los sensores, y por ende reducir el número de transmisiones
realizadas.
En primer lugar se utiliza un algoritmo tipo PCA con el fin de reducir la cantidad de datos que son
recogidos y manipulados de manera local en el sensor. Esta herramienta estadística, que se basa en
la alta correlación temporal de los datos recogidos en un día, busca reducir estas correlaciones para
disminuir el uso de recursos energéticos y computacionales del sensor. Por lo tanto, se espera poder
reducir los datos hasta en un 80% sin perder información, logrando simplificar la información
obtenida y la redundancia de los datos. Basicamente, el algoritmo calcula un valor con base en los
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 65 -
promedios históricos y recibe una corección de acuerdo con el valor actual recibido, con el fin de
asegurar que el patrón presentado se asemeja al patrón calculado por medio del algoritmo. En la
Ilustración 28 se observa como, los datos calculados por medio del algoritmo, presentan el patrón
de los datos adquiridos, logrando reducir el número de datos sin disminuir la información
presentada.
Ilustración 28. Datos Simplificados Usando PCA. (Mohamed, et al., 2013, p. 4)
Una vez que los datos han sido reducidos, se procede a realizar una predicción del valor futuro del
sensor por medio del método ARMA. Si el valor calculado se encuentra en un rango de error
establecido, este dato no es transmitido pues es redundante y no genera información nueva. Si, por
el contrario, el valor no está en el rango especificado, se considera que se tiene un evento que es
transmitido, y por ende es incluido en los análisis posteriores. En la Ilustración 29 se observa el
diagrama de flujo, en donde se resume la metodología propuesta.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 66 -
Ilustración 29. Diagrama de Flujo del Método Propuesto. (Mohamed, et al., 2013, p. 3)
Conclusiones
Los métodos y sistemas presentados, al igual que con los métodos de minería de datos utilizando
información histórica, no abarcan toda la literatura disponible. No obstante, se presentaron debido
a que se considera que son los sistemas que mayor relevancia han tenido en el estudio de la minería
de datos usando información en tiempo real, que permiten una rápida localización de una fuga, y
que tienen potencial de, en un futuro, predecir qué lugares de la red tienen mayor probabilidad de
presentar una falla, con el fin de realizar mantenimientos predictivos. Adicionalmente, se
seleccionaron debido a que no sólo presentan algoritmos de minería de datos, sino que pretenden
desarrollar sistemas completos y robustos de toma de decisiones como solución al problema de
fugas y explosiones que pueden llegar a generar tanto daño a la empresa prestadora del servicio y
a la comunidad. Con base en lo anterior, es posible observar que todos los sistemas nombrados
están soportados en redes de sensores inalámbricos, y en muchos casos se utilizan sistemas SCADA
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 67 -
instalados anteriormente; luego se analizan estos datos con el fin de obtener información acerca
del estado de la red, y según sea el caso, proceder a tomar medidas preventivas o correctivas.
4.3. Parámetros de Clasificación
En el presente subcapítulo, se busca resumir de forma gráfica los métodos presentados
anteriormente según sus características y sus parámetros de análisis.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 68 -
Tabla 5. Resumen Métodos Basados en Información Histórica
Métodos Lugar Características de
la Red Parámetros Resultados
Modelos Lineales
Texas, Estados Unidos
Área de 40mil hectáreas 1,500 km de tuberías Edad Promedio de 22 años
Diámetro Longitud Material Año de Instalación Humedad Temperatura
-Modelos con baja significancia
EPR
Una red de Gran Bretaña
14 años de bases de datos
Año de Instalación Diámetro Longitud # de Propiedades # de Tuberías # de Fallas
-No se realizó una validación de los resultados obtenidos -Fallas sólo dependen de la edad, el diámetro y la longitud de las tuberías
Una red de Beijing, China
19 años de bases de datos
Año de Instalación Diámetro Longitud # de Fallas Período de observación
-Modelo predice el 80% de las fallas del siguiente año -El número de fallas es subestimado
RankBoost.B Gran ciudad de China
Más de 500,000 tuberías 6,000 kilómetros de longitud 80 años de bases de datos Edad promedio de 10 años
Diámetro Longitud # de uniones Material Presión Tipos de suelo Profundidad de la excavación
-Realizado mantenimiento predicativo al 7% de todas las tuberías, se hubiese podido prevenir el 50% de las fallas del siguiente año -Base de datos real más grande utilizada en la literatura
ZINHPP
Ciudad de Norteamérica Manakau, Nueva Zelanda
1,349 tuberías Material hierro fundido 532 tuberías Material fibrocemento
Diámetro Longitud Total de fallas Falla más temprana registrada Falla más tardía registrada Instalación más temprana y más tardía registrada
-Baja significancia -Sólo aplicable a bases de datos y redes pequeñas
A-Priori y Minería de Episodios
Nápoles, Italia 3 años de bases de datos
No registra Establece relaciones de causalidad, no triviales, entre los objetos de una red
TCI Oslo, Noruega No registra No registra
Establece un valor entre 0 y 100 para indicar el estado de la red, según pesos establecidos por el operario.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 69 -
Tabla 6. Resumen Métodos Basados en Información en Tiempo Real
Métodos Lugar Características de
la Red Parámetros Resultados
PipeNET Boston, Estados Unidos
3 Nodos de la Red Presión Datos Acústicos
-Sólo fue probado en 3 nodos de la red -Montaje de laboratorio -Falta establecer si los resultados de laboratorio son aplicables a redes existentes -No permite conocer el lugar exacto de la falla
WaterWise Singapur
25 sensores Área de 25 km2
Más de 19mil uniones Más de 20mil tuberías
Presión Decibeles Caudales
-Interfaz del usuario está soportada en la Web -Permite conocer resultados individuales de nodos y diferentes niveles de agregación de resultados -No permite conocer el lugar exacto de la falla -86% de confiabilidad en la transmisión de datos.
SmartPipes Montaje de laboratorio y un nodo en la red
No reporta
Presión Temperatura de la red Temperatura del Suelo
-Baja confiabilidad y credibilidad -No permite conocer el lugar exacto de la falla
iWidget
Atenas, Grecia Barcelos, Portugal Sur de Inglaterra
No reporta
Patrones de consumo de los hogares
-Sistema de apoyo a la decisión para usuarios y operadores -Sistema de alarma de fugas para los hogares -Campañas de concientización del uso del agua -Operación óptima de la red
InfraSense Nápoles, Italia 3 años de bases de datos
No registra Establece relaciones de causalidad, no triviales, entre los objetos de una red
Head Loss Ratio
Montaje de laboratorio y simulación computacional
63,088 metros de tuberías Demanda de 2,630 m3 por día
Presión
-Baja confiabilidad pues no ha sido probado en redes reales - No permite conocer el lugar exacto de la falla
PCA+ARMA No reporta No reporta Presión
-No se ha probado en redes reales -No permite conocer el lugar exacto de la falla, pero permite estimar tramos con mayor probabilidad de encontrar la fuga
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 70 -
5. CONCLUSIONES Y RECOMENDACIONES
En las últimas décadas, las RDAP han ido aumentado de tamaño a medida que en los centros
urbanos aumentan los habitantes. Esto representa un reto para las empresas, debido a que deben
aumentar su infraestructura, mantener en buen estado la existente y, simultáneamente, mantener
una alta calidad en la prestación del servicio. Conociendo que cada vez las tuberías utilizadas tienden
a superar los 50 años de edad, el último punto mencionado parece más difícil de alcanzar. Por este
motivo se ha convertido en un tema crítico el desarrollo de métodos y sistemas que permitan, por
medio de la minería de datos, conocer cuál es el estado actual de la red y en qué partes es necesario
realizar mantenimiento predictivo (o reactivo) con el fin de garantizar el servicio.
En el presente documento se realizó una investigación exhaustiva de cuáles son los métodos que
son utilizan en la actualidad y/o se están desarrollando. Fue posible notar que estos métodos se
pueden diferenciar en dos grupos, aquellos basados en información histórica, que es analizada por
medio de modelos estadísticos o algoritmos de minería de datos, y otros basados en información
obtenida en tiempo real, que es analizada por medio de la minería de datos.
Los primeros métodos tienden a basarse en la información física de las tuberías de la red, como las
longitudes, diámetros, edad, entre otros, así como en datos sobre fechas de falla de tuberías y
espaciamiento entre eventos. Con esta información es posible calcular qué tuberías van a fallar en
el próximo año, o, en su defecto, cuál es la probabilidad de que se presente una falla. Con estos
resultados, las empresas de servicios públicos pueden realizar mantenimiento preventivo a las
redes, para evitar el colapso del servicio y el gasto económico que representa solucionar una falla
de una tubería.
El segundo grupo de métodos tienden a basarse en los datos recolectados por sensores en la red
acerca de la presión, temperatura, acústica, entre otros. Luego de procesar los datos, se busca
determinar en tiempo real, anomalías en la operación de la red, que suelen presentarse por
pequeñas fugas, o por grandes explosiones. Por lo tanto, es posible conocer al instante qué sector
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 71 -
de la red está fallando, unido con la causa de la falla, tal que los operadores pueden decidir qué tipo
de intervención realizar en la red. No obstante, ninguno de los métodos presentados logra
identificar de manera exacta el lugar de la fuga, por lo que es necesario desarrollar algoritmos que
permitan realizar lo anterior, para complementar los avances desarrollados. Así mismo, fue posible
observar que este tipo de métodos buscan desarrollar sistemas de apoyo de toma de decisiones,
con el fin de que las empresas de manejo de aguas tengan una herramienta completa y robusta para
el manejo de sus redes, que les permita conocer el estado de éstas, así como optimizar la operación
y funcionamiento de las RDAP.
Al final, sin importar la cantidad de métodos que existen en la literatura, el problema radica en la
selección del algoritmo para aplicar a una red determinada. Lo anterior porque, si bien un algoritmo
ha mostrado ser útil en un ambiente específico, esto no garantiza que se va a presentar el mismo
comportamiento en otro escenario. Como afirma Izquierdo “(…) algunos algoritmos pueden
presentar un mejor desempeño que otros en algunos problemas, y presentar un desempeño peor
en otros problemas. Esto indica que las reglas que rigen el algoritmo aplican mejor a ciertos
problemas que otros (…)”. (Izquierdo, et al., 2013, p. 2).
Por último, de acuerdo con la investigación presentada, se concluye que elegir un método para
utilizarlo en las redes de Colombia, es una tarea difícil, pues como se nombró, el hecho de que el
método haya funcionado para otras redes no implica que lo vaya a hacer en el caso colombiano. Sin
embargo, se recomendaría mezclar un algoritmo basado en información histórica, con uno que
utilice información en tiempo real, debido a que de esta forma las empresas pueden conocer cuáles
son las tuberías que van a fallar, o tienen mayor pobabilidad de hacerlo el próximo año, y por medio
de un seguimiento en tiempo real, pueden conocer cómo se está desempeñando y si es necesario
realizar algún tipo de intevención.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 72 -
6. BIBLIOGRAFÍA
Aicher, P. J., 1995. Guide to the Aqueducts of Ancient Rome. s.l.:Bolchazy-Carducci Publishers.
Alegre, H. & Cabrera, E., n.d. Performance Indicator. [Online]
Available at: http://www.iwawaterwiki.org/xwiki/bin/view/Articles/PerformanceIndicators
Allen, M. et al., 2011. Real-time in-network distribution system monitoring to improve operational
efficiency. Journal AWWA, pp. 63-75.
Anon., n.d. EPR website. [Online]
Available at: http://www.hydroinformatics.it/
ASCE, 2013. Report Card 2009 Grades. [Online]
Available at: http://www.infrastructurereportcard.org/a/#p/drinking-water/overview
Berardi, L., Giustolisi, O., Kapelan, Z. & Savic, D. A., 2008. Development of pipe deterioration models
for water distribution systems using EPR. Journal of Hydroinformatics, Volume 10.2, pp. 113-128.
Berge, S., Lund, B. & Ugarelli, R., 2013. Conditioning Monitoring for Early Failure Detection-
Frognerparken Pumping Station as Case Study, s.l.: s.n.
Berry, M. & Linoff, G., 2011. Data Mining Techniques For Marketing, Sales, and Customer
Relationship Management. 3ra ed. s.l.:John Wiley & Sons, Inc..
Doherty, L. & Teasdale, D., 2006. Towards 100% Reliability in Wireless Monitoring Networks, Malaga,
España: Performance Evaluation of Wireless Ad Hoc, Sensor, and Ubiquitous Networks.
Economou, T., Zoran, K. & Bailey, T., 2012. On the prediction of underground water pipe failures:
zero inflation and pipe specific effect. Hournal of Hydroinformatics, pp. 872-885.
Ferro, A., Giugno, R. & Pulvirenti, A., 2004. Probabilistic Apriori and episode mining technique for
intelligent management of water supply networks. 6th Internationcal Conference on
Hydroinformatics.
Giustoli, O. & Savic, D., 2006. A symbolic data-drien technique based on evolutionary polynomial
regression, s.l.: Journal of Hydroinformatics.
Giustoli, O., Savic, D., Doglioni, A. & Laucelli, D., 2004. Knowledge Discovery by Evolutionary
Polynomial Regression. 6th International Conference on Hydroinformatics.
Gómez, Y., 2012. La red de alcantarillado de Bogotá tiene más de medio siglo. El Tiempo, 8 Agosto.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 73 -
Grayman, W. M., Loucks, D. P. & Saito, L., 2014. Toward a Sustainable Water Future.
Reston(Virginia): EWRI.
Han, J. & Kamber, M., 2006. Data Mining, Concepts and Techniques. s.l.:Elsevir Inc..
Holsheir, M. & Siebes, A., 1994. Data Mining: The search for knowledge in databases, s.l.: Technical
Repoert CS-R9406.
Hoshkins, A. & Stoianov, I., 2013. InfraSense: a distributed system for the continuous analysis of
hydraulic transients, s.l.: 12th International Conference on Computing and Control for the Water
Industry, CCWI2013.
InfraSense Labs Research, n.d. nfraSense TS Technologies: Monitoring and Analysing the Dynamic
Hydraulic Conditions in Water Supply Systems with Severn Trent Water, Essex & Suffolk Water, &
Bristol Water, London: s.n.
Ishido, Y. & Takahashi, S., 2014. A new indicator for real-time leak detection in water distribution
networks: design and simulation validation. 16th Conference on Water Distribution System Analysis,
WDSA.
IWA, 2006. Performance Indicators for Water Supply Services - Second Edition. [Online]
Available at: http://www.iwapublishing.com/template.cfm?name=isbn1843390515
iWidget, 2014. iWidget. [Online]
Available at: http://www.i-widget.eu/images/pdf/iWIDGET-Project-Flyer-low-res-
web_Mar2014.pdf
iWIDGET, n.d. Improved Water efficiency through ICT technologies for integrated supply-Demand
side manaGEmenT, s.l.: s.n.
Izquierdo, J., Montalvo, I., Pérez-García, R. & Campbell, E., 2013. Mining Solutions Spaces for
Decision Making in Water Distribution Systems, s.l.: s.n.
Kettler, A. & I.C., G., 1985. An analysis of pipe breakage in urban water distribution networks, s.l.:
Canadian Journal of Civil Enginering.
Kim, J., Choi, D., Kim, D. & D., L., 2014. Water distribution operation systems based on smart meter
and sensor network. 16th Conference on Water Distribution System Analysis, WDSA.
Kumar, D., Ish, M. & Dhanya, C., 2009. Data mining and its applications for modelling rainfall
extremes. Journal of Hydraulic Engineering, 15(1), pp. 25-50.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 74 -
Leskovec, J., Rajaraman, A. & Ullman, J. D., 2011. Mining of Massive Datasets. s.l.:Cambridge
University Press.
Liu, Z. & Kleiner, Y., 2012. State-of-the-Art Review of Technologies for Pipe Strcutural Health
Monitoring. IEEE Sensors Journals, 12(6), pp. 1987-1993.
Loureiro, D. et al., 2010. Smart metering use cases to increase water and energy efficiency in water
supply systems, London: IWA.
Mackenzie, A., 2003. Viabilidad de las Nuevas Metodologías para la Renovacion y Rehabilitación de
Tuberías en Redes de Acueducto en Colombia, s.l.: s.n.
Minns, A., 2000. Subsymbolic methods for data mining in hydraulic engineering. Journal of
Hydroinformatics, 2(1), pp. 3-14.
Mohamed, M. I. M., Wu, W. & Moniri, M.-., 2013. Data reduction methods for wireless smart sensors
in monitoring water distribution systems, s.l.: 12th International Conference on Computing and
Control for the Water Industry, CCWI2013.
OMS, Cosude, 2005. Guía para el Diseño de REdes de Distribución en Sistemas Rurales de
Abastecimiento de Agua, s.l.: s.n.
Park, S. & Jung, S., 2014. Principal component analysis of water pipe flow data. 16th Conference on
Water Distribution System Analysis, WDSA.
Pérez, R., Cugueró, M., Cugueró, J. & Sanz, G., 2013. Accuracy Assesment of Leak Localisation
Method depending on available measurements, s.l.: s.n.
Petersen, S., Myrhe, B. & Rostum, J., 2013. Wireless instrumentation for the water and wastewater
industry, s.l.: 12th International Conference on Computing and Control for the Water Industry,
CCWI2013.
Rogers, D., 2004. Locating leaks in water networks - What, where and when. 6th Internation
Conference on Hydroinformatics.
Romano, M., Woodward, K. & Kapelan, Z., 2014. Statistical Process Control Techniques for Early
Detection of Pressure Management Valve Failures in Water Distribution Systema, s.l.: Water
Distribution System Analysis .
Ruíz, C. A., 2012. Nuevas Metodologías y Tecnologías para la Renovación y/o Rehabilitación de
Tuberías en Sistemas de Agua Potable, Bogotá: s.n.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 75 -
Sadeghioon, A., Metje, N., Chapman, D. N. & Anthony, C., 2014. SmartPipes: Smart Wireless Sensor
Networks for Leak Detection in Water Pipelines. Journal of Sensor and Actuator Networks.
Sala, D. & Kolakowski, P., 2013. Detection of leaks in a small-scale water distribution network based
on pressure data-experimental verification, s.l.: s.n.
Savic, D., 2014. Improved Water efficiency thorugh ICT technologies for integrated supply-Demand
side manaGemenT - 318272, s.l.: s.n.
Savic, D., 2014. Sistemas Inteligentes de Agua: Desde el diseño optimizado de la operación de estos
sistemas hasta el análisis sensorial. Bogotá, s.n.
Savic, D. et al., 2013. iWIDGET: Integrating smart metering and ICT technologies to improve water
efficiency for utilities and households, s.l.: s.n.
Stoianov, I., Nachman, L. & Madden, S., 2009. PIPENET: A Wireless Sensor Netwrok for Pipeline
Monitoring, s.l.: s.n.
U.S. Department of Commerce, 2006. Guide to Supervisory Control and Data Acquisition (SCADA)
and Industrial Control Systems Security. s.l.:s.n.
United Nations Population Fund, 2007. State of the world population 007, unleashing the potential
of urban growth. [Online]
Available at: http://www.unfpa.org/swp/2007/english/introduction.html
Van Hieu, B. et al., 2009. Wireless Transmission of Acoustic Emission Signals for Real-Time
Monitoring of Leakage in Underground Pipes, s.l.: KSCE Journal of Civil Engineering.
Wang, R. et al., 2013. Pipe Failure Prediction: A Data Mining Method. ICDE Conference, pp. 1208-
1219.
Wu, X., Zhu, X., Wu, G.-Q. & Ding, W., 2014. Data Mining with Big Data. IEEE Transactions on
Knowledge and Data Engineering, January, 26(1), pp. 97-107.
Xu, Q., Chen, Q., Li, W. & Ma, J., 2010. Pipe break prediction based on evolutionary data-driven
methods with brief recorded data. Reliability Engineering and System Safety, 14 June.pp. 942-949.
Yamijala, S., Guikema, S. & Brumbelow, K., 2009. Statistical models for the analysis of water
distribution system pipe break data. Reliability Engineering and System Safety, Issue 94, pp. 282-
293.
Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable
Manuela Cortés Henao - 76 -
Yoon, M., Warren, C. B. & Adam, S., 2007. Pipeline System Automation and Control. Nueva York:
ASME.
top related