Download - Mmviiim1c01 1 Fiabilidad Add

2014

MMVIIIM1C01: Fiabilidad

Capítulo: Análisis de Datos

Blas Galván González*,

Andrés Carrión García**, Nieves Martínez Alzamora**

* Computación Evolutiva y Aplicaciones Numéricas en Ingeniería (CEANI)

Universidad de Las Palmas de Gran Canaria, España

** Departamento Estadística e Investigación Operativa Aplicadas y Calidad

Universidad Politécnica de Valencia, España

U L P G C – S I A N I – C E A N I

CURSO: MAESTRÍA EN INGENIERÍA DE CONFIABILIDAD Y RIESGO VIII EDICIÓN

MÓDULO: 1. Ingeniería de Fiabilidad

ASIGNATURA: Fiabilidad

Capítulo Análisis de Datos

PROFESOR: Blas Galván González, Andrés Carrión García, Nieves Martínez‐Alzamora

Pág. 2 de 72

ÍNDICE

1. INTRODUCCIÓN 5

1. 1. MARCO CONTEXTUAL 5

1. 2. ASPECTOS GENERALES DEL ANÁLISIS DE DATOS (AD) 6

1.2.1 ETAPAS PRINCIPALES DEL ANÁLISIS DE DATOS 6

1.2.2 NATURALEZA DE LOS DATOS DE FALLO 7

2. RECOLECCIÓN DE DATOS PARA ANÁLISIS DE FIABILIDAD 9

2.1. DATOS 9

2.1.2. DATOS OBTENIDOS A PARTIR DE ENSAYOS 10

2.1.3. DATOS DE OPERACIÓN 11

2.2. PLAN DE ADQUISICIÓN DE DATOS (PLAN DE CALIDAD) 11

2.3. RESUMEN CONCEPTUAL 14

3. TIPOS DE DATOS 15

3.1. NOTACIÓN 15

3.2. DATOS COMPLETOS 15

3.3. DATOS CENSURADOS 16

3.3.1. CENSURA A LA DERECHA 16

3.3.2. CENSURA A LA IZQUIERDA 16

3.3.3. CENSURA EN INTERVALOS 17


4. MODELADO DE DATOS 18

4.1. NOTAS DE ESTADÍSTICA DESCRIPTIVA BÁSICA (MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN) 18

4.1.1. MEDIDAS DE TENDENCIA CENTRAL 18

4.1.2. MEDIDAS DE DISPERSIÓN 20

4.2. DESDE LOS DATOS HASTA LOS MODELOS: UNA VISIÓN METODOLÓGICA 21

4.3. FUNCIONES CONTINUAS 23

4.3.1. FUNCIÓN DE DENSIDAD DE PROBABILIDAD 23

4.3.2. ESPERANZA DE UNA VARIABLE ALEATORIA (VALOR MEDIO) 24

4.3.3. FUNCIÓN DE DISTRIBUCIÓN DE PROBABILIDAD 24

4.3.4. FUNCIÓN DE SUPERVIVENCIA 24

4.3.5. FUNCIÓN DE RIESGO 25






Pág. 3 de 72

4.3.6. EXPONENCIAL 25

4.3.7. WEIBULL 30

4.3.8. NORMAL 37

4.3.9. LOGNORMAL 40

4.3.10. DISTRIBUCIÓN CHI‐CUADRADO ( 2 ) 44

4.3.11. DISTRIBUCIÓN T‐STUDENT 44

4.4. FUNCIONES DISCRETAS 45

4.4.1. BINOMIAL 45

4.4.2. POISSON 46

4.4.3. MULTINOMIAL 48


5. ESTIMACIÓN PARAMÉTRICA 51

5.1. MÉTODO DE MÍNIMOS CUADRADOS 51

5.2. MÉTODO DE MÁXIMA VEROSIMILITUD 53

5.2.1. INTERVALO DE CONFIANZA DE LOS PARÁMETROS DEL MODELO A PARTIR DE SUS ESTIMADORES DE MÁXIMA

VEROSIMILITUD 54


6. ESTIMACIÓN NO PARAMÉTRICA 57

6.1. ESTIMACIÓN DE LA FRECUENCIA 57

6.2. ESTIMADOR DE BÉNARD 58

6.3. NÚMERO DE ORDEN 59

6.4. KAPLAN‐MEIERS 59

6.4.1. INTERVALO DE CONFIANZA 59


7. PRUEBAS DE HIPÓTESIS Y BONDAD DE AJUSTE 62

7.1. TEST CHI‐CUADRADO 63

7.2. TEST KOLMOGOROV‐SMIRNOV 64

7.3. COEFICIENTE DE CORRELACIÓN DE PEARSON 67

7.3.1. COEFICIENTE DE DETERMINACIÓN ( 2r ) 68

7.4. TEST DE GRÁFICO Q‐Q 70

7.4.1. ESTIMACIÓN DE LOS CUANTILES DE LA MUESTRA 70






Pág. 4 de 72

Índice Figuras

Figura 1: Tipos de datos en Ingeniería de Confiabilidad _____________________________________________ 9

Figura 2: Distribución de asignaciones en el Plan de Adquisición de Datos _____________________________ 11

Figura 3: Modelo de área de inventario en un informe de mantenimiento _____________________________ 12

Figura 4: Modelo de área de datos de fallo en un informe de mantenimiento ___________________________ 13

Figura 5 Modelo de área de datos de operacionales en un informe de mantenimiento ___________________ 13

Figura 6 Muestra de datos completa ___________________________________________________________ 16

Figura 7 muestra de datos censurada a la derecha para cuatro bombas _______________________________ 16

Figura 8 Muestra de datos censurada a la izquierda _______________________________________________ 17

Figura 9 Muestra de datos censurados en intervalos ______________________________________________ 17

Figura 10 Diferencia entre población y muestra __________________________________________________ 18

Figura 11: Histograma de Frecuencias Absolutas _________________________________________________ 22

Figura 12 Histograma fecuencias absolutas y acumuladas __________________________________________ 22

Figura 13 Efecto de λ en la función de densidad Exponencial ________________________________________ 27

Figura 14 Efecto de γ en la función de densidad Exponencial ________________________________________ 27

Figura 15 Efecto de λ en la función de supervivencia Exponencial ____________________________________ 28

Figura 16 Efecto de γ en la función de supervivencia Exponencial ____________________________________ 28

Figura 17 Efecto de β en la función de densidad Weibull ___________________________________________ 33

Figura 18 Efecto de β en la función de riesgo Weibull ______________________________________________ 33

Figura 19 Efecto de η en la función de densidad Weibull ___________________________________________ 33

Figura 20 Efecto de γ en la función de densidad Weibull ___________________________________________ 33

Figura 21 Efecto de σ sobre la funcion de densidad Normal _________________________________________ 37

Figura 22 Efecto de μ sobre la funcion de densidad Normal _________________________________________ 37

Figura 23 Efecto de σ’ sobre la funcion de densidad Lognormal ______________________________________ 41

Figura 24 Efecto de μ’ sobre la funcion de densidad Lognormal ______________________________________ 41

Figura 25 Distribución de frecuencias relativas acumuladas _________________________________________ 57

Figura 26: Gráfico Q‐Q Plot muestra Weibull 2P __________________________________________________ 71






Pág. 5 de 72

1. INTRODUCCIÓN

1. 1. Marco Contextual

La Ingeniería de Confiabilidad tal y como la define AENOR en España, también conocida como Ingenierías RAMS

en un contexto internacional, versa, entre otras cuestiones, sobre la gestión del ciclo de vida de los sistemas

técnicos de cualquier compañía o industria. El ciclo de vida incluye distintas fases entre las que pueden

diferenciarse: la fase de diseño, fabricación, fase de explotación inicial, vida útil y fase de envejecimiento.

La imagen de una empresa está estrechamente relacionada a cómo gestione cada una de las fases de sus

activos. Así pues, una empresa o industria encontrará deseable que los diseños de sus productos o activos

satisfagan los requerimientos para los cuales fueron diseñados. Además, demandará que los procesos de

fabricación no alteren de forma significativa las propiedades y características del activo diseñado, de tal forma

que no ponga en riesgo la integridad del mismo y su funcionalidad. Estos dos conceptos dan lugar a las

especificaciones de calidad.

Asimismo la industria espera que sus activos sostengan sus niveles de calidad durante un determinado periodo

de tiempo, el suficiente como para que esos activos desempeñen y completen la actividad para la cual fueron

diseñados. Por ejemplificar un caso crítico véase como, aunque la tecnología aeroespacial ha evolucionado

mucho durante los últimos años, es deseable que una sonda o una nave Soyuz puedan completar sus misiones

sin incidencias tanto por motivos de coste como de seguridad. Estas son las especificaciones de fiabilidad.

Por otro lado, durante la explotación de un sistema técnico se requiere que los sistemas o activos estén

operativos cuando se les necesita. Véanse, por ejemplo, los sistemas de protección de una Central de Potencia

(Nuclear o Térmica) o de estaciones de transformación. En estos, como en otros muchos casos, la

disponibilidad es una especificación vital que debe satisfacer un activo.

Estos conceptos introducidos, junto con muchos otros y los que, a demanda de la necesidad de seguimiento y

control de los activos, se vayan generando, tienen gran relevancia en la gestión de los recursos de cualquier

industria. Por una parte son indicadores del desempeño de la misma, influyendo sobre los márgenes de

beneficio así como en los requerimientos de seguridad, pero además, cuando son interpretados por el

consumidor del servicio (el output de una actividad industrial es el input de otra), son criterios de satisfacción

de la actividad realizada y, en definitiva, de la imagen corporativa.

Los indicadores son, por tanto, herramientas que sustentan con criterios científicos y de ingeniería la toma de

decisiones en una industria permitiendo la gestión óptima de los recursos de explotación y la seguridad del

funcionamiento. De esto debe desprenderse que los indicadores deberán representar, de la forma más

fidedigna posible, el desempeño de los activos para que las acciones que se deriven de su interpretación no

comprometan el coste de explotación, la seguridad y otros objetivos planteados.

La cuestión subsiguiente será pues, cómo sintetizar los indicadores; qué fuentes de información se emplearán

para definirlos. Se entiende que, durante la fase de explotación de un activo (inicial, vida útil y envejecimiento),

cuando este se encuentra en un estado tal que le impide cumplir con los requerimientos para los cuales fue

diseñado, posee un estado de avería. Esta condición está precedida por un evento no deseado denominado

fallo. El concepto de fallo es central en la ingeniería de confiabilidad dado que es uno de los causantes de

ineficiencias en la producción, problemas de seguridad, medioambientales, de sostenibilidad y de la creación

de una mala imagen de la corporación en relación a cómo es percibida al exterior.






Pág. 6 de 72

No obstante, es aceptado de forma general que los fallos son inevitables y que por tanto, tarde o temprano, los

activos de una empresa o industria no estarán disponibles para desempeñar su misión. En consecuencia, la

eficiencia implícita y la imagen que una empresa proyecta hacia el exterior está estrechamente relacionada con

cómo gestiona los malfuncionamientos derivados de su actividad. De alguna forma se espera que el

funcionamiento de la industria esté lo menos sujeto posible a interrupciones y que, de ocurrir alguna, fuese

solventada eficazmente en cortos márgenes de tiempo. Para programar planes de gestión adecuados que

garanticen estos estándares de funcionamiento se deberá disponer de información acerca de los periodos

destinados a mantener las instalaciones. Estos son los conocidos procesos de recuperación

La recolección y el tratamiento de los datos de fallo y recuperación juegan un papel fundamental en la síntesis

de los indicadores que monitorizan el desempeño de los sistemas técnicos. En esto consiste el análisis de datos

y es el tema que ocupará este y los siguientes capítulos.

1. 2. Aspectos generales del Análisis de Datos (AD)

1.2.1 Etapasprincipalesdelanálisisdedatos

El análisis de datos posee principalmente dos etapas:

Definición de estrategias de recolección de los datos

Análisis de los datos que permitan extraer modelos representativos de los mismos con los que puedan

efectuarse predicciones sobre alguna de las propiedades de esos datos

En el ámbito del análisis de datos de confiabilidad se recaban datos de fallo o datos de recuperación de un

determinado sistema o activo. En general suele emplearse la métrica de tiempos hasta el fallo o tiempos entre

fallos1. No obstante, en ciertos ámbitos es conveniente el empleo de otras medidas de la vida de un producto,

por ejemplo: número de ciclos hasta el fallo (empleada en ámbitos en los que los activos trabajen mediante

ciclos de carga), kilometraje hasta el fallo (entorno ferrovial y transporte en general), etc.

La recolección de datos está estrechamente relacionada con los objetivos que se planteen, la profundidad del

análisis de confiabilidad que pretenda llevarse a cabo y, por supuesto, de la disponibilidad existente de los

mismos. En consecuencia, la política de adquisición de datos establecida jugará un papel esencial en la

consecución de los objetivos planteados. La cualificación de los datos de fallo mediante la asignación de un

código que represente los modos de fallo que un sistema puede tener permitirá obtener modelos más precisos

y representativos sobre la evolución del funcionamiento/fallo del sistema en comparación con otra estrategia

de cualificación que no contemple esa tarea. De la misma manera, los datos de recuperación deben ir

acompañados de información cualitativa que permita caracterizar mejor los indicadores

Por su parte, el análisis de los datos deberá considerar los criterios de recolección seleccionados para emplear

aquellos procedimientos que posibiliten la obtención de modelos y que minimicen el nivel de sesgo sobre la

representación de los datos. A saber: tipo de muestras empleadas, naturaleza de los datos, propiedades

cualitativas de los mismos, etc.

1 En temas posteriores se revisarán las implicaciones relativas a una u otra definición.






Pág. 7 de 72

1.2.2 Naturalezadelosdatosdefallo

Aunque este aspecto será ampliado en temas posteriores con mayor profusión, se presenta en este punto una

anotación general sobre la naturaleza de los datos de entrada a los Análisis de Datos para justificar el desarrollo

del presente material.

El número de factores físico‐químicos ambientales y del propio sistema o activo que influyen en el proceso de

fallo es tan grande y tan difícilmente controlable, que confieren al proceso de fallo un carácter altamente

aleatorio. Si bien el suceso de fallo es un evento seguro (este ocurrirá siempre, más temprano o más tarde),

actualmente resulta imposible con total nivel de certeza realizar una predicción sobre el instante de un fallo.

Pueden realizarse estimaciones probables pero siempre existirá un cierto grado de confianza o incertidumbre

acerca de la estimación.

Por tanto, en términos teóricos y prácticos, se considera el proceso de fallo un suceso aleatorio, y todas las

métricas que lo describen, como variables aleatorias. En consecuencia los modelos que describen el

comportamiento del sistema tendrán naturaleza estocástica y tratarán de ser representados mediante

funciones de distribución de probabilidad.

En este sentido, la estadística descriptiva y la inferencia estadística aportan un marco científico‐técnico

propicio para obtener modelos que representen los indicadores que evalúan la funcionabilidad de los sistemas

técnicos y que soportan un proceso de toma de decisiones en la gestión de activos.

En el presente material se pretende, por tanto, dar una visión del análisis de datos orientados a la gestión de

activos utilizando la estadística descriptiva y la inferencia estadística.

La naturaleza de los datos de fallo y recuperación, qué fuentes existen y cómo deben gestionarse para ser

capaces de extraer información significativa de los mismos en forma de modelos. Esto será revisado en el

capítulo 2. Además, en este capítulo, se aportan anotaciones sobre la correcta planificación y gestión de la

recogida de datos: bases de las técnicas de recolección, correcta documentación y transmisión de resultados.

En el capítulo 3 se analiza la tipología de los datos definiendo los conceptos de censura y sus tipos. El capítulo 4

trata sobre los modelos paramétricos más comunes en el ámbito del análisis de datos de fiabilidad que

representan los datos. En este capítulo se describen las propiedades de dichos modelos y funciones

características más importantes. El capítulo 5 aborda los procedimientos de ajuste de de los modelos a los

datos muestrales obtenidos bajo el título Estimación Paramétrica. Se introducen los estimadores puntuales y

por intervalos. El capítulo 6 introduce los modelos de estimación no paramétrica, presentando algunos de los

estimadores empleados con más frecuencia (Bènard, kaplan‐Meiers,…). En el capítulo 7 se abordan los

contrastes de hipótesis orientados a la bondad del ajuste. Cuando la estimación es paramétrica el análisis de

los datos comienza con la hipótesis de que estos pertenecen a una u otra distribución. En este capítulo se

razona si existen evidencias significativas de que las hipótesis sean verdaderas o falsas.

Estos siete capítulos componen el material principal del curso, no obstante a modo de formación

complementaria se proponen una serie de apéndices donde se podrá profundizar más en materia de análisis de

datos. Por ejemplo, se aborda la problemática del tratamiento de muestras no‐homogéneas y su influencia

sobre los procesos de estimación. También se facilita una guía sobre el modo de uso de la herramienta Excel

creada para dar soporte a los cálculos.

wa






Pág. 8 de 72

Los ejercicios de este documento están basados en casos de estudio que reflejan la problemática industrial

actual en diversos sectores (industria de procesos, aeroespacial, transporte, minera, etc.) y cuya descripción

detallada podrá consultarse en el documento Anexo‐Descripción de Sistemas.pdf.






Pág. 9 de 72

2. RECOLECCIÓN DE DATOS PARA ANÁLISIS DE FIABILIDAD

La gestión adecuada de activos empieza por discernir qué modos de fallo son críticos y priorizar las actividades

de mantenimiento sobre los mismos. Para ello es necesario contar con buenos modelos que permitan construir

indicadores lo más fidedignos posible. En consecuencia, los fallos deben estar todo lo bien documentados que

se pueda. Toda esta documentación relativa al proceso de fallo debe quedar reflejada en los informes de

mantenimiento para que el analista pueda hacer buen uso de ella.

El proceso de recopilación de datos de fallo tiene un papel muy importante en los estudios de fiabilidad, como

ya se dejó entrever en el capítulo anterior. Estos se requieren fundamentalmente en dos áreas: para la

predicción y optimización de la fiabilidad de nuevos diseños y para la evaluación (y validación de las

predicciones, en caso de que se hicieran en el diseño) de la fiabilidad de sistemas en operación.

Figura 1: Tipos de datos en Ingeniería de Confiabilidad

Para cada caso la fuente de datos disponibles es sustancialmente diferente. Cuando un activo es de nuevo

diseño no se dispone de información de operación y la obtención de modelos que permitan caracterizar su

futuro funcionamiento no podrá realizarse a partir de esta información. Más aún si el sistema es radicalmente

nuevo, ya que no podrán extrapolarse los modelos obtenidos para elementos similares dado que estos no

existirán. En este contexto se emplearán los datos disponibles de sistemas o equipos similares (por ejemplo de

proyectos anteriores), los denominados datos genéricos (datos publicados por asociaciones y que fijan el

estado del arte en relación con la fiabilidad esperada para cada tipo de equipo o tecnología) o, de forma

alternativa, datos obtenidos a partir de ensayos. Por el contrario, conforme se va adquiriendo experiencia

sobre el funcionamiento de un sistema es necesario verificar que se están alcanzando los niveles de

desempeño concebidos en cada etapa. En estos casos la colección de datos de operación puede emplearse

para garantizar la conformidad de los activos con los requerimientos de fiabilidad e identificar posibles vías de

mejora del desempeño de los mismos.

En lo siguiente, se dará una visión general sobre las características de cada una de las fuentes de datos citadas

y se finalizará con definición de un procedimiento sistemático de recogida de datos de fallo, a partir de los

cuales pueda extraerse información valiosa sobre el desempeño de los sistemas técnicos, en lo que se

denomina Plan de Calidad.

2.1. Datos

2.1.1. Datos genéricos

Este tipo de datos permitirán realizar una primera estimación sobre el posible nivel de desempeño de los

sistemas de una industria y posibilitarán el estudio de debilidades, robustez e importancia relativa de

determinados modos de fallo. Consiguientemente, más que valores numéricos precisos de las funciones

Tipos de datos

Datos genéricos

Datos de ensayos

Datos de operación

wa

wa

wa






Pág. 10 de 72

características, con este tipo de datos se persigue obtener información cualitativa valiosa sobre la adecuación o

no del diseño en relación a las especificaciones planteadas.

Habitualmente, los datos genéricos no estarán en la forma de tiempos hasta el fallo/tiempos de reparación,

sino que estarán resumidos en una métrica indicadora de conveniencia como la tasa de fallos/reparación,

concepto sobre el cual se discutirá más profundamente en materias posteriores. En el mejor de los casos las

bases de datos ofrecen un valor medio para esta métrica e incluirán información sobre los modos de fallo

principales del sistema. Otras más completas, como OREDA2, ofrecen además ciertas medidas de dispersión e

intervalos de confianza para las estimaciones.

No obstante, los datos genéricos acusan con cierta frecuencia la falta de información cualitativa de interés,

como por ejemplo las condiciones operacionales bajo las cuales fueron recopilados esos datos así como de las

ambientales. El desconocimiento de estas condiciones lleva aparejado ciertos niveles de incertidumbre cuando

se hacen extrapolaciones desde estas fuentes a los sistemas instalados en nuestra empresa. En consecuencia,

es importante emplear datos genéricos cuando las condiciones de funcionamiento son similares.

Existen varias fuentes de datos de contrastada validez que contienen numerosos registros de parámetros

relacionados con el proceso de fallo. Entre ellas se pueden citar las siguientes:

MIL‐HDBK‐217F: Probablemente la fuente más conocida de tasas de fallo para componentes

electrónicos. Se basa en datos genéricos de tasas de fallo recopiladas durante años por el

Departamento de Defensa de los Estados Unidos

Telecordia SR‐332: Es otra fuente de predicción de tasas de fallo publicada por un organismo no‐

militar. Ofrece procedimientos para predecir tasas de fallos basadas en datos genéricos,

combinación de datos genéricos con datos de ensayos y datos genéricos con datos de operación.

OREDA Handbook: Se aportan modos de fallo, tasas de fallo y tiempos de reparación de

equipamiento cuya operación se realiza en el ámbito petrolífero offshore.

T‐Book: El principal objetivo de esta base de datos es el de suministrar datos de fallo para cálculo

de fiabilidad, el cual forma parte del análisis de seguridad de las Centrales Nucleares de Potencia

Nórdicas.

EIREDA (European Industry Reliability Data Bank): Provee datos de fallo de componentes que

forman parte de los sistemas de seguridad de las centrales nucleares.

NSWC‐06/LE10: Provee de modelos para estimar la tasa de fallos de componentes mecánicos

afectados por diferentes condiciones de carga y operación como temperatura, estrés, caudal,

etc.

2.1.2. DatosobtenidosapartirdeensayosLa predicción de los parámetros relacionados con el indicador de fiabilidad también puede llevarse a cabo

mediante ensayos. Un ensayo consiste en someter a una muestra de un determinado componente o equipo a

unas condiciones de trabajo más o menos parecidas a las que estos van a desempeñar a lo largo de su vida. Las

condiciones del ensayo deben estar estrictamente controladas para no inducir modos de fallo que en la

operación normal de los equipos no ocurrirían, aunque esto último no es siempre alcanzable.

Los resultados que arroja un ensayo son un conjunto de valores individuales o discretos de alguna variable que

estemos estudiando (pudiendo esta ser: tiempo hasta/entre el fallo, kilómetros (distancia) hasta el fallo o

2 OREDA (Offshore REliability DAta handbook)

wa

wa

wa






Pág. 11 de 72

alguna otra medida relacionada con el fallo). En lo sucesivo se analizará, mayoritariamente, la variable

aleatoria, tiempo hasta el fallo. El parámetro a conocer se denomina Vida media, , y representa el tiempo

medio que transcurre hasta que ocurre un fallo.

Hay ocasiones en las que desarrollar un ensayo sobre un componente o equipo es inviable porque el tiempo de

realización de la prueba, bajo condiciones normales, es excesivamente largo. En estos casos se recurre a un

procedimiento especial denominado Ensayo Acelerado.

Los Ensayos Acelerados lo que hacen es provocar que el fallo aparezca antes, como consecuencia de las

condiciones de trabajo impuestas al componente. Estas condiciones de estrés hacen que se aceleren los

mecanismos de fallo. De esta manera se pueden obtener resultados más rápidamente que llevando a cabo los

ensayos sin acelerar.

2.1.3. Datosdeoperación

Los datos de planta u operación son aquellos que se recopilan durante la explotación de una instalación,

sistema o equipo. En relación al apartado anterior son los que permiten evaluar el grado de conformidad en el

funcionamiento de los sistemas en relación a los requerimientos establecidos. En la medida en que se pueda

deben emplearse los datos de planta siempre que la calidad de los datos recopilados esté asegurada.

Los datos de planta aparecen en forma de informes de mantenimiento u órdenes de trabajo que deberán

convertirse a un formato apropiado para su posterior análisis.

2.2. Plan de adquisición de datos (PLAN de Calidad)

Todo plan de adquisición de datos debe quedar bien definido por la organización gestora de la planta o

instalación, adquiriendo, esta última, el compromiso de formar a los ingenieros o técnicos de planta

encargados de la supervisión y mantenimiento. La comunicación de los objetivos del plan de adquisición y de la

metodología a seguir debe quedar bien comprendida por aquellos que vayan a ejecutarlo para asegurar la

calidad y adecuación de los datos recolectados.

Figura 2: Distribución de asignaciones en el Plan de Adquisición de Datos

Asignaciones en el

Plan de Adquisición de Datos

Organización

Objetivos del plan

Entrenar al personal

Asignar actividades de gestión

Ingenieros o Técnicos de planta

Ejecutar el Plan según prescripción

Redactar informes de

Mto.

Aportar conocimiento

Empírico

wa

wa






Pág. 12 de 72

Por su parte, las personas encargadas de ejecutar el plan, deberán desempeñar su función en base a las

directrices estipuladas en el mismo y serán los responsables de facilitar al equipo de gestión los informes

cumplimentados con la frecuencia que se haya acordado. Es remarcable el que, frecuentemente, los

encargados de interaccionar con los sistemas técnicos poseen un conocimiento empírico sobre su

funcionamiento que desde el área de gestión no se tiene. Por ello, siempre que se estime, deben

complementar los informes con valoraciones personales que estimen relevantes. La honestidad en la

realización de los informes es un requisito indispensable para que la gestión de activos pueda realizarse

eficientemente. El personal encargado de ejecutar el plan debe estar motivado e involucrado en los valores de

la organización de tal forma que no se vean incentivados a adoptar posturas defensivas (no compartir

información relevante) y otros comportamientos poco éticos. La veracidad de la información recogida en los

informes es vital. Todo ello, mejorará enormemente la capacidad de gestión de los activos.

En general, un análisis de fiabilidad requiere los siguientes tipos de datos, que deben quedar contenidos en el

informe de mantenimiento: datos de inventario, los datos de fallo y datos de tiempo de operación.

Los datos de inventario son aquellos que establecen las especificaciones técnicas del equipo o elemento

analizado, fecha de instalación, la localización del mismo dentro del sistema, el operario que lleva a cabo la

orden de trabajo, el supervisor que la revisa, su función, las condiciones reales de operación en el momento de

la intervención, las condiciones del entorno donde opera, etc. Un modelo aceptable de cómo contemplar esta

información en un informe de mantenimiento se muestra en la siguiente figura:

HOJA DE SEGUIMIENTO

Sistema: Curso Disponibilidad Ítem: Válvula

Subsistema: SVEA Clase: termostática

Fecha Instalación: Modelo:

Función: Proceso/seguridad Aplicación: Expansión fluido refrigerante

Operario: ‐‐‐‐ Supervisor:‐‐‐ Tiempo testeado: 2/01/2011 – 12/07/2011

Condiciones de servicio

Fluido: R‐134a

Condiciones Ambientales

Parámetro Unidades Valor

Parámetro Unidades Valor Temperatura K

Flujo volum. m3/h 200 Humedad %

Presión ent. MPa 1,0166 Nivel de estrés N/A

Presión sal. MPa 0,23428

Diferencial ΔP MPa 0,78232

Temp. Entr. K 313

Temp. sal K 267

Entalpía kJ/kg 256,41

Viscosidad µPa∙s 163,4

Vapor frac. Sal. N/A 0,317 Figura 3: Modelo de área de inventario en un informe de mantenimiento

Disponer de datos de inventario completos es fundamental para realizar los análisis de datos para fiabilidad ya

que estos aseguran que la muestra escogida para el estudio está compuesto, a grandes rasgos, por elementos

de similar credibilidad.

Los datos de eventos de fallo son los datos asociados al proceso de fallo, y de reparación del elemento

analizado. En él se pueden detallar aspectos como el modo de fallo, el mecanismo, la causa siempre que

wa

wa






Pág. 13 de 72

proceda, los efectos, la fecha en la que se detecta el fallo, la fecha en la cual se subsana el mismo y la fecha en

la cual se restaura la operación. También se refleja la acción correctora y el método de detección.

La mayor cantidad de información reflejada en este apartado permitirá una mejor caracterización del estado de

salud de los sistemas. Naturalmente, al inicio de la operación en cualquier instalación, la cantidad disponible de

datos es poca e incluso tras varios años de operación puede ocurrir que los datos recabados sigan siendo,

igualmente, pocos. No obstante, cuanta más información se posea mejor será la capacidad de gestión de

nuestros activos.

Este tipo de información se representa, generalmente en forma de texto. Sin embargo la creación de una

codificación específica y estandarizada es siempre útil para una gestión más eficiente de las bases de datos y

para evitar errores tipográficos durante el registro de los eventos de fallo.

Historial de fallo

Modo de fallo

Man

tenim

iento

Concepto Hora Fecha

Efecto del fallo Fecha inicio

Modo de Detección Fecha fin

Modo de reparación Listo para operar

Hora Fecha Resume

Detección del fallo Tiempo activo de reparación

Tiempo de esperaFigura 4: Modelo de área de datos de fallo en un informe de mantenimiento

Los datos de tiempo de operación generalmente quedan reflejados en alguno de los dos apartados anteriores.

No obstante, en ciertos casos es adecuado que exista una sección específica para detallar los intervalos de

tiempo en que un determinado equipo o sistema está en funcionamiento. Esto es especialmente útil para el

análisis de los equipos cuyo funcionamiento presenta discontinuidades en el tiempo. Esto puede apreciarse en

sistemas de backup o sistemas de protección cuya operación se realiza a demanda. En próximos temas se

abordará la distinción entre los considerados tiempos de calendario y de operación.

Datos Operacionales

Comentario:

Modo habitual de operación Incidencias con paro de la actividad normal Tiempo transcurrido desde

instalación

Tiempo de servicio

Figura 5 Modelo de área de datos de operacionales en un informe de mantenimiento

wa






Pág. 14 de 72

2.3. Resumen conceptual

En este capítulo se ha abordado la descripción de las diversas fuentes de datos de fallo y de protocolos un

protocolo para garantizar la calidad de los datos recopilados. Los procedimientos para recabar datos de

recuperación guardan una gran analogía con los previamente descritos y por ello no se ha profundizado en este

sentido. En todo caso, cada actividad de mantenimiento o reparación debe ir acompañada de información

cualitativa relevante para caracterizar los indicadores de mantenimiento de los activos. Sobre ello se disertará

más ampliamente en las materias de Mantenimiento y mantenibilidad de activos industriales.

En el análisis del desempeño de los activos durante la fase de explotación, los datos de planta deben emplearse

prioritariamente frente a cualquier otra fuente de información. Estos son los únicos que puede reflejar

fielmente el desempeño real de los sistemas del entorno industrial en el que se está operando y por tanto

permitirán sintetizar indicadores de anticipación representativos.

Los objetivos del plan de adquisición deberán ser lo más realistas posible, ponderando los recursos disponibles

para su ejecución. De esta manera se evitará plantear metas inabordables y que probablemente concluyan con

menos información relevante de la que se podría haber obtenido de haber propuesto unos objetivos más

adecuados.

Deberá formarse al equipo técnico de ejecución del plan explicando, no solo las metodologías sino el porqué de

las tareas. Un trabajador que se siente motivado por el trabajo que hace y que conoce el fin por el cual trabaja

ofrecerá mejores resultados que aquel que no dispone de esa información.

El equipo técnico encargado de ejecutar el plan deberá ceñirse a la estrategia establecida. De ello depende que

los datos registrados sean representativos y los indicadores de Fiabilidad sean los más fidedignos posible.






Pág. 15 de 72

3. TIPOS DE DATOS

En Estadística existen muchas clasificaciones del tipo de variables y muestras estudiadas. Estas pueden ser

Cuantitativas o Cualitativas, Ordinales o Cardinales, Continuas o Discretas, entre otras. Sin embargo, este

capítulo se centrará en la clasificación de los datos como completos o censurados. La censura estadística

consiste en el conocimiento parcial del valor de una variable observada.

Habitualmente la censura sobreviene cuando no es posible medir con precisión un evento concreto, por

ejemplo el tiempo hasta el fallo de un activo. Además, algunos autores incluyen en la definición de censura el

concepto de truncamiento, que ocurre cuando se decide observar una cierta variable hasta que adopta un

cierto valor. Por este motivo, generalmente la censura se clasifica en dos grupos: Censura de Tipo I y Censura

de Tipo II (truncamiento). Para clarificar el significado de ambos tipos de censura véanse los dos supuestos

siguientes:

Censura Tipo I: Considérese que en un subsistema de bombeo de crudo se detecta durante un

procedimiento de inspección que una de las bombas se encuentra funcionando al 15% de sus

especificaciones de operación. Se sabe además que, según el historial de funcionamiento, la bomba

funcionaba correctamente durante la inspección previa. Por tanto la bomba habrá fallado en el

intervalo de tiempo entre ambas inspecciones pero no se sabe cuándo exactamente. Este es un tipo

de censura por intervalo como se describirá posteriormente.

Censura Tipo II: En un ensayo de demostración de la fiabilidad se testean 15 unidades de unos

rodamientos. El ensayo se detiene cuando cinco de esos componentes hayan fallado. El objetivo es

relacionar el desgaste con el fallo. Al final sólo se tendrá información precisa de la relación entre el

espesor (desgaste) y el fallo para cinco unidades. El resto de ellas estarán sujetas a censura de Tipo II.

Hay que destacar que la censura no es exclusiva de los procesos de fallo, también se manifiesta en los datos de

recuperación en forma de informes de mantenimiento mal cumplimentados o ensayos de demostración de la

mantenibilidad.

A continuación se analizan con más detenimiento las definiciones relativas a datos completos y a datos

censurados con Censura Tipo I.

3.1. Notación

En adelante se empleará la siguiente notación para identificar datos censurados:

Censura a la Izquierda Censura a la Derecha Censura por Intervalo

Notación Dato Censurado (X) *X X* *X*

3.2. Datos Completos

Los datos completos son aquellos de los cuales se conoce toda la información al finalizar el análisis. Por

ejemplo considérese un estudio de supervivencia en el que se va a estudiar el tiempo que tarda una resistencia

en romperse para ello se dispone de sistema automático de registro del tiempo transcurrido hasta el fallo por

lo que se conoce sin ninguna duda el momento exacto en el que falló el mismo.

Si además en dicha prueba se ensayaron 4 resistencias y se conoce el tiempo exacto de fallo de cada una de

ellas se dice entonces que se dispone de una muestra de datos completos.

wa

wa

wa

wa

wa

wa

wa






Pág. 16 de 72

Figura 6 Muestra de datos completa

3.3. Datos Censurados

De forma general pueden identificarse tres esquemas diferentes de censura, a saber: censura a la derecha,

censura a la izquierda o censura por intervalos.

3.3.1. Censuraaladerecha

Se observa cuando el evento o variable estudiada no ocurre durante el tiempo de análisis. Este caso de censura

es muy común en las pruebas hasta el fallo realizadas sobre productos donde el análisis tiene un tiempo fijo. Si

no llegase a darse la situación de fallo en el producto, este tiempo estaría censurado, ya que se desconoce el

tiempo en el que falló.

Por ejemplo si se observa el siguiente esquema, donde se testearon un conjunto de bombas se observa que

una de las bombas no presentó el evento de rotura durante el periodo de observación mientras que tres de las

bombas sí lo presentaron.

Figura 7 muestra de datos censurada a la derecha para cuatro bombas

3.3.2. Censuraalaizquierda

Este tipo de censura se presenta cuando se desconoce el inicio del evento que se está estudiando. Por ejemplo

dada la siguiente situación:

Supóngase que se ha adquirido un lote de equipos de segunda mano, con una vida total de 12000h, del cual se

conoce que algunos han tenido un fallo durante este periodo. Dado que el vendedor no llevaba un control

exhaustivo se desconoce en qué momento se produjo.

Para conocer el estado de lote se realiza un análisis de supervivencia del mismo pero de los datos obtenidos se

deben marcar como censurados aquellos tiempos hasta el fallo de los equipos que previamente han fallado

wa

wa

wa






Pág. 17 de 72

dado que no se conoce su verdadero valor, pues el inicio del segundo periodo de vida puede encontrarse entre

0 y 12000h.

Figura 8 Muestra de datos censurada a la izquierda

3.3.3. Censuraenintervalos

Este tipo de censura refleja la incertidumbre asociada a la ocurrencia del evento. Se tienen dos cotas, superior

e inferior como estimación pero se desconoce con exactitud el valor del mismo. Un ejemplo de este tipo de

censura ya se enunció en apartados anteriores.

Figura 9 Muestra de datos censurados en intervalos


La información disponible sobre una muestra de datos condiciona el análisis posterior de la misma. Así pues, es

de gran importancia que cada uno de los datos de la muestra esté correctamente cualificado. Se han

identificado dos tipos de censura: Tipo I y Tipo II. Para el primer tipo la medida u observación del evento

estudiado no ha sido totalmente precisa debida a las limitaciones del muestreo. Por su parte, el segundo tipo

se debe a las estrategias de muestreo especificadas.

La censura puede manifestarse según tres esquemas diferentes: la censura a la derecha tiene lugar cuando la

ocurrencia del evento de interés tiene lugar tras finalizar el periodo de monitorización. La censura a la izquierda

refleja el desconocimiento sobre los eventos que han acontecido previos a la monitorización. Por último, la

censura por intervalos considera aquellos eventos para los que solo ha podido identificarse un intervalo

acotado en relación a su ocurrencia.

En lo siguiente se especifican las funciones o modelos probabilistas más destacables para el análisis de datos en

la ingeniería de confiabilidad, tanto para analizar el proceso de reparación como el de recuperación.

wa

wa

wa






Pág. 18 de 72

4. MODELADO DE DATOS

En muchas ocasiones, los datos obtenidos, suelen mostrar patrones (modelos o tendencias). Es objeto del

análisis de datos encontrar (inferir) los patrones (leyes matemáticas) de una cierta población en función de los

valores muestrales observados de variables aleatorias (los datos obtenidos de algún componente). En el

ámbito de la ingeniería de Confiabilidad estos modelos tienen carácter probabilista y permiten caracterizar la

distribución de la variable aleatoria de interés (tiempos hasta el fallo, tiempos de reparación, etc).

Figura 10 Diferencia entre población y muestra

Así pues, el modelado de datos resulta esencial para caracterizar matemáticamente la tendencia en el

comportamiento de los componentes que definen un sistema. Algunos de los datos de relevancia son los

relacionados con el proceso de fallo (tiempos hasta el fallo, tiempos entre fallos, desgaste hasta el fallo, etc.)

de un activo, así como los asociados a los procesos de recuperación (Tiempo de reparación, tiempo de

inspección, etc.). Según el sector sobre el cual se realice el estudio de confiabilidad la variable de interés puede

diferir.

En lo siguiente, se darán primero unas notas de la estadística elemental que son clave para cualquier análisis de

datos preliminar a fin de obtener información inicial rápida sobre la muestra de estudio.

4.1. Notas de estadística descriptiva básica (Medidas de tendencia central y de dispersión)

4.1.1. Medidas de tendencia central

Las medidas de tendencia central son aquellas que describen el comportamiento de un conjunto de datos de

forma promedio. Por tanto, suelen ubicarse hacia el centro del conjunto de datos ordenados.

Aunque el conjunto de medidas de tendencia central es muy diverso, este documento solo tratará la media

aritmética, la mediana y la moda como medidas básicas más representativas.

4.1.1.1. Media aritmética

La media aritmética se define como la suma de los valores de un conjunto de datos dividido entre el número de

datos que conforman dicho conjunto:

1

n

ii

x

n

, donde n es el número de datos y ix el valor puntual de cada dato.

wa

PROMEDIO

wa






Pág. 19 de 72

4.1.1.2. Mediana

La mediana de un conjunto de datos ordenados, se corresponde con el valor de aquel dato que divide al

conjunto en dos partes iguales. En particular:

‐ En caso de que el conjunto tenga un número de datos impar, entonces la mediana es el valor central.

Esto es:

( /2) 0,5nMe x

‐ Si el número de datos es par, la mediana será a media de los dos valores centrales. Esto es:

( /2) ( /2 1)1

( )2 n nMe x x

4.1.1.3. Moda

La moda ( Mo ) de un conjunto de datos es el valor más repetido, es decir, el que ocurre con mayor frecuencia.

La moda puede no ser única e incluso no existir.

Ejemplo:

El tiempo de reparación de una bomba tiene los siguientes resultados, expresados en horas:

12, 7, 4, 5, 4, 9, 7, 4, 8, 2.

Calcular media, mediana y moda.

Resolución:

En primer lugar, se ordenarán los datos, para tener una disposición de menor a mayor.

2, 4, 4, 4, 5, 7, 7, 8, 9, 12

Ahora, se contarán el número de muestras. Al haber 10 datos, n=10.

La media es la siguiente:

1 (2 4 4 ... 9 12)6,2

10

n

ii

x

n

La mediana será la siguiente:

5 6( /2) 0,5 5,5

5 76

2 2nx x

Me x x

La moda corresponde al valor más repetido, por lo que:

4Mo

wa

wa






Pág. 20 de 72

4.1.2. Medidas de dispersión

Las medidas de dispersión reflejan el grado de desviación que los valores del conjunto de datos (muestra)

tienen respecto al valor de tendencia central. De entre los que existen, este capítulo se centrará en la

descripción de la varianza, la desviación típica y el rango intercuartílico.

4.1.2.1. Varianza

La varianza de una serie de datos representa la desviación cuadrática de los datos respecto de la media

aritmética. Está definida por la expresión siguiente:

2

12

( )n

ii

x

n

4.1.2.2. Desviación típica

La desviación típica se define formalmente como la raíz cuadrada de la varianza. Este arreglo permite

representar la medida de dispersión en el mismo orden de magnitud que los datos de la muestra.

2

2

1

( )n

ii

x

n

4.1.2.3. Rango intercuartílico

Para definir esta medida de dispersión es conveniente recordar qué es un cuartil y en general qué es un cuantil.

Un cuartil es una particularización de un cuantil, de tal forma que en primer lugar se definirá el concepto más

general y posteriormente las particularizaciones.

Se denomina cuantil (quantile en inglés) al valor que divide la muestra en k porciones con el mismo número de

valores. Los cuartiles son, por tanto, los valores que dividen en cuatro partes iguales (k=4) la muestra de datos.

Hay cuatro cuartiles, el primer cuartil 1Q es el que aloja el 25% de datos de la muestra, el segundo cuartil 2Q ,

contiene el 50% de los datos de la muestra, el tercer cuartil 3Q el 75% y el cuarto cuartil, 4Q , el 100%, es decir,

la totalidad de la muestra. Nótese como el segundo cuartil coincide con la mediana de la muestra, explicada

anteriormente.

Por tanto, el rango intercuartílico se define como la diferencia entre el tercer y el primer cuartil. Esto es:

3 1IQ Q Q

Los cuartiles, se obtienen a partir de la siguiente expresión:

( 1)( )

4

1, 2,3k k nQ x k

Si el subíndice ( 1) / 4k n no fuese un número entero, entonces deberá interpolarse linealmente el valor del

cuartil considerando el siguiente valor más bajo y más alto alrededor del mismo. Véase el ejemplo siguiente:

Ejemplo:

Calcular la varianza y la desviación típica de los datos de reparación del ejemplo anterior.

wa

wa

wa

wa

wa

wa






Pág. 21 de 72

Resolución:

La varianza se calcula de la siguiente manera:

22 2 2 2

12

( )(2 6,2) (4 6,2) ... (9 6, 2) (12 6, 2)

7,9610

n

ii

x

n

La desviación típica es:

2 7,96 2,821

El rango intercuartílico es:

1

1 2,75

( 1) 1 (10 1) 112,75

4 4 4k n

Q

Q x

Como el índice no es entero, el valor de este cuartil se interpolará considerando los datos 2 34 4x y x , así

pues:

1 2 2,75 2 3 2,75

2,751 2 1

1 2,75

4 4: : (2,75 2) 4 4

2,75 2 3 2,75 3 2,75

4

i i i ix x x x x x x xx

i i i i

Q x

Calculamos ahora el tercer cuartil:

1

1 8,25

( 1) 3 (10 1) 338,25

4 4 4k n

Q

Q x

1 2 1 8,25 8 9 88,25

1 2 1

1 8,25

9 8: : (8, 25 8) 8 8,25

8, 25 8 9 8 9 8

8,25

i i i ix x x x x x x xx

i i i i

Q x

Por tanto el rango intercuartílico es:

3 1 8, 25 4 4,25IQ Q Q

4.2. Desde los datos hasta los modelos: una visión metodológica

Lo primero con lo que se encontrará un ingeniero de confiabilidad cuando desee obtener modelos de los

indicadores de sus sistemas será, generalmente, algo parecido a los registros de operación que se mostraron

en el apartado 2.2. A partir de esa información primaria, se deberán extraer los valores de la variable

estudiada, por ejemplo, tiempos de reparación de un activo. En consecuencia, el analista habrá sintetizado toda

esa información en una serie de registros de tiempos de reparación o muestra de tiempos de reparación. Véase

la tabla siguiente:






Pág. 22 de 72

Tiempos de reparación (h)4 6 8 9 9 12 13 15 21 35

A continuación, para obtener una primera aproximación a las probabilidades de reparación se realizará un

análisis de frecuencias de los valores muestreados. Para ello, primero se realizarán agrupaciones de los datos

muestreados mediante algún tipo de regla. En este documento, se describen en el capítulo 6. Las reglas de la

raíz cuadrada y Sturges como procedimiento sistemático para la agrupación. Supóngase que para el conjunto

de valores obtenidos (muestra), los grupos (clases) son los siguientes:

Clases

0‐10 h 5 Marca d

e

Clase

10‐20 h 15

20‐30 h 25

30‐35 h 32,5

A continuación se asignan las frecuencias de ocurrencia a cada clase identificada y se crea el diagrama de

frecuencias absolutas.

Figura 11: Histograma de Frecuencias Absolutas

Si cada columna del gráfico anterior (que representa las frecuencias de cada clase) se divide entre el número

total de datos de la muestra, se obtiene el conocido gráfico de frecuencias relativas. Esto se conoce como

aproximación a priori de la función de densidad (apartado4.3.1) de una variable aleatoria (en este caso, el

tiempo de recuperación).

Figura 12 Histograma fecuencias absolutas y acumuladas

0

1

2

3

4

5

6

0‐10 10‐20 20‐30 30‐35

Ocurrencias

Tiempo de reparación

Frecuenciaabsoluta






Pág. 23 de 72

Si estas frecuencias relativas se suman y su resultado se acumula se obtiene la Figura 12, conocida como

diagrama de frecuencias relativas acumuladas. Este gráfico representa la primera estimación no paramétrica

de la función de distribución (apartado 4.3.3).

Por tanto, actualmente a efectos del análisis se dispondrá de una pareja de valores del tipo marca de clase

(valor medio de las clases) y una probabilidad (frecuencia relativa acumulada) de reparación. El objeto del

analista será obtener algún modelo matemático, también llamado función de distribución o distribución con la

que poder estimar cuál será la probabilidad de reparación en cada instante de tiempo.

La obtención de dicho modelo se denomina ajuste, y puede realizarse mediante diferentes metodologías, como

por ejemplo, ajuste lineal mediante mínimos cuadrados (apartado 5.1) o el método de máxima verosimilitud

(apartado 5.2), entre otros.

En lo siguiente se expondrán las funciones de probabilidad continuas y discretas de más amplia aplicación en

los análisis de Confiabilidad para la caracterización de indicadores. Se hará énfasis en las distintas funciones

más relacionadas con la ingeniería RAMS (supervivencia, probabilidad de fallo, densidad, etc) y en sus

parámetros característicos. Otras funciones menos frecuentes se exponen en los anexos de este documento.

Además se explicarán algunas distribuciones que, si bien no se emplean frecuentemente en la caracterización

de indicadores, sí son extensamente usadas en los procesos de contraste de hipótesis y bondad del ajuste.

Según el tipo de variable aleatoria estudiada, los modelos o funciones de probabilidad anteriormente

mencionados se clasifican en continuos o discretos. Por ejemplo, la probabilidad de que un relé sufra cinco

fallos en un intervalo de tiempo viene descrita por algún modelo discreto que bien podría ser una distribución

de Poisson. Por su parte, la probabilidad de que una bomba no falle antes de un tiempo determinado viene

descrita por alguna distribución de probabilidad continua, como una Weibull‐2P. Nótese que en el primero de

los casos se está estudiando el número de fallos (variable aleatoria discreta) y en el segundo caso el tiempo

hasta el fallo (variable aleatoria continua).

4.3. Funciones continuas

Se han seleccionado como distribuciones más relevantes, la función exponencial, la función de Weibull, la

función Normal y la función Lognormal.

En principio se aportan las bases teóricas sobre algunas de las funciones más destacadas asociadas con cada

modelo de distribución de probabilidad.

4.3.1. FuncióndedensidaddeProbabilidad

La Función de densidad asociada a una variable aleatoria, es la probabilidad relativa según la cual dicha variable

(tiempo hasta el fallo, tiempo de reparación, etc) tienda a adoptar valores entorno a un determinado valor ”t”.

Habitualmente se denota por ( )f t , y cumple la siguiente propiedad:

( ) 1D

f t dt .

, donde D es el dominio de la variable aleatoria. En el ámbito del análisis de confiabilidad el dominio está

contenido en el conjunto de los números reales o enteros positivos, esto es:

, )[0D

wa

wa

William.Rodriguez

Highlight

William.Rodriguez

Rectangle

William.Rodriguez

Highlight

William.Rodriguez

Highlight






Pág. 24 de 72

Supongamos un rodamiento en un eje girando continuamente con el funcionamiento de un motor. La función

de densidad puede establecer con qué probabilidad el rodamiento fallaría a las 1000 horas de funcionamiento,

a las 5000 horas, o a la hora que se le defina en la función.

4.3.2. Esperanzadeunavariablealeatoria(ValorMedio)

La esperanza matemática o valor medio ( E ) de una variable aleatoria con una determinada distribución es

aquel valor que, de alguna manera, define el “centro de masas” de la distribución de probabilidad. En cierto

sentido provee de una medida del valor promedio que adoptará dicha variable. Se define como:

( )D

E t T t f t dt

En los análisis de confiabilidad, generalmente, el valor de T está asociado a las variables Tiempo Hasta el Fallo

(TTF) o Tiempo de Reparación (TTR) o métricas similares.

Siguiendo el ejemplo del rodamiento, la media buscará el instante intermedio de tiempo en el que suele fallar

el rodamiento. Aunque un rodamiento falle a las 20000 horas y otro a las 5 horas, cuando fallan n rodamientos,

se aprecia que hay un valor medio de tiempo sobre el que suele fallar el rodamiento, y es lo que se busca bajo

esta función.

4.3.3. FuncióndeDistribucióndeProbabilidad

La Función de distribución de una variable aleatoria define la probabilidad de que esta sea menor que un cierto

valor de referencia “t”.. Se define como:

0

( ) ( )t

F t f t dt

Continuando con el ejemplo del análisis de RAMS del rodamiento, la probabilidad de que éste sufra al menos

un fallo durante el periodo de 10000 horas de funcionamiento viene descrita mediante la función de

distribución aplicando en ella este tiempo.

4.3.4. FuncióndeSupervivencia

La Función de supervivencia de una determinada variable aleatoria define la probabilidad de que esta adopte

un valor al menos tan bajo como un determinado valor de referencia “t”.

Se define como:

( ) ( )t

R t f t dt

La función de supervivencia es complementaria a la función de distribución. Por tanto:

( ) ( ) 1R t F t , o lo que es lo mismo:

0

( ) 1 ( ) 1 ( )t

R t F t f t dt

Trabajando sobre el ejemplo anterior, la probabilidad de que el rodamiento no haya fallado durante las

primeras 10000 horas de operación se puede calcular, o bien con la función de supervivencia, o bien restando a

1 la probabilidad de que no falle (calculada con la función de distribución).

wa

wa

wa

William.Rodriguez

Highlight

William.Rodriguez

Highlight






Pág. 25 de 72

Valorándolo numéricamente, si la probabilidad de que no falle (calculada con la función de supervivencia) a las

10000 horas es del 65% (0,65), la probabilidad de que falle es del 35%.

4.3.5. FuncióndeRiesgo

La Función de riesgo es la probabilidad de que el suceso considerado ocurra en el siguiente instante de tiempo,

condicionado de que no ha sucedido antes.

Se define por la siguiente proporción:

( )( )

( )f t

tR t

Recurriendo al ejemplo del rodamiento, si se conoce que han pasado 5000 horas y aún no ha fallado, con la

función de riesgo se establece la probabilidad de que falle a continuación

4.3.6. Exponencial

El modelo de datos exponencial se ve representado como una sencilla curva decreciente, en base exponencial.

Se caracteriza, de forma general, por estar definido por dos parámetros y por tener una única forma cualquiera

que sean sus parámetros. Como se verá posteriormente con más detalle, se trata de un caso particular del

modelo Weibull.

4.3.6.1. Función de densidad

La función de densidad exponencial viene determinada por la siguiente ecuación:

( )( ) tf t e

Está definida por y , por lo que se conoce como la función de densidad exponencial de 2 parámetros (E‐

2P), donde se verifica que:

( ) 0f t , 0 , 0 0

0

t

t

El parámetro es el parámetro de localización. Con valores positivos, desplaza la curva hacia la derecha,

representando que el evento modelado (fallo, reparación, etc…) comienza a ocurrir a partir de un cierto valor

, no pudiendo tener lugar a valores inferiores.

4.3.6.2. Esperanza (valor medio) de la distribución exponencial

La esperanza de la distribución exponencial se calcula a partir de la expresión del apartado 4.3.2.

( ) 1( ) tT t f t dt t e dt

4.3.6.3. Funciones de distribución y supervivencia

La función de distribución exponencial se obtiene integrando la función de densidad exponencial. Viene dada

por: ( )( ) 1 tF t e

William.Rodriguez

Highlight

William.Rodriguez

Highlight






Pág. 26 de 72

Como las funciones de supervivencia de cualquier distribución son uno menos la función de distribución, se

obtiene que:

( )( ) 1 ( ) tR t F t e .

4.3.6.4. Función de riesgo

Otra función importante en el análisis de datos es la función de riesgo (del inglés, hazard). Es la proporción

entre la función de densidad y la función de supervivencia:

( )

( )

( )( )

( )

t

t

f t et

R t e

En esta distribución, la función de riesgo es constante, y de valor .

Una característica interesante de esta función es la llamada “falta de memoria”. Esta propiedad se verifica

cuando la función de riesgo es constante y en consecuencia la probabilidad de ocurrencia del evento es

independiente del resto.

Formalmente este fenómeno está asociado con la probabilidad condicionada de que el evento ocurra previo al

instante t+s tal que no haya ocurrido previo al instante de tiempo t. Si se verifica la propiedad de falta de

memoria, entonces la probabilidad de ocurrencia del evento (por ejemplo el fallo de un equipo) previo al

instante t+s condicionado a que no haya ocurrido antes de t es equivalente a estudiar la probabilidad de que el

evento ocurra antes del instante t+s.:

[ ( ) | ] ( )P T t s T t P T s

Supóngase el caso en que se desea analizar la probabilidad de fallo de un condensador instalado en la placa

base de una unidad de procesamiento. Si el fallo de dicho condensador está definido por una distribución

exponencial, entonces, según la propiedad de falta de falta de memoria, la probabilidad de fallo del

componente en un periodo de 1000 h es igual tanto si se considera el periodo después de su instalación como

si se considera que ya ha funcionado un número de horas determinado previamente. Véase en la siguiente

demostración:

Ejemplo:

Supónganse los siguientes dos escenarios y λ=0,00075. Por una parte se quiere determinar la probabilidad de

que un activo falle antes de las 1000 horas de funcionamiento. Por otra parte se desea calcular la probabilidad

de que habiendo el equipo operado durante 200 horas, cuál es la probabilidad de que falle en las siguientes

1000 horas. Se sabe que la ley asociada al tiempo hasta el fallo es una exponencial.

Para el primer caso se desea calcular ( 1000)P T mientras que en el segundo caso se trata de hallar

( 1000 200 | 200)P T T . Si la propiedad de falta de memoria se cumple ambas probabilidades deben ser

iguales, así pues:

0,00075 1000( 1000) (1000) 1 0,52763P T F e






Pág. 27 de 72

Por otra parte, también se ha demostrado que:

0,00075 1000( 1000 200 | 200) ( 1000) 1 0,52763P T T P T e

Cuando el valor de gamma es igual a cero, se obtiene la distribución exponencial de un parámetro (E‐1P), cuyas

propiedades se muestran en la tabla siguiente:

Modelo Exponencial de un Parámetro (E‐1P)Función de Densidad Función de Distribución Función Supervivencia Función de Riesgo Valor Medio

( ) tf t e ( ) 1 tF t e ( ) tR t e 1

La influencia que ejercen y sobre la función de densidad exponencial es notable:

En el modelo exponencial el parámetro determina el valor inicial de ordenadas asociado a la función de

densidad. Asimismo representa la tasa de variación (crecimiento o decrecimiento) asociada a las funciones de

distribución, densidad y supervivencia. En las figuras Figura 13 y Figura 15 puede observarse el efecto que

ejerce el valor del parámetro . Por su parte, el parámetro γ es un factor de localización que desplaza a la

distribución sobre el eje de coordenadas. Cuando γ es igual a cero se observa que el fenómeno estudiado tiene

lugar desde el principio (t = 0). Asimismo, cuando gamma es mayor que cero ocurre que el evento comienza a

manifestarse con un cierto retraso en relación al instante inicial. Los valores de γ pueden ser también

negativos, habiendo en este caso cierta discusión sobre su posible significado, cuando la distribución es

empleada en el análisis de la fiabilidad de activos. Algunos autores argumentan que el valor negativo del

parámetro de localización puede deberse a fallos durante el proceso de manufactura del activo o fallos en

general producidos previamente a la fase de explotación (transporte, almacenado, etc). Otros, en cambio,

consideran que el valor de γ negativo es exclusivamente una evidencia razonable para descartar el modelo ya

que la función de supervivencia (fiabilidad en este caso) por convenio es igual a uno al inicio de la vida del

activo.

En las figuras se han contemplado cuatro posibles escenarios. La Figura 13 y Figura 14 representan las

funciones de densidad. La primera considera el efecto del parámetro λ manteniendo el otro constante,

mientras que la segunda muestra curvas para las que se varía el parámetro γ manteniendo el otro constante.

En la Figura 15 y Figura 16 se representan casos análogos a los anteriores pero sobre la función de

supervivencia.

Figura 13 Efecto de λ en la función de densidad Exponencial

Figura 14 Efecto de γ en la función de densidad Exponencial

0

0,002

0,004

0,006

0,008

0,01

0 200 400 600Función de densidad

f(t)

Tiempo t

λ=0,001

λ=0,005

λ=0,009

0

0,002

0,004

0,006

0,008

0,01

0 200 400 600Función de densidad

f(t)

Tiempo t

γ=0

γ=100






Pág. 28 de 72

Figura 15 Efecto de λ en la función de supervivencia Exponencial

Figura 16 Efecto de γ en la función de supervivencia Exponencial

Como se aprecia del análisis de las gráficas conforme aumenta el valor del parámetro λ, las funciones de

densidad y supervivencia tienden a decrecer de forma más rápida, observándose el efecto complementario en

la función de distribución.

4.3.6.5. Linealización de la distribución Exponencial

La expresión linealizada de la distribución exponencial se usa de forma frecuente para ajustar unos datos

muestrales al modelo, o sea, para obtener los valores de λ y γ más apropiados según los datos dados. Para ello

se recurre a una transformación de los datos a partir de la función logaritmo neperiano:

( )

( )

( ) 1

ln(1 ( )) ln( ) ( )

ln(1 ( ))

t

t

F t e

F t e t

F t t

Si los datos transformados pueden ajustarse razonablemente a una recta entonces no se puede refutar la

hipótesis de que el modelo que los representa es una función exponencial.

ln(1 ( ))

y mx b

x t

y F t

m

b

Bajo esta transformación, se pueden estimar los parámetros con el método de los mínimos cuadrados, como se

verá posteriormente.

4.3.6.6. Derivadas parciales de la función de Verosimilitud

A continuación se presenta la derivada parcial respecto del parámetro λ de la función de log‐verosimilitud de la

distribución exponencial.

1

1[ ( )]

min( )

0eF

i ii

it

N t

, donde min( )it denota el mínimo valor de la muestra de datos obtenida.

0

0,2

0,4

0,6

0,8

1

1,2

0 200 400 600

Función de supervivencia

R(t)

Tiempo t

λ=0,001

λ=0,005

λ=0,009

0

0,2

0,4

0,6

0,8

1

1,2

0 200 400 600

Función de supervivencia

R(t)

Tiempo t

γ=0

γ=100






Pág. 29 de 72

Resolviendo el sistema de ecuaciones, se pueden determinar los parámetros y de acuerdo al método de

estimación paramétrica de máxima verosimilitud que se revisará en el capítulo 5.

4.3.6.7. Aplicaciones

Algunas aplicaciones de esta distribución se encuentran en algunos fenómenos naturales, cuyo riesgo es

constante. Por ejemplo, la tasa de llegada de las partículas alfa de rayos cósmicos o las medidas de un Contador

Geiger se amoldan a esta distribución.

La distribución ha encontrado amplia aplicación en la caracterización de la fiabilidad de componentes

electrónicos durante su vida útil. También como primera estimación la fiabilidad de nuevos diseños para los

cuales no se dispone de otro tipo de información. No obstante, en la práctica la hipótesis exponencial ha sido

ampliamente discutida y no exenta de controversia. Para que se verifique, el componente o activo debe ser

insensible a la edad y el desgaste. Además, tras un fallo la recuperación deberá dejarlo como si fuera nuevo, lo

que se conoce como modelo GAN (Good‐As‐New) de recuperación.

Asimismo, la distribución se ha empleado extensamente en el análisis de la mantenibilidad de sistemas en la

que se asume una tasa constante de reparación.

Ejemplo:

Tras analizar un conjunto de datos de fallo del sistema, se ha determinado que la ley que define su tendencia es

un modelo exponencial, caracterizado por los siguientes parámetros:

0,003

40

Las unidades empleadas de tiempo son días.

Se quiere estudiar cómo influye la probabilidad de fallo del sistema tras 10 días, 100 días y 500 días, analizando

las funciones de densidad, distribución, supervivencia y riesgo. También se pretende obtener la media de datos

de fallo.

Resolución:

Si se sustituyen los valores las funciones que definen el modelo exponencial, se pueden obtener las

probabilidades buscadas.

Para 10 días, se da la característica de que el tiempo es menor que el parámetro : t . Por ello, los valores

probabilísticos no entran como tal en la función. Por ellos, se cumple que:

( ) 0

( ) 0

( ) 1

( ) 0

f t

F t

R t

t

Para 100 días, el valor de las funciones ya aporta valores, ya que el tiempo es mayor que el parámetro : ( )

0,003(100 40)

( )

(100) 0,003 0,00250581

tf t e

f e

wa






Pág. 30 de 72

( )

0,003(100 40)

( ) 1

(100) 1 0,16472979

tF t e

F e

( )

0,003(100 40)

( )

(100) 0,83527021

tR t e

R e

( )

(100) 0,003

t

Para un tiempo t=500, los valores son: 0,003(500 40)(500) 0,003 0,00075474f e

0,003(500 40)(500) 1 0,74842145F e

0,003(500 40)(500) 0, 25157855R e

(500) 0,003

Analizando los valores obtenidos, se puede concluir que:

‐ La probabilidad de fallo en el instante, usando los datos del sistema, disminuye con el tiempo.

‐ La probabilidad de que el sistema haya fallado previamente al ensayo aumenta con el tiempo.

‐ La probabilidad de que el sistema no haya fallado, por tanto, disminuye.

‐ La probabilidad de que se produzca un fallo concreto a continuación del tiempo medido es siempre

constante, y de valor .

Analizando la media de fallo:

1 140 373,33

0,003T

La media de fallo se produce a los 373,33 días.

Una cosa destacable de la media de fallo es que no coincide con que la probabilidad de que haya fallado sea del

50%. De hecho, la probabilidad de que haya fallado ya es de un 63,21%. En consecuencia, la probabilidad de

que no haya fallado ya es de un 36,79%.

Por último, por la misma razón de antes, la probabilidad de que el fallo se produzca a continuación de haber

pasado 373,33 días, si no ha fallado aún, es de 0,003.

4.3.7. WeibullEl modelo de datos de Weibull es una función mucho más flexible que la exponencial, adaptándose a muchas

más muestras de datos gracias a la inclusión del parámetro de forma . De hecho, la curva exponencial es una

particularización de este modelo, donde adopta valor 1.


La función de densidad de Weibull se define como:

( )1( ) ( )

tt

f t e

La definen , y , por lo que se conoce como la función de densidad de Weibull de 3 parámetros (Weibull‐

3P), para la cual puede comprobarse que:

wa






Pág. 31 de 72

( ) 0f t , 0 , 0 , 0 0

0

t

t

El parámetro es el parámetro de forma, representa el parámetro de escala, y es el parámetro de

localización. Cada uno afecta de distinta manera a la función de densidad, como se verá después.

4.3.7.2. Esperanza (valor medio) de la distribución de Weibull

La media de la función de Weibull depende de la función gamma tal y como se refleja a continuación:

( )1 1

( ) ( ) ( 1)t

tT t f t dt t e dt

, donde:

1

0

1( 1) xe x dx

Los valores de la función Gamma se pueden obtener con relativa facilidad mediante software de cálculo

numérico (R, Matlab, Weibull++) u otros de uso general como Excel.

4.3.7.3. Función de distribución y supervivencia

La función de Weibull de distribución, integrando la función de densidad de Weibull, es:

( )( ) ( ) 1

t

F t f t e

A partir de ésta, la función de supervivencia de Weibull es:

( )( ) 1 ( )

t

R t F t e

4.3.7.4. Función de riesgo

La función de riesgo se expone en la expresión siguiente. Como puede apreciarse, en este caso la función no es

constante en el tiempo como ocurría con la distribución exponencial. Puede demostrarse que en procesos

modelados según una distribución Weibull la propiedad de falta de memoria no se verifica.

( )1

1

( )

( )( )

( ) ( )( )

t

t

te

f t tt

R te

La Weibull posee una serie de particularizaciones según los valores que adopten los parámetros de la misma.

Por un lado ya se ha mencionado previamente que la Weibull con parámetro β igual a 1 se corresponde con

una distribución exponencial (de uno o dos parámetros según el valor de γ). Por otra parte, ocurre que cuando

2 , se obtiene la distribución de Rayleight. Un ejemplo del uso de esta distribución es la magnitud del error

radial usando valores de error de coordenadas x e y.

Otro caso destacable es la aproximación de la Normal a partir de la distribución Weibull. Esto ocurre cuando el

parámetro de forma adopta valores próximos a 3,5 . Nótese que la semejanza es aproximada, no exacta.

wa

wa






Pág. 32 de 72

La flexibilidad de la distribución Weibull se debe a los tres parámetros (escala, forma y desplazamiento) que la

definen. Con ellos se pueden caracterizar una gran variedad de procesos relacionados con la ingeniería de

confiabilidad, desde tasas de envejecimiento, probabilidades de fallo en cualquiera de las etapas de

explotación de los activos3, probabilidades de recuperación, etc.

El valor del parámetro de forma β determina en cierto grado la distribución de la función de densidad de

probabilidad asociada a una variable aleatoria. El efecto sobre la función de riesgo (λ(t)) también es notable

observándose los comportamientos siguientes:

Si 1 , la función de riesgo ( )t muestra una tendencia decreciente.

Si 1 , ( )t será constante. De hecho, se particulariza a ( ) 1t .

Si 1 , ( )t será creciente. Como caso particular, además, si lo analizamos como distribución de

Rayleight ( 2 ), la función será lineal.

El parámetro de escala, η, conjuntamente con el de β caracterizan la media, varianza y dispersión de la función

de densidad. En la

Figura 20 puede observarse cómo varía la función de densidad de probabilidad con el parámetro γ

Por último, el parámetro de desplazamiento, γ, determina la separación respecto al origen de la distribución,

expresando un intervalo para el cual se espera que la variable aleatoria no tome valores.

Las figuras siguientes muestran las dependencias entre la distribución y sus parámetros. La Figura 17 presenta

la relación con el parámetro de forma manteniendo el resto constantes. En la Figura 18 se presenta la

dependencia de la función de riesgo con el parámetro de forma. Por último, la Figura 19 y

Figura 20 exponen las relaciones con los parámetros de escala y desplazamiento, respectivamente.

3 Como se verá en más adelante, esto está relacionado con la descripción del ciclo de vida de un activo mediante el modelo de la curva de

la bañera.

wa






Pág. 33 de 72

Figura 17 Efecto de β en la función de densidad Weibull

Figura 18 Efecto de β en la función de riesgo Weibull

Figura 19 Efecto de η en la función de densidad Weibull

Figura 20 Efecto de γ en la función de densidad Weibull

En múltiples ocasiones se verifica que el parámetro de desplazamiento γ tiende a valores bastante cercanos a

cero. Es más, en ocasiones las muestras de datos caracterizadas mediante Weibull 3‐P pueden aproximarse de

forma razonable empleando exclusivamente los parámetros de forma y escala. Por tanto, si se particulariza

haciendo 0 , se obtiene la función de densidad de Weibull de dos parámetros (Weibull 2‐P), que ha sido

empleada con mayor profusión que la anterior. Por una parte la flexibilidad perdida al prescindir del parámetro

γ es, en muchos casos, no significativa y, por otro lado, la expresión posee un tratamiento numérico

sensiblemente más simple.

( )

1( ) ( )t

tf t e

En adelante los subapartados se referirán a la distribución de weibull 2‐P

4.3.7.5. Linealización de la distribución de weibull

El cálculo de los valores de , por medio de mínimos cuadrados buscará de nuevo representar la curva

como una recta:

0

0,005

0,01

0,015

0 200 400 600

Función de den

sidad

f(t)

Tiempo hasta el fallo t

β=0,4

β=1

β=2

0

1

2

3

4

5

0 50 100 150Función de riesgo

λ(t)


β=0,4

β=1

β=2

β=3

‐0,005

0

0,005

0,01

0,015

0,02

0,025

0 200 400 600

Función de den

sidad

f(t)


η=40

η=100

η=200

0

0,002

0,004

0,006

0,008

0,01

0 200 400 600Función de den

sidad

f(t)


γ=0

γ=50

γ=100






Pág. 34 de 72

( )

( )

( ) 1

ln(1 ( )) ln( ) ( )

ln( ln(1 ( ))) ln(( ) ) ln( ) ln( ) ln( )

t

t

F t e

tF t e

t tF t t

Si lo dejamos notificado como una recta, se haría un cambio de variable, dejando también una escala

logarítmica en el eje de abscisas:

1ln(ln( ))

1 ( )

ln( )

ln( )

y mx b

yF t

x t

m

b

4.3.7.6. Derivadas parciales de la función de verosimilitud

1 1 1

1 1

1ln( ) ( ) ln( ) 0

( ) 0

e e e

e e

F F Fi i i

i i ii i i

F Fi

i ii i

t t tN N N

tN N

Resolviendo las expresiones, se pueden determinar los parámetros , .


La distribución Weibull ha encontrado numerosas aplicaciones en diversos campos de estudio. El estudio de la

distribución de velocidades de viento, de corrientes y altura de oleaje en el mar son algunos de los ejemplos

más significativos en el ámbito del modelado probabilista de fenómenos meteorológicos. También ha sido

empleada con profusión en los análisis de supervivencia empleados en estudios médicos.

En la ingeniería de Confiabilidad es una de las distribuciones que más aceptación ha tenido debido a que su

versatilidad ha permitido el modelado de muchos modos de fallos y procesos de mejora de la fiabilidad

(Modelos Crow‐AMSAA). La flexibilidad de su forma ha resultado ser propicia para analizar el proceso de fallo

en cualquiera de las etapas de explotación de un activo (fallos prematuros, vida útil y envejecimiento), siendo

una alternativa factible, en ciertos casos, a la distribución lognormal para analizar los fallos por desgaste donde

intervienen múltiples mecanismos de fallo o a la distribución exponencial para caracterizar los fallos durante la

vida útil. En sistemas reparables cuando no existe independencia entre la ocurrencia de fallos consecutivos,

esta distribución es un modelo adecuado para lo que se denominan Procesos No‐Homegéneos de Poisson

(Non‐Homogeneous Poisson Process, NHPP). Debido a esta serie de propiedades, la distribución Weibull, es una

de las más comúnmente aceptadas para el modelado de maquinaria rotativa (bombas, compresores, máquinas

eléctricas, etc).

Además, esta distribución también representa adecuadamente, en muchos casos, los procesos de reparación,

envejecimiento o capacidad de recuperación. Por todo lo anterior, puede observarse la magnitud de

importancia que esta distribución tiene en los Análisis de Confiabilidad.

wa






Pág. 35 de 72

En lo siguiente solo se definirán las distribuciones y se analizarán sus variaciones en función de los parámetros

de la misma y se expondrán los casos de éxito más relevantes en sus aplicaciones. Una descripción más

profunda se recoge en el Anexo‐ Distribuciones complementarias.pdf

Ejemplo:

Tras analizar los ciclos hasta el fallo del eje de un sistema, se ha definido el comportamiento en base a una

distribución de Weibull de dos parámetros, con los siguientes parámetros:

1,8

55

En la distribución, las unidades empleadas son miles de ciclos.

Se pretende estudiar gráficamente la probabilidad de fallo, realizando gráficas de las funciones de densidad,

distribución, supervivencia y riesgo.

Resolución:

Para representar gráficamente las funciones, se han establecido puntos cada 10 miles de ciclos, desde 0 a

100000. Los cálculos han empleado las siguientes ecuaciones: 1,8

1 1,8 1551,8

( )55 55

n nn n

f n e e

1,8

55( ) 1 1n n

F n e e

1,8

55( )n n

R n e e

1 1,8 11,8( )

55 55n n

n

Nótese que como es una distribución Weibull de dos parámetros, es un caso especial de Weibull de tres

parámetros, donde 0 . De ahí estas ecuaciones.

Para 0n ciclos: 1,801,8 1

551,8 0(0) 0

55 55f e

1,8055(0) 1 0F e

1,8055(0) 1R e

1,8 11,8 0(0) 0

55 55

Para n=10 miles de ciclos: 1,8101,8 1

551,8 10(10) 0,007988

55 55f e






Pág. 36 de 72

1,81055(10) 1 0,045425F e

1,81055(10) 0,954575R e

1,8 11,8 10(10) 0,008368

55 55

Si aplicamos este proceso extrayendo varios puntos, podemos representar gráficamente los resultados:

Miles de ciclos Densidad Distribución Supervivencia Riesgo

0 0 0 1 0

10 0,007988 0,045425 0,954575 0,008368

20 0,012392 0,149459 0,850541 0,014569

… … … … …

90 0,004287 0,911656 0,088344 0,04853

100 0,00281 0,946776 0,053224 0,052798

Los resultados de las funciones respecto al número de miles de ciclos es el siguiente:

0

0,002

0,004

0,006

0,008

0,01

0,012

0,014

0,016

0 50 100 150

Función de densidad

f(n)

Ciclos hasta el fallo

Densidad f(n)

0

0,2

0,4

0,6

0,8

1

0 50 100 150

Función de distribución F(n)


DistribuciónF(n)

0

0,2

0,4

0,6

0,8

1

1,2

0 50 100 150Función de supervivencia R(n)


Supervivencia R(n)

0

0,01

0,02

0,03

0,04

0,05

0,06

0 50 100 150

Función de riesgo λ(n)


Riesgo λ(n)






Pág. 37 de 72

4.3.8. Normal

Uno de los modelos más usuales en la caracterización de fenómenos aleatorios es el modelo de datos Normal,

también llamado Gaussiano. Difiere de las distribuciones anteriores en que, entre otros aspectos, está definida

sobre todo el dominio real mientras que las anteriores solo lo está para los valores reales positivos. Por lo

tanto, la distribución normal puede representar variables aleatorias como la temperatura en un estudio

térmico o la posición, que pueden tomar valores negativos.

Uno de los motivos de su extensa aplicación es la tendencia normal que exhiben los fenómenos aleatorios

cuando su comportamiento está afectado por múltiples causas aleatorias. Esto se conoce como teorema

central del límite.

La distribución normal está caracterizada por dos parámetros, la media μ y la desviación estándar σ.

4.3.8.1. Función de densidad de probabilidad

La función de densidad Normal se define como:

21( )

21

( )2

t

f t e

Donde:

( ) 0f t , t , , 0

La forma en que los parámetros μ (media) y la σ (desviación típica) afectan el modelo normal puede verse

gráficamente en las figuras siguientes:

Figura 21 Efecto de σ sobre la funcion de densidad Normal

Figura 22 Efecto de μ sobre la funcion de densidad Normal

El parámetro σ está relacionado con el grado de dispersión de los valores respecto de la media, mientras que el

parámetro μ define el centro de la distribución y por ende, del eje de simetría.


La distribución está presente en multitud de áreas tanto de la física, economía, ciencias sociales y también de la

ingeniería. Concretamente en la ingeniería de confiabilidad varios autores relacionan esta función de

distribución a modos de fallo debidos al desgaste de los componentes. Estos tienden a distribuirse en torno a

un tiempo medio de desgaste, especialmente si no existe más de un modo de fallo claramente significativo.

Cuando hay más de un mecanismo de desgaste la función de distribución tiende a perder su simetría y

‐0,01

0

0,01

0,02

0,03

0,04

0,05

0,06

‐50 50 150 250 350

Función de den

sidad

f(t)


σ=7,5

σ=10

σ=15

‐0,01

0

0,01

0,02

0,03

0,04

0,05

‐50 50 150 250 350

Función de den

sidad

f(t)


μ=50

μ=150

μ=200

wa






Pág. 38 de 72

entonces estos pueden aproximarse mediante otras funciones, que bien podría ser una Weibull o una log‐

normal.

La distribución normal suele estar relacionada también en el modelado del proceso de reparación y, en general,

en todo proceso de recuperación, ya sea por mantenimiento preventivo o correctivo.

Hay que destacar que el dominio del modelo Gaussiano puede incluir algunas incongruencias cuando se

analizan variables relacionadas con los análisis de fiabilidad o mantenibilidad. En estos casos, la variable

aleatoria estudiada no puede tomar valores negativos y sin embargo estos valores son posibles cuando se

modelan mediante la normal. No obstante, cuando el cero se encuentra a una distancia de, al menos, 4σ en

relación al valor medio, la probabilidad de que tome valores inferiores al mismo es muy pequeña y los defectos

de esta distribución son, en general, despreciables. Diferentes autores sugieren fronteras distintas, así pues

algunos consideran que 3σ es suficiente [Warleta]4 mientras que otros son más conservadores. El uso de esta

distribución está sujeto a criterio del analista.

Ejemplo:

Tras el fallo de un sistema, el proceso de reparación del mismo lleva un tiempo asociado, que varía según la

ocasión. Analizando estos tiempos, se ha determinado que la distribución que lo caracteriza es una Normal, con

los siguientes parámetros:

16

60

Las unidades de tiempo empleadas son horas.

Se pretende estudiar las probabilidades asociadas a los datos de reparación para la media.

Resolución:

En primer lugar, se procede a calcular la media. En distribuciones normales, coincide con uno de los

parámetros:

60T

Ahora, se estudiarán las probabilidades extraídas de las funciones de densidad, distribución, supervivencia y

riesgo. Para la densidad: 2 2

2

1 1 602 2 16

1 60 602 16

1 1( )

2 16 2

1(60) 0,024934

16 2

T

t t

T

f t e e

f e

Para las funciones de distribución, supervivencia y riesgo, se debe recurrir a la solución de integrales por

métodos numéricos. 21

21( ) ( )

2T

tt t

T

F t f t dt e dt

Para resolver este problema, habrá que recurrir a métodos de integración numérica, como la regla de los

trapecios.

4 [Warleta] J. Warleta, 1973. Fiabilidad, bases teóricas y prácticas. INTA, Madrid. 1973

wa






Pág. 39 de 72

Mediante este método, se realiza una aproximación de una función continua tomando n+1 valores de la

función, y haciendo una aproximación intermedia de estos valores. Matemáticamente, consiste en:

0 1 2 1( ) [ ( ) 2 ( ) 2 ( )... 2 ( ) ( )]2

bn na

b af x dx f x f x f x f x f x

n

Donde a y b representan los límites de la integración, y n el número de divisiones para analizar la integral.

Como a tendría que adoptar un valor a , se recurre a una aproximación en la que f(a’)=0, y que la

aportación de [ , ']a sea poco significativa.

En el problema analizado, si se recoge a’=‐60 para resolver la función de distribución: 2 2

2

1 1 602 2 16

1 60 60142 16

1 1( )

2 16 2

1( 60) 1,521 10

16 2

T

x x

T

f x e e

f e

Ahora se harán n=4 divisiones, desde a’=‐60 hasta b=60. Cada división abarcará 30 unidades:

0

1

2

3

4

' 60

30

0

30

60 n

a x

x

x

x

b x x

Resolviendo la función para cada división: 2

2

2

2

1 30 6092 16

1 0 6052 16

1 30 602 16

1 60 602 16

1( 30) 3,358 10

16 2

1(0) 2,204 10

16 2

1(30) 0,004777

16 2

1(60) 0,024934

16 2

f e

f e

f e

f e

Aplicando la regla del trapecio entonces: 2 21 60 1 60

60 602 16 2 1660

14 9 5

1 1(60)

16 2 16 260 ( 60)

[1,521 10 2 3,358 10 2 2,204 10 2 0,004299 0,024934]2 4

(60) 0,503644

t t

F e dt e dt

F

Si se hicieran muchas más divisiones, se vería con menor error que realmente F(60)=0,5. Esto se debe a que en

la distribución normal, la ecuación de distribución, y en consecuencia la de supervivencia, como se verá ahora,

responden a que en la media, se ha cumplido con el 50% de los sucesos, en esta ocasión reparaciones.

Hay que destacar que hay otros métodos numéricos para hallar este valor, que pueden ser más precisos, como

la Cuadratura de Gauss o el Método de Romberg.






Pág. 40 de 72

Teniendo el valor de la función de distribución para la media, ya no hace falta recurrir a los métodos de

integración numérica, a que nos podemos apoyar en otras propiedades: 21

21( ) 1 ( ); (60) 1 (60) 0,5

2T

t

tT

R t e dt F t R F

2

2

12

12

( )( )

( )

(60) 0,024934(60) 0,049868

(60) 0,5

T

T

t

t

t

e f tt

R te dt

fR

Otra alternativa al método numérico es emplear programas de cálculo, como el Excel. La función para la

función de distribución normal es:

. ( ; ; ; )DISTR NORM x VERDADERO

Donde x es el valor a aplicar, en este caso x=60.

4.3.9. LognormalEl modelo de datos lognormal parte del modelo de datos Normal. Su base es la misma, pero la variable usada

es el logaritmo de ésta, por lo que la curva resultante varía notablemente.


La función de densidad lognormal se define como:

21 ' '( )

21

( ')2

t

f t e

Siendo ' ln( )t t . El parámetro ' es la media de los logaritmos de los datos de entrada, y ' es la desviación

típica de los mismos logaritmos. Partiendo de la condición de que las áreas bajo las curvas de densidad Normal

y lognormal son iguales. Desarrollando esa condición, se llega a esta conclusión:

21 ln( ) '( )

2 '1

( )' 2

t

f t et

Donde:

( ) 0f t , 0t , ' , ' 0

La forma en que los parámetros μ’ y σ’ afectan el modelo lognormal puede verse gráficamente en las figuras

siguientes:

wa






Pág. 41 de 72

Figura 23 Efecto de σ’ sobre la funcion de densidad Lognormal

Figura 24 Efecto de μ’ sobre la funcion de densidad Lognormal

En las figuras anteriores se muestra el efecto de σ’ sobre la función de densidad (Figura 23) así como el efecto

de μ’ (Figura 24) sobre la misma. En el primer caso, al mantener constante μ’ y modificar σ’ se observa que al

aumentar esta, la función de densidad tiende a achatarse y desplazarse hacia el origen. El efecto contrario se

observa para el parámetro μ’.


En ingeniería de confiabilidad la distribución lognormal ha sido empleada con éxito en casos en los que el modo

de fallo manifestado ha sido causado por mecanismos de desgaste (corrosión, migración, agrietamiento, etc.).

Además está distribución presenta una ventaja adicional sobre el modelo Gaussiano, y es que el dominio de las

variables aleatorias no incluye valores negativos. Por tanto, es apropiada para modelar variables como el

número de ciclos hasta el fallo o tiempos hasta el fallo.

Quizás, el área donde esta distribución ha encontrado mayor aceptación es en los estudios de recuperación

(mantenimiento correctivo, preventivo, etc.) en los que los valores de los tiempos de recuperación

(caracterizados como variables aleatorias) tienden a agruparse en torno a la media pero en ciertos casos se

prolongan en el tiempo de una forma que queda bien representada por la cola derecha de la lognormal.

En la siguiente página se muestra una tabla resumen que recoge todas las funciones destacadas de las

distribuciones

Ejemplo:

Tras analizar los tiempos de fallo del sistema, se ha determinado que la ley que define sus fallos es un modelo

lognormal, caracterizado por los siguientes parámetros:

' 0, 4

' 3,2

Las unidades empleadas de tiempo son días.

Se quiere estudiar cómo se ve afectado el sistema tras 80 días de funcionamiento, analizando las funciones de

densidad, distribución, supervivencia y riesgo.

Resolución:

Aplicando las distintas funciones, se obtienen los siguientes resultados. Para la función de densidad:

‐0,005

0

0,005

0,01

0,015

0,02

0,025

0,03

0 100 200 300 400

Función de den

sidad

f(t)


σ'=0,3

σ'=0,6

σ'=1

‐0,01

0

0,01

0,02

0,03

0,04

0 100 200 300 400

Función de den

sidad

f(t)


μ'=3

μ'=4

μ'=5

wa

wa






Pág. 42 de 72

2

'

2

1 ln( ) '2

'

1 ln(80) 3,22 0,4

1( )

2

1(80) 0,000158

80 0,4 2

T

t

T

f t et

f e

Para la función de distribución, se ha acudido a la siguiente función de Excel.

. . ( ; '; ')DISTR LOG NORM x

Donde x es el valor analizado. En este caso x=80. No obstante, se debe recordar que se puede emplear la

integración numérica.

En base al resultado mostrado en Excel:

(80) 0,998437F

Por último, las funciones de supervivencia y riesgo se harán en base a los datos que ya se han obtenido:

(80) 1 (80) 0,001563

(80) 0,000158(80) 0,101293

(80) 0,001563

R F

fR

.






Pág. 43 de 72

Función Densidad Media Distribución Supervivencia Riesgo

Exponencial ( )( ) tf t e 1

T

( )( ) 1 tF t e ( )( ) tR t e ( )t

Weibull ( )

1( ) ( )t

tf t e

1

0

1( 1)

1( 1) x

T

e x dx

( )

( ) 1t

F t e

( )( )

t

R t e

1( ) ( )t

t

Normal 21

( )21

( )2

T

t

T

f t e

T 21

( )21

( )2

T

tt

T

F t e dt

21( )

21( )

2T

t

tT

R t e dt

2

2

1( )

2

1( )

2

1

2( )

1

2

T

T

t

Tt

tT

e

t

e dt

Lognormal

2

'

1 ' '( )

2

'

1( ')

2T

t

T

f t e

' ln( )t t

2

'

1 ln( ) '( )

2

'

1( )

2T

t

T

f t et

' 2'

12 Te

2'

2

1' ln ln( 1)

2T

2

'

1 '( )' 2

'

1( )

2T

tt

T

F t e dt

2

'

1 '( )

2'

'

1( )

2T

t

tT

R t e dt

2

'

2

'

1 ' '( )

2

'1 '

( )2

''

1

2( )

1

2

T

T

t

Tt

tT

et

t

e dt

Tabla 1 Esquema resumen de las principales funciones continuas






Pág. 44 de 72

4.3.10. DistribuciónChi‐cuadrado( 2 )

La distribución χ2 con k>0 grados de libertad describe el comportamiento de la suma de los cuadrados de n

variables aleatorias independientes que están normalmente distribuidas. La forma de la distribución χ2 está

condicionada por el número de grados de libertad pudiendo oscilar desde la forma de una exponencial (k=2)

hasta una distribución normal.

La propiedad de las variables aleatorias χ2 hace que esta distribución sea especialmente propicia en los test de

bondad de ajustes o para la síntesis de intervalos de confianza como se verá más adelante.

Su función de densidad es:

( /2) 1 /2/2

10

( ) 2 ( / 2)

0 0

k tk

t e tf t k

t

Donde:

‐ k, son los grados de libertad

‐ Γ(∙) es la función gamma

‐ t es la variable aleatoria de interés.

4.3.11. Distribuciónt‐Student

La distribución t‐Student constituye todo un conjunto de funciones de distribución continuas que surgió

originalmente del estudio de la media de poblaciones normalmente distribuidas cuando el tamaño de las

muestras es pequeño (inferior a 30) y la varianza es desconocida, siendo central en la rama de la estadística

conocida por Teoría de muestras pequeñas. Esta distribución tiene una notable importancia en los análisis de

significancia estadística (comprobar si los resultados obtenidos no se deben a errores aleatorios) además para

la síntesis de intervalos de confianza en poblaciones que se estiman normales (gaussianas).

1ˆ

X Xt N

ssN

Donde N es el tamaño de la muestra, usando una población normal o aproximadamente normal. Su media es

, X es la media muestral y la desviación típica muestral es s o s .

Calculando para cada muestra el valor de t, se obtiene la distribución muestral de t. Está dada por:

2 2

/2 ( /1) 2

12 2

1( 1)

2 2

( ) (1 ) (1 )1

Nt tf t

N N

N

N

Aquí, Γ(∙) es la función gamma, se denomina número de grados de libertad, cumpliéndose que:

1N Para valores de o N mayores de 30, la curva dibujada tiende a aproximarse a la normal.






Pág. 45 de 72

4.4. Funciones discretas

Cuando la variable aleatoria solo puede tomar una serie de valores finitos o numerables se dice que esta es

discreta. En estos casos el modelo que caracteriza dicha variable se dice que es un modelo discreto o función de

probabilidad discreta. Algunos ejemplos relacionados con la ingeniería de confiabilidad son el análisis del

número de fallos esperados en un determinado instante de tiempo, o la probabilidad de que durante tres

operaciones de arranque un sistema falle en demanda o la probabilidad de que los fallos de un sistema ocurran

exclusivamente cuando se ha diagnosticado un estado de degradación o desgaste, etc. También en procesos de

control de calidad, estimando el número de componentes defectuosos por cada lote (batch) de producción.

A diferencia de los modelos de probabilidad continuos, la función de densidad de una variable aleatoria

discreta cumple, entre otras, la siguiente propiedad:

Sea X una variable aleatoria discreta, entonces la función de densidad asociada a dicha variable

cumple la siguiente propiedad.

( ) ( ) 0 ( ) [0,1]f x P X x y P X x En entre las diferentes funciones de distribución discretas pueden citarse: la función binomial, función de

Poisson, multinomial, geométrica, hipergeométrica, de Bernouilli o uniforme discreta.

En este capítulo, se tratarán fundamentalmente las funciones binomial, de Poisson y multinomial.

4.4.1. Binomial

La probabilidad de la función binomial busca el número de éxitos en n ensayos independientes. Se representa

como B(n,p).

La función de probabilidad binomial es:

( ) (1 )r n rnP r p p

r

De esta función, la probabilidad resultante, P(r), también puede verse como la probabilidad de que la variable

adopte el valor de r. n es el número de ensayos realizados en un experimento que solamente puede dar

resultados positivos o negativos (0 o 1, cara o cruz, blanco o negro, éxito o fracaso). r en sí es el número de

éxitos de los n ensayos. Por último, p es la probabilidad de éxito de cada ensayo.

Con esto, usando los valores de n y p para definir la función binomial N(n,p), se puede obtener la probabilidad

de cualquier valor r.

Ejemplo:

Recientemente, el intercambiador de calor ha tenido un problema con los sensores que lo gobiernan,

consiguiendo que, según los datos registrados de los lotes generados en la fábrica, solo un 45% de los lotes

generados en la fábrica hayan pasado por el proceso óptimo de temperatura que se ha establecido para la

carbonatación del producto. Evalúa la posibilidad de que, en los 5 siguientes lotes a producir, 3 de ellos hayan

pasado por el proceso óptimo de temperatura.

Resolución:

wa






Pág. 46 de 72

Este problema de acierto‐error puede ser evaluado bajo la función binomial. Usando como número de lotes

5n , probabilidad de temperatura correcta 0, 45p , la probabilidad de que 3r lotes hayan sido

carbonatados a la temperatura correcta es:

3 5 35(3) 0,45 (1 0, 45) 0,2757

3P

La probabilidad de que de los 5 lotes totales, 3 se carbonaten a esa temperatura es de 27,57%.

Hay que destacar que, para resolver el coeficiente binomial, se debe recordar que:

!! ( )!

n nk n kk

Y a su vez, la operación factorial es:

! ( 1) ( 2) ... 3 2 1i i i ix x x x .

Por ello, el desarrollo del coeficiente propuesto es:

5 5! 5 4 3 2 13!(5 3)! (3 2 1)(2 1)3

No obstante, ante números muy grandes, se recomienda el desarrollo de esta operación con programas de

cálculo.

Haciendo la probabilidad de acierto variando el número de lotes favorables, los valores de probabilidad varían:

2 5 25(2) 0,45 (1 0,45) 0,3369

2P

4 5 45(4) 0,45 (1 0,45) 0,1128

4P

Repitiendo los cálculos de probabilidad sobre los aciertos de los lotes, se aprecia una curva de probabilidad de

la siguiente forma:

Sobre esta curva, se aprecia que la mayor probabilidad de lotes correctamente carbonatados es 2, con un

33,69%.

4.4.2. Poisson

La probabilidad de la función de Poisson representa el número de veces que ocurre un suceso aleatorio

concreto en un intervalo de tiempo de (0, t]. Se representa como ( )P .

La función de probabilidad de Poisson es:

0

0,1

0,2

0,3

0,4

0 2 4 6

Probab

ilidad

P(r)

Número de aciertos

P(r )

wa






Pág. 47 de 72

( )( )

!

rtt

P r er

Para estudios aislando tiempo, t=1.

En esta función, P(r) representa la probabilidad de que el suceso ocurra r veces. Este estudio, tal como se

introdujo antes, viene contextualizado para un tiempo t concreto, que influye en la función. Como último

parámetro destacado, es el número medio de ocurrencias del evento aleatorio respecto al tiempo.

Hay que destacar que Poisson mantiene la propiedad aditiva: bajo n variables desde 1X a nX aleatorias con

su correspondiente distribución de Poisson, con parámetros desde 1 hasta n , la variable 1

n

ii

Y X

sigue

una distribución de Poisson con 1

n

ii

.

También hay que tener en cuenta que las funciones binomial y Poisson son aproximadamente iguales bajo dos

condiciones:

n de gran valor ( 20n ).

p de bajo valor ( 0,05p ).

En esa circunstancia:

( , ) ( )B n p P

np

Ejemplo:

Se pretende evaluar la probabilidad de fallo bajo la evaluación de 0,25 fallos por hora (un fallo cada 4 horas).

Para ello, se quieren barajar la probabilidad de fallo a las 48 horas, en función del número de fallos.

Resolución:

En este caso, se va a recurrir a la probabilidad obtenida por Poisson:

( )( )

!

rtt

P r er

Donde ! ( 1) ( 2) ... 3 2 1i i i ix x x x .

Ahora, se fijarán los parámetros y t.

0,25 48 12(0, 25 48) 12( )

! !

r r

P r e er r

El modo de aplicación es poner en r el número de fallo, y se analizará la probabilidad de ese número de fallos.

Para r=3 fallos: 3

1212(3) 0,0017695

3!P e

Para r=10 fallos: 10

1212(10) 0,10484

10!P e

Para situaciones entre 0 y 30 fallos, Las probabilidades se distribuyen formando la siguiente gráfica.






Pág. 48 de 72

A las 48 horas, es más probable que haya entre 9 y 14 fallos, atendiendo a los resultados de la gráfica.

4.4.3. MultinomialEsta distribución constituye una generalización de la distribución binomial. Siguiendo la misma idea, ahora en

lugar de haber solamente posibilidad de éxito o fracaso, se plantean más posibilidades, con probabilidades de

aparecer 1 2, ,..., kp p p , asociándole 1 2, ,..., kx x x individuos de los n individuos totales de estudio.

La función de probabilidad multinomial es:

11 1

11

11

!( ,..., ) ...

!... !

( ,..., ) 0

k

kx x

i k kki

k

i ki

nx n P x x p p

x x

x n P x x

Para que esta distribución esté bien definida, hay que contemplar que 1

k

ii

x n

, ya que si no hay individuos

que no se contemplan en la distribución, o que sobrepasan los n individuos máximos (de ahí la excepción

contemplada de probabilidad 0). Por otra parte, también se debe cumplir que 1

1k

ii

p

, para que todas las

posibilidades queden contempladas. En estudios de muchos valores, se suele recurrir a juntar grupos

minoritarios de manera asociada, como “otros”, “resto”, o nombres categóricos similares, para llegar a

mantener la unidad.

Ejemplo:

Se han definido 4 estados de funcionamiento para las bombas empleadas:

‐ Uso normal.

‐ Inactividad.

‐ En espera de uso.

‐ Uso con ruido excesivo.

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0 5 10 15 20 25 30 35

Probab

ilidad

de Poisson

Aciertos (r)

P(r )

wa






Pág. 49 de 72

Tras tomar distintas muestras de cómo funcionan las distintas bombas, se establecieron los siguientes

porcentajes en cada estado:

Uso normal p1=0,3

Inactividad p2=0,2

En espera de uso p3=0,15

Uso con ruido excesivo p4=0,35

Una vez contemplados los porcentajes, se han hecho distintos ensayos sobre los distintos estados en los que se

encuentran las bombas. Dicho ensayo, de 40 muestras, aporta los siguientes resultados:

Uso normal x1=12

Inactividad x2=8

En espera de uso x3=7

Uso con ruido excesivo x4=13

Se pretende buscar la probabilidad de que se haya dado este caso concreto.

Resolución

Al haber más de dos estados, la resolución por el método binomial se queda corta, y se debe recurrir a la

distribución multinomial, que no deja de ser un caso general de esta última. La función que lo define es:

11 1

1

!( ,..., ) ...

!... !kx x

k kk

nP x x p p

x x

Ahora, expresándolo para este caso concreto, la ecuación queda así:

1 2 3 4

1 2 3 4

1 2 3 4 1 2 3 41 2 3 4

1 2 3 41 2 3 4

!( , , , )

! ! ! !

!( , , , ) 0,3 0,2 0,15 0,35

! ! ! !

x x x x

x x x x

nP x x x x p p p p

x x x x

nP x x x x

x x x x

Hay que recordar que la manera de efectuar la operación factorial es:

! ( 1) ( 2) ... 3 2 1i i i ix x x x

Por ejemplo:

100! 100 99 98 ... 3 2 1

45! 45 44 43 ... 3 2 1

Ahora, se verá la probabilidad del ensayo:

12 8 7 1340!(12,8,7,13) 0,3 0, 2 0,15 0,35

12!8!7!13!(12,8,7,13) 0,0037008

P

P

Como se pueden ver, las probabilidades de que se obtengan casos tan concretos son muy pequeñas, ya que se

pueden plantear muchísimas situaciones distintas de uso, que se alejen en mayor o menor medida de los

porcentajes establecidos inicialmente.

En resumen para este apartado, se muestra el cuadro resumen de funciones discretas:

Función Probabilidad






Pág. 50 de 72

Binomial ( ) (1 )r n rnP r p p

r

Poisson ( )

( )!

rtt

P r er

Multinomial

11 1

11

11

!( ,..., ) ...

!... !

( ,..., ) 0

k

kx x

i k kki

k

i ki

nx n P x x p p

x x

x n P x x

Tabla 2 Funciones discretas


Tras este capítulo han sido presentadas las funciones de distribución continuas y discretas más relevantes en el

contexto de la ingeniería de confiabilidad. Además se han mostrado las funciones características de cada

distribución. Con esto, el ingeniero de confiabilidad tiene una serie de modelos que le permitirán caracterizar

indicadores de desempeño a fin de cualificar y cuantificar el funcionamiento de los activos.

Adicionalmente debe notarse que las aplicaciones expuestas a lo largo de este capítulo constituyen

exclusivamente casos de éxito en el uso de los modelos. En ningún caso deben tomarse como regla general

para asociar un modelo con un determinado fenómeno. Es decir, no todos los fallos de desgaste son

lognormales o todos los fallos en equipos rotativos son Weibull, debiendo ser el analista quien decida qué

modelo es más apropiado en cada escenario.

La decisión de usar un modelo u otro debe estar basada en criterios objetivos y ello será objeto de los próximos

capítulos del presente documento. A continuación se verán los métodos de estimación paramétrica, luego la

estimación no paramétrica y posteriormente los métodos de contraste de hipótesis y bondad de ajuste a fin de

discriminar si la selección de un modelo es verdaderamente representativo de los datos observados.






Pág. 51 de 72

5. ESTIMACIÓN PARAMÉTRICA

La estimación paramétrica, o inferencia paramétrica, se basa en la suposición de un comportamiento general

para una muestra de datos, es decir, se conoce de forma aproximada o se intuye, el comportamiento de la

función de distribución de la muestra estudiada por lo que se aplica un método que permita la aproximación de

los distintos valores de ésta a una curva que pertenezca a la familia de las funciones de distribución que se

supuso. El resultado final que se obtiene son los valores de los parámetros característicos, como por ejemplo,

el parámetro de escala o de forma de la función de Weibull.

Dentro de este apartado se desarrollarán dos métodos comúnmente empleados en la determinación de

parámetros de estas funciones, el método de mínimos cuadrados y el método de máxima verosimilitud.

5.1. Método de mínimos cuadrados

Este método tiene un objetivo principal, y es la optimización de los parámetros de una determinada función

para hacer mínima la diferencia residual entre el valor estimado y el valor real observado. Es por este último

motivo que para realizar este método es necesario disponer de tanto de la variable dependiente, como por

ejemplo la probabilidad de fallo o la fiabilidad, y la variable independiente, como el tiempo hasta el fallo. En

caso de no disponer de estas parejas de valores se pueden obtener por alguno de los métodos explicados en el

apartado anterior.

En este proceso la diferencia es elevada al cuadrado, de ahí el nombre del método. La ecuación general a

optimizar es:

21

n

i ii

S y f x

Siendo f(xi) la función a la que se ajusta la pareja de datos observada, es decir, yi será la variable dependiente y

xi la variable independiente. A modo de ejemplo para las familias de líneas rectas, polinomios de primer grado,

se tendrá:

2

1

n

i ii

S y ax b

El resultado final de la optimización de la función anterior da como resultado la obtención de los coeficientes a

y b en función de los datos observados:

0 0 0

2

2

0 0

n n n

i i i ii i i

n n

i ii i

n x y x y

a

n x x

2

0 0 0 0

2

2

0 0

n n n n

i i i i ii i i i

n n

i ii i

y x x x y

b

n x x

Donde n representa el número de parejas {xi; yi} de datos observadas.






Pág. 52 de 72

Ejemplo:

Se tienen las siguientes parejas de datos de tiempos de reparación de una válvula de control con su

probabilidad de reparación. Se sabe que siguen una distribución exponencial de dos parámetros. Determinarlos

mediante el método de los mínimos cuadrados que la caracterizan.

Tiempos de reparación t (horas) Probabilidad de reparación F(t)

2 0,1296

3 0,3148

5 0, 5

8 0,6852

12 0,8704

Tabla 3 Datos del ejemplo

Resolución:

El procedimiento que se seguirá para la resolución es la linealización de la función de distribución exponencial.

Primero se calcula el logaritmo de la probabilidad de fallo:

Xi=Tiempo hasta la reparación Yi=Ln(1‐F(t))

2 Ln(1‐0,1296)=‐0,1388

3 Ln(1‐0,3148)=‐0,3781

… ...

12 Ln(1‐0,8704)=‐2,0431

Tabla 4 Variables necesarias para la linealización exponencial

Para la resolución se puede usar software que realice ajuste por mínimos cuadrados como puede ser Microsoft

Excel, Matlab. Pero en este caso se realizará mediante un método analítico a mano, para ello se usarán las

expresiones del método de los mínimos cuadrados:

9

1

9

1

92 2 2 2

1

9

1

2 3 ... 12 30

0,1388 0,3781 ... 2,0431 4,4089

2 3 ... 12 246

0,1388·2 0,3781·3 ... 2,0431·12 38,6407

i

ii

ii

i

i ii

X

Y

X

X Y

Atendiendo a que se trabajan con 5 datos, n=5, y con ello:

2

0 0 0 00 2 2

2

0 0

-4,4089 · 246 -30· -38,64070, 2262

5· 246 - 30

n n n n

i i i i ii i i i

n n

i ii i

Y X X X Y

a

n X X






Pág. 53 de 72

0 0 01 2 2

2

0 0

5· 246 30· 4,40890,1847

5· 246 30

n n n

i i i ii i i

n n

i ii i

n X Y X Y

a

n X X

Para el cálculo del segundo parámetro de esta función exponencial se usa la ordenada en el origen de la

linealización:

0, 2262

0,2262 0, 22621,2247

0,1847

Por último la expresión final para la ley exponencial que rige la válvula de control es:

0,1847· 1,22471

xF x e

5.2. Método de máxima verosimilitud Este método paramétrico también permite la determinación de los parámetros característicos de un modelo

estadístico.

Formalmente este método consiste en encontrar aquellos parámetros que maximizan la probabilidad de

reproducir los valores de la muestra. Se representa la función de verosimilitud como la siguiente probabilidad

condicionada:

1 1,..., ·...·n j j n jf x x f x f x Se trata, pues, de maximizar la función anterior, habiéndose previamente supuesto el modelo matemático que

representa los valores de la muestra.

Ejemplo:

La deducción del valor del estimador para una función de densidad del tiempo hasta el fallo exponencial de un

parámetro.

·tf t e Para esta función de densidad existe una envolvente de funciones de densidad que permitirán establecer el

valor más verosímil de λ:

y = ‐0,1847x + 0,2262R² = 0,9936

‐2,5

‐2

‐1,5

‐1

‐0,5

0

0 5 10 15

Ln(Probab

ilidad

de fallo)

Tiempo hasta el fallo






Pág. 54 de 72

1 1

ln ln ·n n

i ii i

Ln f t t

Ahora aplicando la definición anterior de maximización:

1

1

1

0

10

0

n

ii

n

ii

n

ii

d Lnd

t

nt

n

t

Se pueden consultar las funciones de verosimilitud de otras funciones de distribución en el capítulo anterior.

5.2.1. Intervalode confianzade losparámetrosdelmodeloapartirde susestimadoresdemáximaverosimilitud

Cuando se dispone de muestras de datos grandes es posible determinar los límites asintóticos superiores e

inferiores de los estimadores de máxima verosimilitud de la función. Para este caso se emplea la siguiente

ecuación:

/2j j jjIC z

Donde /2z es el valor de la abscisa de la función de densidad de una distribución normal y tipificada (media 0

y desviación típica 1), para el nivel de confianza que se escoja. Por otra parte se tiene jj , que es el valor en la

posición [j; j] de la diagonal principal en la inversa de la matriz hessiana (matriz de segundas derivadas) , de la

función de verosimilitud Λ(θj), de signo opuesto:

1jj jjH

Ejemplo (…continuación):

Para el caso de la exponencial de un parámetro, la matriz resultante solo tendrá una posición cuyo valor se

corresponde con la segunda derivada de la función:

2

2 2

d Ln n

d

Por lo que ᴜ11 es:

1 2

11 2

nn

De forma analítica, para un nivel de confianza del 95%, se podrá estimar el intervalo de confianza según la

expresión:

2 1,96

1,96 1ICn n

Nótese que dada una función de distribución compleja se hace necesario el uso de métodos numéricos y

cálculos computacionales para la resolución de los intervalos de cada uno de los parámetros de la distribución.






Pág. 55 de 72

Ejemplo:

Se dispone de la siguiente muestra de tiempos hasta el fallo. Realizar el ajuste mediante el método de máxima

verosimilitud, suponiendo que se ajustan a una distribución exponencial de un parámetro así como su intervalo

con un 95% de confianza.

Tiempo hasta el fallo (h)

2

3

5

8

12

Resolución:

Aplicando la expresión deducida en la teoría, se calcula, la tasa de fallo de este componente:

1

5 10,16672 3 5 8 12

n

ii

n

t

h

Ahora se procede a calcular el intervalo de confianza de este parámetro. Antes de proceder a ello, se

establecerá el valor de /2z , empleando en MS Excel la siguiente función, que calcula la confianza bajo una

curva normal tipificada (media 0 y desviación típica 1):

. . . ( / 2)DISTR NORM ESTAND INV

Para un 95%:

1 0,951 0,975

2 2

. . . (0,975)DISTR NORM ESTAND INV

/2 1,96z

Conociendo este dato, se procede a calcular el intervalo de confianza:

2/2

/2 1

1,960,1667 1 0,0206; 0,3128

5

zIC z

n n

IC

5.3. Resumen Conceptual En este capítulo se han abordado dos métodos de estimación paramétrica, el método de los mínimos

cuadrados y el método de máxima verosimilitud. Algunas indicaciones sobre su empleo han sido citadas en

[O’Connor]5 en relación a trabajos previos. Por un lado se ha observado que el método de mínimos cuadrados

se comporta mejor que el de máxima verosimilitud cuando el número de muestras es pequeño (inferior a

treinta datos) y no hay datos censurados en la muestra. El desempeño se ve bastante afectado conforme

aumenta el nivel de censura en la muestra lo que ocasiona que el número efectivo de datos para llevar a cabo

la regresión disminuya sensiblemente repercutiendo de esta manera sobre la incertidumbre en las

5 [O’Connor] P. O’Connor, A. Kleyner. Practical Reliability Engineering, 5th Edition, Wiley, 2012

wa






Pág. 56 de 72

estimaciones. En los casos donde la proporción de datos censurados en la muestra es grande el método de

máxima verosimilitud tiene un mejor comportamiento que el método anterior. No obstante es necesario que la

muestra sea lo suficientemente grande como para que el método no sea inestable.

Según se recomienda en [O’Connor], cuando no se tiene claro que metodología dará lugar a mejores

resultados es conveniente emplear ambos métodos y comparar las salidas de cada uno.






Pág. 57 de 72

6. ESTIMACIÓN NO PARAMÉTRICA

La estimación no paramétrica se emplea cuando se desconoce la función de distribución que representa la

muestra por lo que interesa obtener punto a punto la misma. De esta forma se puede estudiar el

comportamiento del conjunto de datos obtenido. Es habitual que tras la obtención de estas estimaciones se

proceda a realizar una parametrización del conjunto de datos con el fin de obtener el modelo que representa

dicha muestra.

6.1. Estimación de la frecuencia

En este caso es necesario disponer de una muestra lo suficientemente representativa del comportamiento

estudiado con el fin de poder extrapolar los resultados obtenidos de forma fiable. En esencia consiste en

realizar el cociente entre, por ejemplo en un ensayo de tiempos hasta el fallo, el número de elementos que han

fallados hasta un determinado tiempo y el número total de elementos ensayados.

Para realizar esta operación suele ser conveniente agrupar los datos en intervalos de clase. Ello se puede

realizar con alguna de las siguientes reglas:

21 log ( )k n Sturges

( )k n Regla Raíz Cuadrada

Donde k es el número de intervalos y n es el número de datos disponibles.

Para el siguiente cuadro resumen de un conjunto de treinta datos de tiempos hasta el fallo se ha construido el

diagrama de frecuencias relativas de la Figura 25.

Intervalo de clase Marca de

clase Frecuencia Frecuencia acumulada

Frecuencia

acumulada relativa

(0‐200] 100 4 4 4/30 = 0,13

(200‐400] 300 8 8+4=12 12/30 = 0,4

(400‐600] 500 9 12+9=21 0,7

(600‐800] 700 5 26 0,86

(800‐1000] 900 4 30 1

Figura 25 Distribución de frecuencias relativas acumuladas

wa






Pág. 58 de 72

En los ensayos hasta el fallo se identifica la frecuencia acumulada relativa con la probabilidad de fallo del activo

estudiado, por lo que en conclusión se obtiene parejas de valores de tiempos hasta el fallo, marcas de clase

(punto medio del intervalo de clase), y probabilidad de fallo, frecuencia acumulada relativa.

6.2. Estimador de Bénard

El prorrateo de la mediana, o también estimador de Bénard, se utiliza ampliamente ya que permite obtener

buenos resultados de estimación. Para muestras pequeñas, menores de 5, un error máximo de 1%, que se va

mejorando conforme aumenta el tamaño de la muestra, así para 50 observaciones el error máximo cometido

será del 0,1%. La expresión es:

0,30,4

medianai

iF

n

Donde “i” es la posición del i‐ésimo evento ordenado de manera creciente de una población “n”, y F es la

probabilidad de fallo en ese instante.

Ejemplo:

En una fábrica de motores de combustión diesel se ha incrementado la producción, y se están estudiando los

tiempos hasta el fallo de un grupo de equipos para conocer la probabilidad de fallo. Para realizar el test, se

ponen 5 motores nuevos a funcionar al mismo tiempo y en igualdad de condiciones de operación. Los datos

obtenidos son los siguientes expresado en horas:

6019,05

4422,62

973,45

5436,42

14739,1

Resolución:

El primer paso consiste en ordenar los datos en orden creciente:

973,45

4422,62

5436,42

6019,05

14739,10

Se usará la aproximación o estimador de Bénard:

0,30,4

medianai

iF

n

Como se tratan los datos de 5 motores, n=5. Para la primera posición correspondiente con el menor tiempo de

fallo el estimador de Bénard da:

11 0,3

0,12965 0,4

medianaF

En la siguiente tabla se ven algunos ejemplos de los cálculos realizados.






Pág. 59 de 72

Posición Tiempo hasta el fallo

de los motores (h)

F(t): Probabilidad de fallo

(estimador de la mediana)

1 973,45 (1‐0,3)/(5+0,4) = 0,1296

2 4422,62 (2‐0,3)/(5+0,4) = 0,3148

3 5436,42 (3‐0,3)/(5+0,4) = 0,5

4 6019,05 (4‐0,3)/(5+0,4) = 0,6852

5 14739,10 (5‐0,3)/(5+0,4) = 0,8704

Tabla 5 Resultados para la estimación de Bénard

6.3. Número de Orden Este método se usará junto con la expresión de Bénard con el fin de adaptar esta última a muestras de datos

censuradas:

0,3( )

0, 4iMO

F tn

Donde MOi es la posición del i‐ésimo dato no censurado de una muestra de n componentes.

11

11

ii i

i

n MOMO MO

s

En la expresión anterior si es el número de sujetos supervivientes justo antes del i‐ésimo dato no censurado. El

estimador MO0 es 0, esto es un valor teórico asignado por el desarrollador del método.

6.4. Kaplan‐Meiers

Este estimador presenta la ventaja de poderse usar tanto para un conjunto de datos completos como

censurados, ya que tiene en cuenta la posibilidad de la existencia de datos censurados de manera implícita.

Para determinar cada dato de probabilidad de fallo se sigue la siguiente secuencia de cálculos apoyándose en la

función de supervivencia:

Se ordenan los datos de menor a mayor.

Se estipula en una columna aparte los datos que presentan censura y los que no (F[fallo], C[censura])

Asociar a cada dato, el número si, donde si expresa el número de elementos supervivientes justo antes del fallo y ri el número de fallos que ocurren en ese instante

Estimar el valor de la función de supervivencia S1 mediante:

11

1

is rS

s

Estimar los sucesivos valores de la función de supervivencia mediante:

1·

i ii i

i

s rS S

s

Estimar el valor de la función de distribución Fi mediante 1 – Si en caso de necesitarse la misma.

6.4.1. Intervalodeconfianza

Gracias a la formulación de Greenwood se puede calcular la varianza de este estimador puntualmente, por lo

que es posible, para un tamaño de muestra grande (suposición de comportamiento normal) obtener el

intervalo de confianza en cada punto de la función de supervivencia estimada. En concreto, la ecuación de la

varianza es:






Pág. 60 de 72

2

i

ii i

i i it t

dVar S S

n n d

En el instante i, di es el número de activos que han fallado y ni es el número de supervivientes.

Retomando la suposición realizada anteriormente del comportamiento normal de la muestra se tiene por lo

tanto la siguiente formulación para cada punto:

/2i i iIC S z Var S Donde z es el valor de la abscisa de la función normal tipificada para el nivel de confianza deseado.

Ejemplo:

Una empresa quiere realizar un análisis de los datos de tiempos de fallo de una turbina de gas operando en un

ciclo Brayton. Para ello, fija el evento estudiado en el bloqueo del eje principal de la turbina, y obtiene la

siguiente lista de tiempos hasta el fallo de 5 turbinas de vapor operando en igualdad de condiciones:

2

3

5

8*

12

Los datos acompañados por * son datos censurados. Se usarán los dos métodos que se conocen para la

estimación de la probabilidad de fallo del activo.

Resolución:

En el primero método, número de orden, el procedimiento es el siguiente. Primero se ordenan los datos en

orden creciente, se determina el número de supervivientes que existen en la muestra cuando se produce cada

fallo y se aplica la fórmula siguiente.

11

11

ii i

i

n MOMO MO

S

Para la primera posición se tiene entonces:

01 0

1

5 1 5 1 00 1

1 1 5MO

MO MOS

0,3

( )0,4

iMOF t

n

15 0,3

0,12965 0,4

F

La segunda posición depende del valor obtenido en la posición anterior:

12 1

2

5 1 5 1 11 2

1 1 4MO

MO MOS

2

2 0,30,3148

30 0, 4F

Cuando los datos son censurados, no se hace el cálculo, ya que se prescinde de la información aportada.

Simplemente se tendrá en cuenta como un superviviente menos, e influirá en el cálculo de iMO .

La siguiente tabla muestra los valores obtenidos tras el cálculo:

wa






Pág. 61 de 72

Tiempo hasta el fallo Supervivientes MOi Fi

2 5 0+((5+1‐0)/(1+5)) = 1 (1‐0,3)/(5+0,4) = 0,1296

3 4 1+((5+1‐1)/(1+4)) = 2 (2‐0,3)/(5+0,4) = 0,3148

5 3 2+((5+1‐2)/(1+3)) = 3 (3‐0,3)/(5+0,4) = 0,5

8*

12 1 3+((5+1‐3)/(1+1)) = 4,5 (4,5‐0,3)/(5+0,4) = 0,7778

Tabla 6 Resultados del estimador Número de orden

Por otra parte, el método de Kaplan‐Meiers, como en el método anterior se tiene que ordenar los datos de

forma creciente y para este caso aplicar las expresiones correspondientes a este método. Para el primer

cálculo:

11

1

1 5 10,8

5S

RS

1 11 1 0,8 0,2F R Para el segundo cálculo:

22 1

2

1 4 10,8 0,6

4S

R RS

2 21 1 0,6 0, 4F R De nuevo, para datos censurados, el cálculo se puede despreciar, simplemente teniendo en cuenta que hay un

superviviente menos.

La siguiente tabla muestra los valores definitivos de la distribución:

Tiempo hasta el fallo Supervivientes Elementos que fallan Ri Fi

2 5 1 (5‐1)/(5) = 0,8 1‐0,8 = 0,2

3 4 1 0,8*(4‐1)/(4) = 0,6 1‐0,6 = 0,4

5 3 1 0,6*(3‐1)/(3) = 0,4 1‐0,4 = 0,6

8*

12 1 1 0,4*(1‐1)/(1) = 0 1‐0 = 1

Tabla 7 Resultados del estimador Kaplan Meiers

6.5. Resumen Conceptual En este capítulo se han abordado dos métodos de determinación de la probabilidad, mediante histogramas,

siempre que la muestra sea suficientemente representativa o mediante aproximaciones como la de Bénard y

Kaplan‐Meiers. Estas permiten estimar dicha probabilidad exclusivamente en base a la muestra de datos que se

disponga.






Pág. 62 de 72

7. PRUEBAS DE HIPÓTESIS Y BONDAD DE AJUSTE

Los estudios de modelado de datos permiten aproximaciones y ajustes de unos datos concretos a una función

estadística. Para ello, se ha abordado hasta ahora algunos modelos de datos, así como la estimación de los

parámetros que los definen.

Una vez abordada esta problemática, se buscará el siguiente paso: la comprobación de que el modelo

seleccionado es representativo de la muestra que caracteriza. Para ello, se analizarán las discrepancias de los

valores predichos por el modelo y los valores reales muestreados mediante alguna metodología que permita

establecer si dichas discrepancias son significativas (en el sentido de la significancia estadística).

Durante el proceso de prueba de hipótesis se formula una suposición (hipótesis) sobre alguna característica de

la muestra que debe ser verificada o rechazada (contrastada). Por ejemplo, puede enunciarse la hipótesis de

que los datos de una muestra han sido generados a partir de una distribución lognormal, o que los datos de dos

muestras provienen de la misma población, o que no existe diferencia entre las medias de dos muestras. Esta

hipótesis formulada se conoce como hipótesis nula (H0) y se construye para ser refutada en pos de una

hipótesis alternativa (H1) si existieran evidencias fuertes en su contra.

En un contraste de hipótesis es posible cometer dos tipos de error:

‐ Se puede rechazar una hipótesis nula que puede ser realmente aceptable. Este error se le denomina

como error de primera especie.

‐ Se puede aceptar una hipótesis nula que realmente no es aceptable. Este error se denomina como

error de segunda especie.

En general, se denomina:

0 0

0 0

( ) (Re | )

( ) ( | )

P Error Tipo I P chazar H H es cierta

P Error Tipo II P Aceptar H H es falsa

La probabilidad de cometer un error tipo I se conoce como Nivel de significación del contraste. Asimismo, la

probabilidad de no cometer un error tipo II:

0 01 ( | )P rechazar H H es falsa , se conoce como Potencia del contraste. Ambas probabilidades, pues, miden la probabilidad de rechazar la

hipótesis nula, α, cuando es cierta y 1‐β cuando es falsa. La situación ideal es que α sea lo más pequeña posible

y 1‐β lo más grande posible. Ello en la práctica se traduce en tener mucha información (muchos datos). Cuando

no es posible disponer de toda la información que será deseable (situación muy frecuente en los estudios

reales) en general se procurará que α sea pequeña, aún a costa de que β pueda ser grande (y por ende 1‐β

pequeña).

En este punto estamos interesados en comprobar con un cierto Nivel de Significación que la hipótesis nula

formulada (esto es, el modelo seleccionado) sea rechazada. En otras palabras, se trata de refutar la hipótesis

formulada. En caso de que esto no sea posible, entonces diremos que no hay argumentos suficientes para

contradecir la hipótesis nula y no podrá negarse que el modelo que mejor caracteriza los datos es el propuesto.

Algunos de los métodos de bondad del ajuste son el test Chi‐cuadrado y el test de Kolmogorov‐Smirnov, entre

otros. Estos se verán a continuación:






Pág. 63 de 72

7.1. Test Chi‐cuadrado

Esta prueba proporciona una medición de la diferencia establecida entre una probabilidad observada mediante

un nuevo ensayo y la esperada (según la distribución). Se define como:

22

1

( )ni i

sistii

F rr

Donde iF representa la probabilidad de que suceda el proceso y ir la probabilidad que se esperaba por la

función de ajuste.

Si 2 0sist , la nueva medida se ajusta perfectamente a la curva, y por ello, a la probabilidad esperada. Pero lo

normal es que de un valor, que para que se acepte, debe cumplir con la premisa de:

2 2. ,sist i c

Este valor condicionante se determina bajo un Nivel de Significación o Significancia. Suele ser frecuente 5 y 1%.

No obstante, hay tablas que determinan los valores límite, usando de entrada el porcentaje de confianza y los

grados de libertad:

1n m

Donde n corresponde a los elementos de la muestra estudiada y m al número de parámetros de la distribución

de probabilidad empleada.

Un último detalle a tener en cuenta son los valores cercanos a 0, ya que puede deberse a errores, y generar

confusión y fallo en la aplicación del método. Por eso, aparte de ser meticulosos, se debe realizar una prueba

de significancia.

Ejemplo:

Usando los siguientes datos, se ha llegado a una función característica que los define:

Tiempo hasta el fallo Probabilidad de fallo F(t)

2 0,1296

3 0,3148

5 0,5

8 0,6852

12 0,8704

Se aplicará el test de Chi‐cuadrado para comprobar si los datos cumplen este test con un nivel de significancia

del 1, 5 y 10%.

El conjunto de datos sigue la siguiente ley exponencial de dos parámetros:

0,1847· 1,22471

xF x e

Resolución:

Primero se tiene que calcular la probabilidad de fallo estimada con la función de distribución.

Datos necesarios para la resolución del test:






Pág. 64 de 72

Tiempo hasta el

fallo

Fi: Probabilidad

observada % ri: Probabilidad obtenida de la función % (100*F(x))

2 0,1296*100=12,96 0,1847· 2 1,2247100(1 ) 100 0,1334 13,34e

3 0,3148*100=31,48 0,1847· 3 1,2247100(1 ) 100 0,2795 27,95e

… … …

12 0,8704*100=87,04 0,1847· 12 1,2247100(1 ) 100 0,8633 86,33e

Tabla 8 Datos de la probabilidad necesarios para la resolución del test Chi‐ cuadrado

Ahora se tiene que calcular 2sist con la expresión siguiente y comprobar si la desigualdad se cumple para el o

los intervalos de confianza que se estimen:

2

2

1

( )ni i

sistii

F rr

2 2 22 12,96 13,34 31, 48 27,95 87,04 86,33

... 0,57812,96 31,48 87,04sist

Ahora se busca en las tablas de la distribución Chi‐cuadrada correspondiente a 8 grados de libertad y un nivel

de significancia que se quiera en este caso se buscará para 1%, 5% y para 10%. Como opción alternativa, se

puede recurrir a siguiente función de MS Excel:

. . ( ; 1 )PRUEBA CHI INV n m

Donde representa la significancia empleada, n el número de datos empleados y m el número de parámetros

estimados. Al tratar una ley exponencial de dos parámetros, m=2. Por ejemplo, para los 5 datos usados, con

una significancia del 10%, se empleará:

. . (0,1; 2)PRUEBA CHI INV

Como se comprueba la serie de datos estudiada no cumple con todos los niveles de confianza ya que el valor

de 2sist

es no menor en todos los casos a 2 :

2

2 2 201 01

2 2 205 05

2 2 210 10

0,578

9,2103;

5,9915;

4,6052;

sist

sist

sist

sist

Cumple

Cumple

Cumple

Por ello, se concluye en que se cumplen los niveles de significancia al 1%, al 5% y ni siquiera al 10%, de modo

que se puede concluir que los datos estudiados se ajustan bien a la ley propuesta, en base a estos valores de

significancia.

7.2. Test Kolmogorov‐Smirnov

Esta prueba también contempla la búsqueda de un buen ajuste de probabilidad de unos datos tomados, sobre

una curva ya definida. En esta ocasión, el parámetro que marca la diferencia entre uno y otro es D:






Pág. 65 de 72

sup dato distribucióni iD F F

Donde D es el valor máximo de desviación obtenido de las diferencias de valores de probabilidad tomados dato

iF , frente a los de la función de distribución, distribucióniF , todo esto en valor absoluto.

Para simplificar los cálculos, se realizan solo dos comprobaciones, usando el valor de distribución en el punto y

en el inmediatamente anterior:

1

max

max

dato distribucióni i

dato distribucióni i

D F F

D F F

La mayor desviación será la empleada.

El parámetro con el que se comprobará D se extrae de la siguiente expresión:

( )a

aC

Dk n

Donde aC es un coeficiente dependiente de la función empleada (el modelo usado) y el intervalo de confianza,

y ( )k n es un polinomio dependiente de nuevo de la distribución a comprobar y del número de elementos

usados.

La siguiente tabla muestra distintos valores de aC :

aC

Modelo 0,1 0,05 0,01

General 1,224 1,358 1,628

Normal 0,819 0,895 1,035

Exponencial 0,99 1,094 1,308

Weibull 10n 0,76 0,819 0,944

Weibull 20n 0,779 0,843 0,973

Weibull 30n 0,79 0,856 0,988

Weibull n 0,803 0,874 1,007

Por otra parte, esta tabla muestra las distintas funciones de ( )k n :

Distribución a comprobar ( )k n

General. Parámetros conocidos 0,110,12n

n

Normal 0,850,01n

n

Exponencial 0,110,12n

n

Weibull n

Finalmente, se deberá corroborar que:






Pág. 66 de 72

aD D

Ejemplo:

Ahora se aplicará el test de Kolmogorov‐ Smirnov a los datos del ejemplo anterior para determinar si la serie de

datos está ajustada correctamente.

Probabilidad Probabilidad obtenida de la función de distribución

0,1296 0,1334

0,3148 0,2795

0,5 0,502

0,6852 0,7138

0,8704 0,8633

Tabla 9 Datos necesarios para realizar el test de Kolmogorov‐ Smirnov

Resolución:

Primero se calculará la máxima diferencia, D:

max dato distribucióni iD F F 1max dato distribución

i iD F F

|0,1296‐0,1334| = 0,0038 |0,1296‐0| = 0,1296

|0,3148‐0,2795| = 0,0353 |0,3148‐0,1334| = 0,1814

0,002 0,2205

0,0286 0,1832

|0,8704‐0,8633| = 0,0071 |0,8704‐0,7138| = 0,1566

Tabla 10 Cálculo de las diferencias para este test

La mayor diferencia existente en esta tabla de diferencias es 0,2205.

0,2205D Para determinar los límites con los que comparar D, hace falta hallar los coeficientes aC y el valor del

polinomio k(n).

La distribución exponencial posee unos valores de aC concretos, pero se recurrirán, por ser más genéricos, a

valores generales. Por ello, los valores empleados son:

0,90

0,95

0,99

1, 224

1,358

1,628

C

C

C

Para determinar el parámetro de referencia primero se calcula el polinomio k(n). Como se trata de una

distribución exponencial se busca en la tabla de los apuntes polinomio que le corresponde:

0,11( ) 0,12k n n

n

Para él, n es el número de muestras (n=5). Por ello:

0,11 0,11( ) 0,12 5 0,12 2, 4053

5k n n

n






Pág. 67 de 72

El parámetro de referencia para los tres niveles de confianza es:

0,900,90

0,950,95

0,990,99

1,2240,5089

( ) 2, 4053

1,3580,5646

( ) 2, 4053

1,6280,6768

( ) 2, 4053

CD

k n

CD

k n

CD

k n

Como el valor que se obtuvo de D es menor para todos los intervalos de confianza calculado, los datos cumplen

con el test de Kolmogorov‐ Smirnov para un nivel de confianza de 99, 95 y 90%:

0,90

0,95

0,99

D D

D D

D D

7.3. Coeficiente de correlación de Pearson

Este coeficiente realiza una comprobación de cuán óptimo se han ajustado unos datos a la relación lineal. Su

valor oscila entre ‐1 y 1, siendo la unidad en valor absoluto lo óptimo. Al respecto del signo, éste lo determina

que la pendiente de la recta sea positiva o negativa.

El coeficiente de Pearson se define como:

xy

x yr

La covarianza y las desviaciones típicas se calculan como:

1

2

1

2

1

( )( )

( )

( )

n

i x i yi

xy

n

i xi

x

n

i yi

y

x y

n

x

n

y

n

Si se sustituye y se trabaja la expresión, se puede llegar a una versión reducida:

1 1

1

2 2

1 12 2

1 1

n n

i ini i

i ii

n n

i in ni i

i ii i

x y

x yn

r

x y

x yn n






Pág. 68 de 72

7.3.1. Coeficientededeterminación( 2r )

Cuando el coeficiente de correlación de Pearson se eleva al cuadrado, se obtiene el coeficiente de

determinación que indica cuan bueno es el ajuste a una recta. Suele emplearse en lugar del coeficiente de

correlación para cuantificar la bondad del ajuste.

2

1 1

1

22 2

1 12 2

1 1

n n

i ini i

i ii

n n

i in ni i

i ii i

x y

x yn

r

x y

x yn n

Ejemplo:

Calcular el coeficiente de correlación de Pearson para el siguiente conjunto de datos, para comprobar la

linealidad de la representación gráfica.

x y

2 ‐0,1388

3 ‐0,3781

5 ‐0,6931

8 ‐1,1558

12 ‐2,0431

Resolución:

Se realizará por dos métodos, el coeficiente de Pearson y mediante la fórmula abreviada:

Para el coeficiente de Pearson, usando la expresión siguiente:

1

n

i x i yi

xy

x y

n

μ representa la media de los datos analizados:

1

1

2 3 5 8 126

5

0,1388 0,3781 ... 2,04310,882

5

n

ii

x

n

ii

y

x

n

y

n

Nótese que se emplea n=5 al haber 5 datos analizados. Con ello:






Pág. 69 de 72

2 6 · 0,1388 0, 882 ... 12 6 · 2, 0431 0, 882

512,1873xy

2

1

2 2 22 6 3 6 ... 12 63,6332

5

n

ix

x

xix n

2

1

2 2 20,1388 0,882 0,3781 0,882 ... 2,0431 0,8820,673

5

n

iyi

y

y

y

n

Por tanto el coeficiente de Pearson será:

12,18730,9968

· 3,6332·0,673xy

x yr

El otro método de cálculo es empleando la ecuación directa:

1 1

12 2

1 12 2

1 1i

n n

i ini i

i ii

n n

i in ni i

ii i

R

x yx y

n

x y

x yn n

Calculando todos los subtérminos, se llega a la solución directa de manera simplificada:

1

1

1

2 2 2 2

1

2 2 2

1

(2)( 0,1388) (3)( 0,3781) ... (12)( 2,0431) 38,6407

(2) (3) ... (12) 30

( 0,1388) ( 0,3781) ... ( 2,0431) 4, 4089

(2) (3) ... (12) 246

( 0,1389) ( 0,3781)i

n

i ii

n

ii

n

ii

n

ii

n

i

x y

x

y

x

y

2

2 2

... ( 2,0431) 6,1526

30· 4,408938,6407

5 0,996830 4, 4089

246 6,15265 5

R

A la vista de ambos coeficientes se puede afirmar que se ajusta perfectamente a una línea recta.

Obteniendo el valor R cuadrado:






Pág. 70 de 72

2 0,9936R

7.4. Test de gráfico Q‐Q Por el contrario a los métodos analíticos vistos para analizar la bondad de ajuste de las distribuciones, los

gráficos Q‐Q, donde Q alude al término “quantile”, (Cuantil), buscan analizar gráficamente esta bondad,

mediante una representación de los cuantiles de una distribución, en función de los cuantiles de la hipótesis

nula.

Por ello, se representa en el eje de abscisas los cuantiles de la distribución (modelo) supuesta, mientras que en

el eje de ordenadas se pondrán los cuantiles de la muestra analizada. A continuación, se agruparán por pares

de datos, el cuantil n de la distribución estimada y el cuantil n de la muestra: 1 1 2 2( , ), ( , ),...( , )n nx y x y x y .

Representados sobre un plano cartesiano se obtiene el gráfico Q‐Q.

Si la correspondencia entre modelo y muestra es total, los puntos se distribuirán a lo largo de una recta de

pendiente igual a 45º y por tanto se aceptará el modelo propuesto. En caso de desviaciones (como es normal)

corresponderá al analista decidir si esta desviación es lo suficientemente significativa como para rechazar el

modelo. Este test debe emplearse solo como aproximación preliminar para aceptar o descartar la hipótesis.

7.4.1. Estimacióndeloscuantilesdelamuestra

A partir de los valores muestrales ordenados en sentido creciente se obtendrán estimaciones de de la función

de distribución mediante algún estimador de la familia ( ) / ( 1 2 )k a n a . Algunos de los más usados se

exponen a continuación:

1

1 / 2

0,3( )

0, 4

kn

kn

kBènard

n

, donde k representa el número de orden de cada dato de la muestra y n el número de datos que componen la

muestra. Obtenida esta estimación, a continuación se hallan los cuantiles asociado a la distribución que se ha

supuesto que representa a los datos. Para ello se calcula la función cuantil (la inversa de la función de

distribución). Esto puede hacerse con un software de cálculo como Excel, con las llamadas funciones inversas.

A continuación se muestran unos gráficos Q‐Q plot de una muestra de 150 datos que fue generada de forma

aleatoria mediante una distribución Weibull de parámetros β = 1,6 y η = 250.

Trata de mostrarse en este ejemplo como, tras haber ajustado los modelos mediante alguno de los

procedimientos descritos en capítulos previos, la forma en que se acepta o rechaza preliminarmente la

hipótesis formulada. Para ello, se supondrá que tres ajustes realizados dan los siguientes posibles modelos:






Pág. 71 de 72

‐ W‐2P(β=1,63 , η=300)

‐ W‐2P(β=1,8 , η=360)

‐ W‐2P(β=2,1 , η=500)

Dado el gráfico, parece razonable aceptar la primera hipótesis (β=1,63 , η=300) ya que la superposición con la

línea guía es casi total. La hipótesis (β=1,8 , η=360) tiene una desviación sensible aunque cabría la posibilidad

de plantearse si puede ser aceptada o no. Esto dependerá de la habilidad del analista y la experiencia previa

que haya podido tener en problemas similares. Por último, hay evidencias razonables para rechazar la hipótesis

(β=2,1 , η=500) dada la deviación presentada.

Ejemplo:

Se aplicará el test de Gráfico Q‐Q a una serie de datos de fallo del sistema, para los cuales se ha estimado una

probabilidad de frecuencia, definido por la siguiente función:

0,1847· 1,22471

xF x e

Los datos empleados son:

Tiempo hasta el fallo Probabilidad de fallo F(t)

2 0,1296

3 0,3148

5 0,5

8 0,6852

12 0,8704

Tabla 11: Datos necesarios para realizar el test de Gráfico Q‐Q

Resolución:

Primero se calculará el valor de tiempo por el cual la probabilidad de la función de distribución calculada

adoptaría las probabilidades de fallo estimadas. Para ello, se procederá a realizar la función inversa,

despejando la variable de tiempo de la misma. Si llamamos a la probabilidad obtenida como P:

1,2247

1,2247

0,1847·

0,1847·

1

1

ln(1 ) 0,1847· 1,2247

ln(1 )1,2247

0,1847

x

x

P e

P e

P x

Px

Con esta función, se calculará el tiempo con el que se llegan a esas probabilidades:

Figura 26: Gráfico Q‐Q Plot muestra Weibull 2P

0

200

400

600

800

1000

1200

0 500 1000Cuan

tiles de la

Muestra

Cuantiles Estimados (Modelo)

Guía

β=1.65, η=436

β=1.8, η=350

β=2.1, η=500






Pág. 72 de 72

Probabilidad P Tiempo calculado para esa probabilidad

0,1296 ln(1 0,1296)

1,2247 1,97640,1847

0,3148 ln(1 0,3148)

1, 2247 3,2720,1847

0,5 4,9785

0,6852 7,4841

0,8704 ln(1 0,8704)

1,2247 12,29020,1847

Una vez realizado el cálculo de los cuantiles que se corresponden a los tiempos de los datos, se procede a

representar gráficamente las parejas de cuantiles formadas, usando los puntos 1 1 2 2( , ), ( , ),...( , )n nx y x y x y ,

donde x indica el cuantil n de la probabilidad observada e y indica el cuantil n de la probabilidad

posteriormente calculada con la estimación. Las parejas de puntos son:

Punto x: Cuantil (T. calculado) y: Cuantil (T. observado) Punto a representar

1 1,9764 2 (1,9764 ; 2)

2 3,272 3 (3,272 ; 3)

… … … …

5 12,2902 12 (12,2902 ; 12)

Su representación gráfica es la siguiente.

Si la estimación es perfecta, los cuantiles de la probabilidad observada coincidirían con la de la calculada, por lo

que se puede usar como referencia una línea de pendiente unitaria, de cara a comparar el resultado óptimo.

En esta resolución, se aprecia gráficamente que la coincidencia de los cuantiles es prácticamente perfecta,

dando a mostrar que la estimación hallada es óptima.

0

5

10

15

0 5 10 15

Tiempos hasta el fallo

Tiempo calculado

Q‐Q

0

5

10

15

0 5 10 15

Tiempos hasta el fallo

Tiempo calculado

Q‐Q

Guía

Download - Mmviiim1c01 1 Fiabilidad Add

Top Related