licenciatura en ciencia de la computación

107
UNIVERSIDAD CENTRAL “MARTA ABREU” DE LAS VILLAS FACULTAD DE MATEMÁTICA, FÍSICA Y COMPUTACIÓN Licenciatura en Ciencia de la Computación Tesis de Diploma Título: “Medidas de bondad de ajuste para análisis de regresión borrosa” Autor: Luis Miguel Bermúdez Pérez – Borroto Tutores: Lic. Lisset Denoda Pérez Dra. Gladys Casas Cardoso Santa Clara, Cuba, 2014

Upload: others

Post on 11-Jul-2022

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Licenciatura en Ciencia de la Computación

UNIVERSIDAD CENTRAL “MARTA ABREU” DE LAS VILLAS

FACULTAD DE MATEMÁTICA, FÍSICA Y COMPUTACIÓN

Licenciatura en Ciencia de la Computación

Tesis de Diploma

Título: “Medidas de bondad de ajuste para

análisis de regresión borrosa”

Autor:

Luis Miguel Bermúdez Pérez – Borroto

Tutores:

Lic. Lisset Denoda Pérez

Dra. Gladys Casas Cardoso

Santa Clara, Cuba, 2014

Page 2: Licenciatura en Ciencia de la Computación

i

El que suscribe, Luis Miguel Bermúdez Pérez-Borroto, hago constar que el trabajo titulado

―Medidas de bondad y ajuste para análisis de regresión borrosa‖ fue realizado en la

Universidad Central ―Marta Abreu‖ de Las Villas como parte de la culminación de los

estudios de la especialidad de Ciencia de la Computación, autorizando a que el mismo sea

utilizado por la institución, para los fines que estime conveniente, tanto de forma parcial como

total y que además no podrá ser presentado en eventos ni publicado sin la autorización de la

Universidad.

Firma del autor

Los abajo firmantes, certificamos que el presente trabajo ha sido realizado según acuerdos de

la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo

de esta envergadura referido a la temática señalada.

Firma del tutor Firma del jefe del Laboratorio

Fecha

Page 3: Licenciatura en Ciencia de la Computación

AGRADECIMIENTOS

ii

AGRADECIMIENTOS

A mi mamá, por ser mi sostén, por su dedicación, amor y constante sacrificio

durante toda mi vida, por ser una madre tan especial y por ser guía esencial en mi

formación como persona.

A mi papá, por estar siempre preocupado por mi carrera, por mí y por mi

bienestar.

A mi abuela, una persona muy importante en mi vida, por su sacrificio y

preocupación, por estar siempre presente en mi vida.

A mi hermana, por su apoyo y amor incondicional.

A mi tía Grey y a Feli, por su cariño, interés y preocupación por mi formación.

A Janet, que es como mi hermana, por estar siempre presente, por ser mi gran

amiga y por su apoyo en mi formación profesional.

A Liset, por ser una gran amiga, y por su gran apoyo en momentos difíciles de mi

carrera.

A todos mis amigos de la carrera: Luis Javier, Salvador, Sady, Dueñas, Víctor, por

ser personas tan importantes y especiales.

A Daynel, por ser un gran amigo, y por estar siempre presente.

A mis magníficas tutoras: Lisset y Gladyta, por su apoyo, confianza y ayuda

incondicional.

Y a todos mis compañeros de la carrera que durante cinco años compartimos

grandes momentos.

Luis Miguel

Page 4: Licenciatura en Ciencia de la Computación

RESUMEN

iii

RESUMEN

En este trabajo de diploma se presentan algunos conceptos de la teoría de conjuntos borrosos.

Se definen los números borrosos triangulares y se exponen los elementos fundamentales de la

regresión borrosa haciendo especial énfasis en las Medidas de bondad de ajuste.

Se presentan los aspectos principales del análisis, diseño e implementación del software

experimental ―GOF 1.0‖.

Se muestran la forma en que se realizaron los experimentos para llevar a cabo un análisis más

profundo sobre los resultados obtenidos a través de pruebas no paramétricas, procedimientos

estadísticos y diferentes gráficos.

Page 5: Licenciatura en Ciencia de la Computación

ABSTRACT

iv

ABSTRACT

Some concepts of the Fuzzy Set Theory are presented in this diploma work. Triangular fuzzy

numbers are defined, and the fundamental elements of fuzzy regression with particular

emphasis on goodness of fit measures are presented.

The main aspects of analysis, design and implementation of experimental software "GOF 1.0"

are presented.

Through all this work is explained how the experiments were performed to carry out a deeper

analysis of the results obtained through nonparametric tests, different statistical procedures

and graphics.

Page 6: Licenciatura en Ciencia de la Computación

TABLA DE CONTENIDO

v

TABLA DE CONTENIDOS

AGRADECIMIENTOS ................................................................................................................ i

RESUMEN ................................................................................................................................... i

ABSTRACT ................................................................................................................................. i

TABLA DE CONTENIDOS ...................................................................................................... ii

LISTA DE FIG URAS ................................................................................................................ 1

INTRODUCCIÓN ....................................................................................................................... 1

Capítulo 1 Regresión borrosa. Medidas de bondad de ajuste ...................................................... 5

1.1 Conjuntos borrosos .......................................................................................................... 5

1.2 Números borrosos ............................................................................................................ 6

1.2.1Números borrosos triangulares..................................................................................... 9

1.3 Regresión lineal múltiple ................................................................................................. 10

1.4 Análisis de regresión borrosa ........................................................................................ 13

1.4.1 Regresión borrosa ...................................................................................................... 13

1.4.2 Regresión borrosa posibilística introducida por Hideo Tanaka ................................ 15

1.4.3 Modelo de Regresión Borrosa introducido por Shakouri y Nadimi.......................... 16

1.4.4 Modelo de Savic y Pedrycs ....................................................................................... 17

1.5 Comparación entre la Regresión Clásica y la Regresión Borrosa ................................... 18

1.6Medidas de bondad de ajuste en la regresión lineal múltiple ........................................... 19

1.6.1Coeficiente de determinación ............................................................................... 19

1.6.2 Coeficiente de determinación ajustado ................................................................ 20

1.6.3 Criterio de Akaike (AIC) y criterio Bayesiano de Schwarz (SBC) .......................... 20

Page 7: Licenciatura en Ciencia de la Computación

TABLA DE CONTENIDO

vi

1.7 Medidas de bondad de ajuste en la regresión borrosa ..................................................... 21

1.7.1 Medidas de ajuste de tendencia central ..................................................................... 23

1.7.2 Índice de Bondad del Ajuste SIM1 ............................................................................ 24

1.7.3 Índice de Bondad del Ajuste SIM2 ............................................................................ 25

1.7.4 Índice de bondad del ajuste SIM3 .............................................................................. 25

1.7.5 Índice de Bondad del Ajuste SIM4 ............................................................................ 26

1.7.6 Índice de Bondad del Ajuste SIM5 ............................................................................ 26

1.7.7 Índice integrado ......................................................................................................... 27

1.8 Procesamiento estadístico ................................................................................................ 27

1.8.1 Análisis descriptivo de datos ..................................................................................... 27

1.8.2 Gráficos de cajas y bigotes ........................................................................................ 28

1.8.3 Gráficos de máximo, mínimo y cierre ....................................................................... 30

1.8.4 Pruebas no paramétricas ............................................................................................ 30

Prueba de Mann Whitney ............................................................................................... 30

1.9 Consideraciones finales ................................................................................................... 32

Capítulo 2 Análisis e implementación del Software ―GOF 1.0‖. Diseño de experimentos ...... 33

2.1 Análisis de la herramienta ............................................................................................... 33

2.2 Diagrama de casos de uso ................................................................................................ 34

2.3 Diagrama de clases .......................................................................................................... 34

2.4 Diagrama de Actividades ................................................................................................. 36

2.5 Implementación del software ........................................................................................... 37

2.6 Diseño de los experimentos ............................................................................................. 38

2.6.1 Experimento 1 ―Buen y Mal Ajuste‖ ........................................................................ 38

Page 8: Licenciatura en Ciencia de la Computación

TABLA DE CONTENIDO

vii

Una variable independiente (Regresión lineal simple) ................................................... 38

Dos variables independientes (Regresión lineal múltiple) ............................................. 40

2.6.2 Experimento 2 ―Extensiones cercanas y alejadas‖ .................................................... 41

Una variable independiente (Regresión lineal simple) ................................................... 41

Dos variables independientes (Regresión lineal múltiple) ............................................. 42

2.7 Consideraciones finales ................................................................................................... 43

Capítulo 3 Manual de usuario y Análisis de los Resultados...................................................... 44

3.1 Manual de Usuario ........................................................................................................... 44

3.1.1 Requerimientos del sistema ....................................................................................... 44

3.1.2 Ficheros de entrada.................................................................................................... 44

3.1.3Ventana Inicial del Software ...................................................................................... 45

3.1.4 Ventana Principal ...................................................................................................... 46

3.1.4.1 Menú Ficheros (ver Fig ura 3.4) ......................................................................... 46

3.1.4.2 Abrir ................................................................................................................... 46

3.1.4.2 Ver Datos ............................................................................................................ 47

3.1.4.4 Guardar ............................................................................................................... 48

3.1.4.5 Botón Ayuda ....................................................................................................... 49

3.2 Análisis de los Resultados ............................................................................................. 49

3.2.1 Experimento 1 ―Valores con buen y mal ajuste‖ ...................................................... 49

Una variable independiente ............................................................................................ 49

Dos variables independientes ......................................................................................... 57

3.2.2 Experimento 2‖Extensiones cercanas y alejadas‖ ..................................................... 67

Una variable independiente ............................................................................................ 67

Page 9: Licenciatura en Ciencia de la Computación

TABLA DE CONTENIDO

viii

Dos variables independientes ......................................................................................... 74

3.3 Aplicación a la tasa de cambio del Euro .......................................................................... 84

3.4 Consideraciones finales del capítulo ............................................................................... 86

CONCLUSIONES ..................................................................................................................... 87

RECOMENDACIONES ........................................................................................................... 88

BIBLIOGRAFÍA ....................................................................................................................... 89

ANEXOS ................................................................................................................................... 93

Page 10: Licenciatura en Ciencia de la Computación

LISTA DE FIGURAS

ix

LISTA DE FIGURAS

Fig 1.1 Número borroso .............................................................................................................. 7

Fig 1.2 Forma general de un número borroso ............................................................................. 8

Fig 1.3 Número borroso triangular .............................................................................................. 9

Fig 1.4 Gráfico de vajas y bigotes ............................................................................................. 29

Fig 1.5 Gráfico de máximo, mínimo y cierre ........................................................................... 30

Fig 2.1 Diagrama de UML ........................................................................................................ 33

Fig 2.2 Diagrama de casos de uso ............................................................................................. 34

Fig 2.3 Diagrama de clases ........................................................................................................ 35

Fig 2.4 Diagrama de Actividad.................................................................................................. 37

Fig 3.1 Fichero de entrada al sistema ........................................................................................ 45

Fig 3.2 Interfaz principal de la aplicación ................................................................................. 45

Fig 3.3 Ventana principal del software ...................................................................................... 46

Fig 3.4 Menú Ficheros ............................................................................................................... 46

Fig 3.5 Botón Abrir en el Menú Ficheros .................................................................................. 47

Fig 3.6 Acceso directo del botón Abrir ..................................................................................... 47

Fig 3.7 Seleccionar Ver Datos ................................................................................................... 47

Fig 3.8 Acceso directo del botón Ver Datos .............................................................................. 48

Fig 3.9 Ejemplo de resultados calculados ................................................................................ 48

Fig 3.10 Botón Guardar en el Menú Ficheros ........................................................................... 48

Fig 3.11 Manual de usuario ....................................................................................................... 49

Fig 3.12 Gráfico de cajas y bigotes del SIM2 por cantidad de datos ......................................... 50

Page 11: Licenciatura en Ciencia de la Computación

LISTA DE FIG URAS

x

Fig 3.13 Gráfico de cajas y bigotes de Sim3 por cantidad de datos ........................................... 50

Fig 3.14 Gráfico de cajas y bigotes de Sim4por cantidad de datos ............................................ 51

Fig 3.15 Gráfico de cajas y bigotes para el R2Borroso por cantidad de datos........................... 51

Fig 3.16 Gráfico de cajas y bigotes para la Correlación híbrido por cantidad de datos ............ 52

Fig 3.17 Gráfico de máximo, mínimo y cierre para MSIM23 .................................................... 53

Fig 3.18 Gráfico de máximo, mínimo y cierre para MSIM24 .................................................... 54

Fig 3.19 Gráfico de máximo, mínimo y cierre para MSIM34 .................................................... 54

Fig 3.20 Gráfico de máximo, mínimo y cierre para MaxSIM ................................................... 55

Fig 3.21 Gráfico de máximo, mínimo y cierre para MinSIM ................................................... 55

Fig 3.22 Gráfico de máximo, mínimo y cierre para MSIM234 ................................................... 56

Fig 3.23 Gráfico de máximo, mínimo y cierre para SumSIM .................................................. 56

Fig 3.24 Gráfico de cajas y bigotes para el índice SIM2 por cantidad de datos ........................ 57

Fig 3.25 Gráfico de cajas y bigotes para el índice SIM3 por cantidad de datos ........................ 58

Fig 3.26 Gráfico de cajas y bigotes para el índice SIM4 por cantidad de datos ........................ 58

Fig 3.27 Gráfico de cajas y bigotes para el índice R2Borroso por cantidad de datos ................ 59

Fig 3.28 Gráfico de cajas y bigotes para la Correlación Híbrida por cantidad de datos ........... 59

Fig 3.29 Gráfico de máximo, mínimos y cierre con buen y mal ajuste para el índice propuesto

M23 ............................................................................................................................................. 61

Fig 3.30 Gráfico de máximo, mínimos y cierre con buen y mal ajuste para el índice propuesto

M24 ............................................................................................................................................. 61

Fig 3.31 Gráfico de máximo, mínimos y cierre con buen y mal ajuste para el índice propuesto

M34 ............................................................................................................................................. 62

Fig 3.32 Gráfico de máximo, mínimos y cierre con buen y mal ajuste para el índice propuesto

MaxSim ..................................................................................................................................... 62

Page 12: Licenciatura en Ciencia de la Computación

LISTA DE FIG URAS

xi

Fig 3.33 Gráfico de máximo, mínimos y cierre con buen y mal ajuste para el índice propuesto

MinSim ...................................................................................................................................... 63

Fig 3.34 Gráfico de Barras filtrado con buen ajuste para el análisis del SIM2, SIM3, SIM4, R2

Borroso y Correlación Hibrido .................................................................................................. 64

Fig 3.36 Gráfico de barras para las medidas propuestas filtrado por buen ajuste ..................... 66

Fig 3.38 Gráfico de cajas y bigotes para el índice SIM2teniendo en cuenta extensiones

cercanas y lejanas ...................................................................................................................... 67

Fig 3.39 Gráfico de cajas y bigotes para el índice SIM3teniendo en cuenta extensiones

cercanas y lejanas ...................................................................................................................... 68

Fig 3.40 Gráfico de cajas para el índice SIM4teniendo en cuenta extensiones cercanas y lejanas

................................................................................................................................................... 68

Fig 3.41 Gráfico de cajas y bigotes para el R2 Borroso teniendo en cuenta extensiones cercanas

y lejanas ..................................................................................................................................... 69

Fig 3.42 Gráfico de cajas y bigotes para la Correlación híbrido teniendo en cuenta extensiones

cercanas y lejanas ...................................................................................................................... 69

Fig 3.43 Gráfico de cajas para la Correlación híbrido teniendo en cuenta extensiones cercanas

y alejadas ................................................................................................................................... 74

Fig 3.44 Gráfico de máximo, mínimo y cierre para MaxSIM con extensiones cercanas y

alejadas. ..................................................................................................................................... 71

Fig 3.45 Gráfico de máximo, mínimo y cierre para la M23con extensiones cercanas y alejadas

................................................................................................................................................... 70

Fig 3.46 Gráfico de máximo, mínimo y cierre para MinSIM con extensiones cercanas y

alejadas. ..................................................................................................................................... 72

Fig 3.47 Gráfico de máximo, mínimo y cierre para M24 con extensiones cercanas y alejadas.

................................................................................................................................................... 70

Page 13: Licenciatura en Ciencia de la Computación

LISTA DE FIG URAS

xii

Fig 3.48 Gráfico de máximo, mínimo y cierre para M34 con extensiones cercanas y alejadas.

................................................................................................................................................... 71

Fig 3.49 Gráfico de máximo, mínimo y cierre para MSIM con extensiones cercanas y

alejadas. ..................................................................................................................................... 72

Fig 3.50 Gráfico de máximo, mínimo y cierre para SumSIM con extensiones cercanas y

alejadas. ..................................................................................................................................... 73

Fig 3.51 Gráfico de cajas y bigotes para el índice SIM2teniendo en cuenta extensiones

cercanas y lejanas ...................................................................................................................... 75

Fig 3.52 Gráfico de cajas y bigotes para el índice SIM3 teniendo en cuenta extensiones

cercanas y lejanas ...................................................................................................................... 75

Fig 3.53 Gráfico de cajas y bigotes para el índice SIM4 teniendo en cuenta extensiones

cercanas y lejanas ...................................................................................................................... 76

Fig 3.54 Gráfico de cajas y bigotes para elR2

Borroso teniendo en cuenta extensiones cercanas

y lejanas ..................................................................................................................................... 76

Fig 3.55 Gráfico de cajas y bigotes para la medida Correlación híbrido teniendo en cuenta

extensiones cercanas y lejanas ................................................................................................... 77

Fig 3.56 Gráfico de máximo, mínimo y cierre para MSIM con extensiones cercanas y

alejadas. ..................................................................................................................................... 79

Fig 3.57 Gráfico de máximo, mínimo y cierre para el MaxSIM con extensiones cercanas y

alejadas ...................................................................................................................................... 80

Fig 3.58 Gráfico de máximo, mínimo y cierre para el MinSIM con extensiones cercanas y

alejadas ...................................................................................................................................... 80

Fig 3.59 Gráfico de máximo, mínimo y cierre para la M23 con extensiones cercanas y alejadas

................................................................................................................................................... 78

Fig 3.60 Gráfico de máximo, mínimo y cierre para la M24 con extensiones cercanas y alejadas

................................................................................................................................................... 78

Page 14: Licenciatura en Ciencia de la Computación

LISTA DE FIG URAS

xiii

Fig 3.61 Gráfico de máximo, mínimo y cierre para la M34 con extensiones cercanas y alejadas

................................................................................................................................................... 79

Fig 3.62 Gráfico de máximo, mínimo y cierre para la MSIM con extensiones cercanas y

alejadas ...................................................................................................................................... 81

Fig 3.63 Gráfico de máximo, mínimo y cierre para el MaxSIM con extensiones cercanas y

alejadas ..................................................................................... ¡Error! Marcador no definido.

Fig 3.64 Gráfico de máximo, mínimo y cierre para el MinSIM con extensiones cercanas y

alejadas ...................................................................................................................................... 81

Fig 3.65 Gráfico de máximo, mínimo y cierre para la SumSIM con extensiones cercanas y

alejadas ...................................................................................................................................... 82

Fig 3.66 Gráfico de barras correspondiente a las mediadas clásicas para el experimento 2 con

dos variables .............................................................................................................................. 83

Fig 3.67 Gráfico de barras correspondiente a las mediadas propuestas para el experimento 2

con dos variables ....................................................................................................................... 84

Page 15: Licenciatura en Ciencia de la Computación

INTRODUCCIÓN

1

INTRODUCCIÓN

La Regresión Borrosa aparece en la historia de los análisis de regresión en 1982 (Tanaka et al.,

1982), gracias a Hideo Tanaka y sus colaboradores. El análisis de regresión borrosa se

fundamenta en el análisis de regresión tradicional de la estadística e intenta extender su

aplicación a datos que pueden modelarse a través de subconjuntos borrosos.

El análisis de regresión borrosa ha sido estudiado y aplicado en diferentes áreas tal como la

modelación de datos económicos o financieros (Aguilera Cuevas and Rodríguez Betancourt,

1999), la ingeniería de software (Conte et al., 1986), el reconocimiento de un patrón de

estimación humana (Romero Cortés and Aguilar Vázquez, 1999).

La lógica borrosa estudia elementos de la lógica tradicional aplicados a valores borrosos. Los

elementos de un conjunto borroso son pares ordenados que indican el valor del elemento y su

grado de pertenencia a dicho conjunto. De esta manera, la lógica borrosa maneja la

incertidumbre presente en la estructura de un conjunto de datos. Los conjuntos borrosos fueron

introducidos por primera vez en 1965, por Zadeh (Zadeh, 1965), pero sus orígenes se

remontan hasta 2,500 años.

La lógica borrosa (Morales Martínes, 2010) puede ser vista como un ―lenguaje‖ que permite

trasladar sentencias del lenguaje natural a un lenguaje matemático formal. Mientras la

motivación original fue ayudar a manejar aspectos imprecisos del mundo real, la práctica

temprana de la lógica borrosa permitió el desarrollo de aplicaciones prácticas. Aparecieron

numerosas publicaciones que presentaban los fundamentos básicos con aplicaciones

potenciales. Esta fase marcó la fuerte necesidad de distinguir la lógica borrosa de la poderosa

teoría de las probabilidades.

Por su parte, la bondad de ajuste (GOF por sus siglas en inglés) de un modelo estadístico

describe la calidad con la que se ajusta una serie de observaciones a un modelo. Las medidas

de bondad no son más que las discrepancias entre los valores observados y los valores

estimados en virtud de un modelo estadístico. Las medidas de bondad son frecuentemente

Page 16: Licenciatura en Ciencia de la Computación

INTRODUCCIÓN

índices con contribuciones muestrales conocidas, generalmente obtenidas utilizando métodos

asintóticos, que se utilizan en las pruebas de hipótesis estadísticas. Una gran cantidad de

investigaciones mediante estudios de simulación se han dedicado a investigar en qué

condiciones los p-valores asintóticos de las medidas de bondad estadísticas son exactas (es

decir, el tamaño de la muestra debe ser para los modelos de diferentes tamaños).

La evaluación del ajuste de un modelo absoluto (es decir, la discrepancia entre un modelo y

los datos) es crítica en las aplicaciones. Los investigadores deben examinar no sólo el ajuste

global de sus modelos, sino que también debe formar una evaluación a trozos. Es muy posible

que un modelo se ajuste bien en general, pero que se ajuste mal en algunas partes de los datos,

lo que sugiere el uso de un modelo alternativo. La evaluación de bondad de ajuste puede

también revelar la fuente de los modelos mal ajustados.

Por lo tanto, podemos clasificar la evaluación de medidas de bondad de ajuste utilizando dos

útiles dicotomías: índices de bondad de ajuste frente a índices de bondad estadísticos y ajuste

absoluto frente a forma relativa. A su vez, los índices y medidas de bondad estadísticas pueden

ser clasificados como globales o por partes (García, 2010).

Este constituye en esencia el problema científico que le da origen a la presente tesis.

Como objetivo general se plantea: ―Determinar las medidas de bondad de ajuste que mejor

caractericen los modelos de regresión borrosa‖.

Para lograr dicho objetivo general, se proponen los objetivos específicos siguientes:

1. Seleccionar las medidas de bondad de ajuste más importantes reportadas en la

literatura.

2. Proponer, a partir de las medidas estudiadas, otras nuevas para calcular la bondad

del ajuste de los modelos de regresión borrosa posibilística.

3. Diseñar e implementar un sistema informático que permita calcular las medidas

seleccionadas.

4. Realizar experimentos con datos simulados para caracterizar las medidas

implementadas.

Page 17: Licenciatura en Ciencia de la Computación

INTRODUCCIÓN

5. Mostrar un ejemplo real.

Además, se formularon las siguientes preguntas de investigación:

1. ¿Cuáles son las medidas de bondad de ajuste para modelos de regresión borrosa

más relevante existente en la literatura?

2. ¿Cuáles son sus ventajas y desventajas?

3. ¿Cómo diseñar experimentos con datos simulados de manera que se seleccionen las

mejores medidas para comparar modelos de regresión borrosa?

Justificación de la investigación

Los métodos de regresión borrosa son una alternativa más para solucionar problemas de

regresión. Ellos manejan adecuadamente la incertidumbre presente en los problemas reales por

lo que sus aplicaciones aumentan cada día. Se hace necesario contar con medidas de bondad

de ajuste que permitan comparar modelos de manera certera, con el propósito de seleccionar

los mejores.

Las medidas que se han utilizado con estos fines en el laboratorio de Bioinformática son el

SIM3 y el Borroso, este último no siempre ofrece resultados buenos. Existen muchas otras

medidas reportadas en la literatura que no se han estudiado aún, lo que justifica realizar una

investigación en este campo.

El primer paso para la realización de este trabajo fue la confección del marco teórico. Para ello

se realizó una amplia revisión de la literatura consultando libros, artículos y páginas de

internet, entre otras fuentes. Sus elementos esenciales se encuentran expuestos de manera

resumida en el primer capítulo de la presente tesis. Como conclusión de la elaboración del

marco teórico se enuncia la siguiente hipótesis de investigación:

H1: ―No todas las medidas de bondad de ajuste reportadas en la literatura miden la calidad del

ajuste de los modelos de regresión borrosa‖

H2: ―A partir de las mejores medidas, se construyen otras que caracterizan la bondad del ajuste

de los modelos de regresión borrosa.‖

Page 18: Licenciatura en Ciencia de la Computación

INTRODUCCIÓN

El trabajo está formado por tres capítulos. El primer capítulo está enmarcado sobre el estudio

de la lógica borrosa, los números borrosos triangulares, se realiza un breve introducción

referente a las Medidas de bondad de ajuste en la regresión múltiple y un especial énfasis en

las Medidas de bondad de ajuste para la regresión borrosa, así como un estudio sobre

procedimientos estadísticos: análisis descriptivos de datos, gráficos de cajas y gráficos de

máximos, mínimos y cierre; así como pruebas no paramétricas. El segundo capítulo aborda lo

relacionado con el diseño, análisis e implementación del software GOF 1.0, y como se

realizaron los diseños de los experimentos para una y dos variables. Por su parte el capítulo

tercero muestra el manual de usuario de la aplicación y un análisis de los experimentos

realizados con datos simulados y finalmente con datos de una aplicación real. Los capítulos

finalizan con una conclusión parcial de los aspectos más importantes abordados. El trabajo

finaliza con las conclusiones generales y las recomendaciones para trabajos posteriores, así

como la relación con la bibliografía.

Page 19: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

Capítulo 1 Regresión borrosa. Medidas de bondad de ajuste

En este capítulo se expone una breve teoría de los conjuntos borrosos; se analiza la regresión

lineal múltiple así como la regresión lineal borrosa posibilística. Se hace énfasis en las

medidas de bondad de ajuste para ambos tipos de regresión. Se menciona las herramientas

estadísticas de análisis descriptivo y pruebas no paramétricas utilizadas en el presente trabajo.

1.1 Conjuntos borrosos

La matemática de conjuntos borrosos que podría denominarse como clásica, se basa en la

lógica aristotélica fundamentada en el principio que muestra que una proposición únicamente

puede ser verdadera o falsa (1,0 respectivamente), pero no ambas cosas a la vez, es decir no

existiendo ningún grado de verdad intermedio. Como consecuencia de dicho principio, en la

teoría de conjuntos, para un subconjunto A definido sobre un conjunto universo o referencial

X, un elemento del universo pertenece o no pertenece a dicho conjunto A, es decir, no existe

ningún tipo de ambigüedad sobre su pertenencia.

Matemáticamente la pertenencia a un conjunto se expresa a través de una función

característica )(xA que asigna valores a todos los elementos de A en el conjunto

discreto(Aranguren and Muzachiodi, 2003). Dicho valor es 0 cuando el elemento no pertenece

al conjunto y 1 cuando el elemento pertenece totalmente. Es decir, matemáticamente la

función característica viene dada por:

Ax

AxxXx

X

A

A

0

1)(

}1,0{:

(1.1)

Del principio del tercero excluido se deriva el principio de exclusión. Este indica que si un

elemento x del universo X pertenece a un conjunto A, no pertenece a su complemento, cA y

viceversa. Matemáticamente podemos expresar el principio de exclusión como:

0)(1)(, xxsiXx cAA (1.2)

Page 20: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

Un conjunto borroso es un conjunto para el cual la pertenencia de un elemento está definida de

forma borrosa. Así, si se denomina X como al universo o conjunto referencial, un subconjunto

borroso, que se denotará de la siguiente manera A , es aquel en el que la pertenencia de un

elemento Xx tiene asignado un nivel de verdad que puede tomar valores en el conjunto

continuo [0,1]. El nivel de pertenencia de un elemento x vendrá dado por su función de

pertenencia o función característica )(xA . Así, se puede definir a un subconjunto borroso

como }|))(,{( XxxxAA

siendo la función de pertenencia:

]1,0[)(

]1,0[:

xXx

X

A

A

(1.3)

Donde 0 indica la no pertenencia al conjunto A y 1 la pertenencia absoluta. Evidentemente,

existe una degradación del nivel de pertenencia de forma que si ( ) , el nivel de

pertenencia del elemento x es muy elevado, y si ( ) el nivel de pertenencia de x es

muy bajo. Así puede interpretarse como el grado en que un elemento particular que se

considera cumple con las especificaciones que definen a los elementos del conjunto en

cuestión y no debe interpretarse como la probabilidad de pertenencia. Si la probabilidad de

que un elemento x pertenece al conjunto A es de 0.9 y se afirma que x pertenece al conjunto

A , tenemos un 90 % de probabilidad de acertar, pero el elemento intrínsecamente pertenece o

no pertenece a A . Cuando se dice que la función de pertenencia de x es 0.9 se quiere decir

que cumple en nuestro criterio con el 90% de las características que definen los elementos del

conjunto A . En resumen, la probabilidad indica incertidumbre estadística mientras que la

función de pertenencia indica vaguedad y subjetividad. Además, se puede observar que un

conjunto ordinario o ―crisp‖ es un caso particular de un conjunto borroso, para el cual

únicamente se diferencian dos niveles de pertenencia: la pertenencia absoluta y la no

pertenencia.

1.2 Números borrosos

Un número borroso es expresado como un conjunto borroso definiendo un intervalo borroso

en los números reales . Como la frontera de este intervalo es ambigua, el intervalo es

Page 21: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

además un conjunto borroso. Generalmente un intervalo borroso se representa por dos puntos

extremos 1a y 3a , y un punto central 2a que es el punto en donde se alcanza el valor máximo

como ],,[ 321 aaa . (Figura 1.1)

Fig 1.1 Número borroso

Un número borroso es un subconjunto borroso N definido sobre la recta real y que cumple

además las siguientes propiedades.

1. Es normal, es decir, que el núcleo de N es no vacío o lo que es lo mismo, existe al

menos un elemento x de tal que 1)( xN

2. Es convexo, geométricamente quiere decir que los α-cortes de N son intervalos

cerrados y acotados.

3. El soporte de N está acotado.

4. La función de pertenencia es seccionalmente continua.

Los números borrosos constituyen una herramienta valiosa para representar cantidades

estimadas u observadas en el contexto de la lógica borrosa. Varios autores diferencian dentro

del concepto de número borroso de acuerdo a si su núcleo es un valor real o si el núcleo es un

intervalo de confianza. En nuestro caso no distinguimos a los números borrosos por la forma

que se utilice para representar su núcleo.

Son muchos los ejemplos prácticos en los que el grado de pertenencia de un determinado

elemento del universo X se puede expresar como una función de una característica

medible del mismo. El valor que toma un elemento x en la función de pertenencia de N ,

Page 22: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

)(xN es interpretado por muchos autores como una ―medida‖ de la posibilidad de ocurrencia

de x, así el número borroso N es interpretado como una distribución de posibilidad.

De forma general la función de pertenencia de un número borroso N puede escribirse como:

casootroen

axaxg

axa

axaxf

xN

0

)(

1

)(

)(43

32

21

(1.4)

El intervalo de confianza ],[ 41 aa es el soporte del número borroso y ],[ 32 aa es el núcleo del

número borroso. Asimismo f(x) es creciente en el intervalo ],[ 21 aa y g(x) es decreciente en el

intervalo ],[ 43 aa (ver Fig ura 1.2)

Fig 1.2 Forma general de un número borroso

Sin embargo, en muchas ocasiones será más práctico operar con su representación a través de

sus conjuntos de nivel o α-cortes. Estos son intervalos de confianza que se pueden representar

como:

)](),([)](),([})(|{ 21

11 nngfxxNN

(1.5)

Donde ))(()( 21 nn serán funciones crecientes (decrecientes de ) con )()( 21 nn

Page 23: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

1.2.1 Números borrosos triangulares

Los números borrosos triangulares son los más usados en la práctica por su relativa comodidad

de manipulación. Sin embargo muchos autores han cuestionado su utilización indiscriminada.

Un número borroso triangular (NBT) tiene, como su nombre lo indica, la forma triangular

mostrada en la Figura 1.3.

Fig 1.3 Número borroso triangular

La función de pertenencia para este número borroso triangular viene dada por:

casootroen

axasiaa

xa

axasiaa

ax

xA

0

)( 32

23

3

21

12

1

(1.6)

donde el soporte viene dado por ],[ 31 aa , su extensión izquierda es 12 aap y su extensión

derecha es 23 aaq .Por tanto sus - cortes vienen dados por:

)](),([])(,)([ 21233121 aaaaaaaaA (1.7)

donde en este caso se sabe que A es un intervalo cerrado y acotado para 10 donde:

1. )(1 a será una función monótona creciente de en el intervalo [0,1]

2. )(2 a será una función monótona decreciente de para 10

Page 24: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

3. )1()1( 21 aa

La monotonía creciente (decreciente) se demuestra, como es usual, probando que se cumple la

relación )0

)((0

)( 21

d

da

d

da

(Buckley, 2006) (1.8)

Un número borroso triangular se denota mediante su centro y sus extensiones en la forma

, o alternativamente mediante una terna de confianza donde los valores que la

componen son el valor más pequeño posible, el valor de mayor pertenencia o el valor central y

el valor más elevado posible, es decir ],,[ 321 aaaA .

Como se puede observar la función de pertenencia de un número borroso triangular es lineal.

La extensión izquierda es la recta que pasa por )0,( 1a y )1,( 2a y la extensión derecha es la

recta que toma valores en )1,( 2a y )0,( 3a .

1.3 Regresión lineal múltiple

En el análisis de regresión múltiple, la ecuación de regresión define un hiperplano en un

espacio multidimensional, si se dispone de una muestra:

{( ) ( ) ( ) ( ) , la ecuación con m variables independientes tendría

la siguiente forma:

0 1 1 2 2 m mY x x x (1.9)

Donde representa el error de estimación.

Esta ecuación de regresión mínimo-cuadrática se construye estimando los valores de los

coeficientes , del modelo de regresión. Estas estimaciones se obtienen

intentando hacer que las diferencias al cuadrado entre los valores observados y los

pronosticados sean mínimas.(Herrera Pallares, 2012)

Este modelo se basa en una serie de supuestos como:

Linealidad. La ecuación de regresión adopta la forma de un modelo lineal El incumplimiento

del supuesto de linealidad suele denominarse error de especificación. Algunos ejemplos son:

omisión de variables independientes importantes, inclusión de variables independientes

Page 25: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

irrelevantes, no linealidad (la relación entre las variables independientes y la dependiente no es

lineal), entre otros.

1. Independencia. Los residuos son independientes entre sí.

2. Homocedasticidad. Para cada valor de la variable independiente (o combinación de

valores de las variables independientes), la varianza de los residuos es constante.

3. Normalidad. Para cada valor de la variable independiente (o combinación de valores

de las variables independientes), los residuos se distribuyen normalmente con media cero.

4. No-colinealidad. No existe relación lineal exacta entre ninguna de las variables

independientes. El incumplimiento de este supuesto da origen a colinealidad o

multicolinealidad.

Para probar normalidad, existe una amplia variedad de pruebas estadísticas. Entre las más

utilizadas se pueden mencionar:

1. Prueba de Shapiro –Wilks si 503 n (Shapiro and Wilk, 1965)

2. Prueba de Kolmogorov-Smirnov( )(Stephens, 1974)

3. Prueba de Jarque – Bera( )(Jarque and Bera, 1980, Jarque and Bera, 1981)

4. Prueba de Anderson - Darling (Anderson and Darling, 1952)

A continuación se explican brevemente todos ellos.

Prueba de Shapiro- WilksW

Se calcula el estadígrafo:

2

2

2

1

1

*

*

Spn

a

W

n

i

iini

(1.10)

donde los valores de ia dependen de n y se determinan mediante tablas y la suma se extiende

sólo hasta la parte entera inferior de 2

n debido a la simetría de la tabla.

Si WW se rechaza la hipótesis de normalidad a un nivel de confianza de 1 . Los

valores de W están también tabulados en la literatura.(Shapiro and Wilk, 1965)

Page 26: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

Prueba de Kolmogorov - Smirnov

Se calculan los valores

y definidos cómo:

(( )

( ))

( ( )

)

(

) (1.11)

Asumiendo que las observaciones están ordenadas ascendentemente. Los valores calculados

(distribución empírica) son comparados con los valores de la distribución normal teórica. El

valor de la significación se obtiene a partir de tablas simuladas. (L’Ecuyer, 2012)

Prueba de Jarque-Bera

Jarque-Bera es un test de bondad de ajuste específicamente creado para probar normalidad.

Utiliza un estadístico en prueba que involucra la curtosis (K) y la asimetría (S) (Jarque and

Bera, 2006). Se calcula el estadígrafo JB:

(

( )

) (1.12)

Donde n es el tamaño de la muestra.

Es un test de bondad de ajuste específicamente usado para probar normalidad. Utiliza un

estadístico en prueba que involucra la curtosis y la asimetría(Jarque and Bera, 2006).

Prueba de Anderson - Darling

Se calcula el estadístico Anderson-Darling como:

∑ {( ) ( ( )) ( ) ( ( ))}

(1.13)

Asumiendo que los datos están ordenados ascendentemente y ( ) es laprobabilidad de

la función de distribución teórica para la observación j.(L'Ecuyer and Simard, 2002,

D'Agostino and Stephens, 1987)

Para poder crear un modelo de regresión válido, es necesario que se cumplan dichos

supuestos. En muchas ocasiones ellos son difíciles de verificar o se pasan por alto, ya sea

porque se cuenta con una pequeña cantidad de observaciones o porque éstas ni siquiera son

soportables por el tipo de problema y/o escalas de medición utilizadas. Si se tiene una muestra

pequeña, que ya puede contener cierto ruido, con función de probabilidad desconocida

Page 27: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

(además es casi imposible el considerar todas las variables que son importantes o indicativas

para cualquier modelo), resultaría interesante suponer un modelamiento de tipo borroso (de-

los-Cobos-Silva et al., 2011)

1.4 Análisis de regresión borrosa

El uso de las técnicas de regresión sobre las observaciones experimentales ha permitido el

estudio de numerosos fenómenos en diversos campos de la ciencia como la Agricultura,

Química, Medicina, Medio Ambiente, Psicología, Biología, Economía lo que ha supuesto un

gran avance, no solo por los desarrollos matemáticos alcanzados sino también por su

aplicación en situaciones reales. Dichas técnicas requieren de un número suficiente de

observaciones ―precisas‖ y ―fiables‖. Sin embargo no siempre es posible obtener el conjunto

de observaciones requerido, o éstas contienen algún tipo de imperfección a consecuencia de la

imprecisión o vaguedad de los datos. En cualquier caso, los modelos obtenidos a partir de

datos reales (suficientes o no, con imperfecciones o no) deberían proveer de capacidades

predictivas y descriptivas (Crespo, 2002). En los modelos en donde los datos sean

insuficientes o imperfectos, originados por la imprecisión o vaguedad, se ha demostrado que

es útil el uso de un tratamiento difuso o borroso (Sugeno, 1985, B.M.Ayyub, 2001,

B.Izyumov, 2001, Folger, 1988, Nadipuram R, 1999, Boris, R.C. Tsaur, 1999).

El análisis de regresión borrosa ha sido estudiado y aplicado en diferentes áreas tal como la

modelación de datos económicos o financieros (Aguilera Cuevas, 1999), la ingeniería de

software (S. Conte, 1986), el reconocimiento de un patrón de estimación humana (José C

1999).

1.4.1 Regresión borrosa

En la regresión borrosa se asume que la relación entre la variable explicada y las explicativas

es lineal, pero en este caso si se dispone de una muestra 1 1 2 2{( , ),( , ),..., ( , ),...., ( , )}j j n nX Y X Y X Y X Y ,

las posibles divergencias que pudieran surgir entre la j-ésima observación de la variable

dependiente jY y su estimación ˆjY , se expresa mediante una relación borrosa del tipo:

mm xAxAxAAY ...22110 (1.14)

Page 28: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

En (1.11), los coeficientes 0 1 2, , ,..., mA A A A , son números borrosos, por lo que el i-ésimo queda

caracterizado por

}10|)](),([{)}(,{ 21 iiiAi AAAxxAi

(1.15)

Es decir, las divergencias que se producen respecto a la teórica relación lineal no tiene

naturaleza aleatoria, sino borrosa. Así mismo se puede comprobar que el término de error no

queda introducido como sumando en el hiperplano, sino que es incorporado en los coeficientes

miAi ,...,2,1,0, , al asumirse que son números borrosos.

De forma análoga a la técnica de mínimos cuadrados, una vez que se disponga de la muestra,

nuestro objetivo debe ser ajustar los coeficientes iA .

Esta forma de modelación ofrece ciertas ventajas sobre la tradicional técnica de regresión:

1. Las estimaciones que se obtienen después de ajustar los coeficientes borrosos, no serán

variables aleatorias de difícil tratamiento numérico, sino que son números borrosos cuyo

tratamiento es más sencillo.

2. Si el fenómeno de estudio es de carácter económico o social, las observaciones que del

mismo se obtienen son consecuencia de la interacción entre las creencias, expectativas,

etc., entre los agentes que participan en dicho fenómeno y por tanto no es del todo

adecuado modelar dicho fenómeno utilizando la teoría probabilística.

En muchas circunstancias las observaciones de la variable dependiente, de la variable

independiente o de ambas no vienen dadas por un número cierto, sino por un intervalo. Por

ejemplo, el precio que se negocia en los mercados financieros durante una sesión para la venta

de barriles de petróleo o de un determinado activo difícilmente es único, sino que este suele

negociarse dentro de una banda delimitada por un precio máximo y por un precio mínimo.

Para utilizar las técnicas de mínimos cuadrados o la más sofisticada de máximo verosimilitud

deben cuantificarse las observaciones de la variable explicada (y explicativa) a través de un

único número, utilizándose por ejemplo el precio medio negociado, el más asequible o el

último precio en el modelo que se vaya a implementar. Es evidente que este proceder implica

una importante pérdida de información. Para efectuar los métodos de regresión borrosa no

Page 29: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

hace falta reducir el valor de las variables observadas a un número real, cuando son

observados como intervalos, así podremos ajustar la relación funcional que busquemos

trabajando con todos los valores observados siendo posible entonces utilizar toda la

información disponible.

1.4.2 Regresión borrosa posibilística introducida por Hideo Tanaka

Nos ajustaremos a la formulación de Hideo Tanaka(Hideo, 1987, Tanaka Hideo, 1992).

En la relación niparaAxfy ii ,...,1),( se define el problema de regresión general. A partir

de dicha formulación se puede introducir un modelo de regresión borrosa sustituyendo el

número por el número borroso:

( ) (1.16)

Se supone que se tiene un conjunto inicial de n observaciones, donde los valores de entrada

son precisos y están representados en la matriz de valores reales (con i=1...n y j=1...m) y la

variable de salida es imprecisa siendo sus valores sujetos a funciones de pertenencia

triangulares con parámetros

El objetivo principal de la regresión borrosa es encontrar el o los coeficientes representados

por que tengan la menor incertidumbre posible.

En términos más generales, la relación general de regresión niparaAxfy ii ,...,1),( debe

cumplirse en términos borrosos, no sólo para el número borroso sino para sus niveles de h

.

En este estudio la función objetivo f será una función lineal definida por:

m

j

jj xAAAxf1

0 .),(

(1.17)

tendrá una función de pertenencia no simétrica . Las restricciones posibilísticas en

el caso general son:

Page 30: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

niparaphLyXclhLXa ii

m

j

jij

m

j

jij ,...,1)()( 1

0

1

0

(1.18)

niparaqhRyXcrhRXa ii

m

j

jij

m

j

jij ,...,1)()( 1

0

1

0

(1.19)

mjparacrcl jj ,...,00;0 (1.20)

Si se consideran funciones de pertenencia triangulares (no necesariamente simétricas), por

ejemplo, funciones LR, las restricciones posibilísticas (1.17)-(1.18) se reducen a:

niparaphyXclhXa ii

m

j

jij

m

j

jij ,...,1)1())1(00

(1.21)

niparaqhyXcrhXa ii

m

j

jij

m

j

jij ,...,1)1())1(00

(1.22)

Esta última forma es la más habitual de plantear las restricciones posibilísticas de la regresión

borrosa.

1.4.3 Modelo de Regresión Borrosa introducido por Shakouri y Nadimi

En este nuevo enfoque posibilístico se propone una nueva función objetivo que minimiza la

suma de las distancias absolutas entre los centros observados y los valores estimados, en un

óptimo nivel de h. En este enfoque, h está incluido en la función objetivo y se estima de

manera óptima con alta exactitud. De esta manera, se estiman los coeficientes y h al mismo

tiempo.

Para reducir el error global del modelo de salida, se propone la siguiente función objetivo,

basado en una medida de igualdad, al intentar optimizar toda la incertidumbre del modelo

mediante la búsqueda de un valor óptimo para h:

∑ | ( ) | | ( ( ) )| | ( ) | | ( ( ) )| (1.23)

sujeto a:

∑ | ( )|∑ | | | ( )|

, i = 1,2,…, m (1.24)

Page 31: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

∑ | ( )|∑ | | | ( )|

, i = 1,2,…,m (1.25)

;

| | ; a, c R; c 0

En comparación con el enfoque de Tanaka, la formulación del problema es mucho más

compleja(Shakouri and Nadimi, 2009), en el modelo de Tanaka el valor de h es introducido

por el investigador mientras que en este modelo se estiman simultáneamente los coeficientes y

el valor de h. Como la formulación es mucho más compleja puede requerir un mayor tiempo

de solución pero si se utilizan adecuados software de optimización (LINGO, GAMS) la

solución sólo requiere algunos segundos en una computadora moderna.

1.4.4 Modelo de Savic y Pedrycs

El planteamiento de la regresión borrosa de Tanaka está orientado a minimizar la

incertidumbre, no se preocupa por el comportamiento de la estimación de los valores

centrales. Sin embargo en la literatura se puede encontrar un modelo que incorpora una

estimación específica de la tendencia central desarrollado por Savic y Pedrycs (Savic and

Pedrycz, 1992)

Sakawa y Yano (Sakawa and Yano, 1992) propusieron cuatro modelos de regresión

posibilística.

Por otra parte en diversos trabajos se han tomado en consideración los índices de posibilidad y

necesidad de Dubois y Prade al comparar dos números borrosos (Dubois D, 1983).

1. Sakawa y Yano(Sakawa M. Yano, 1992) propusieron cuatro modelos de regresión

posibilística. Considerando la minimización de la siguiente función objetivo

∑ ∑ ( ) | |

, se definen las siguientes restricciones con el índice de

posibilidad

( ) (1.26)

2. Considerando la minimización de la misma función objetivo se definen las

restricciones con el índice de necesidad

Page 32: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

( ) (1.27)

3. Considerando la maximización de la función objetivo ∑ ∑ ( ) | |

, se

definen las restricciones:

( ) (1.28)

4. Considerando la minimización de la misma función objetivo bajo los conjuntos de

restricciones:

∑ ( )∑ | |

(1.29)

∑ ( )∑ | |

(1.30)

Los autores plantean un modelo multi-objetivo para abordar estos cuatro problemas, puesto

que junto a la función objetivo indicada, plantean maximizar el valor de h. Sin embargo este

modelo ha sido muy criticado(Redden and Woodall, 1996) por ser muy sensible a los puntos

extremos y por producir en ciertas condiciones todos los estimadores como números

precisos(Modarres et al., 2004).

1.5 Comparación entre la Regresión Clásica y la Regresión Borrosa

La regresión borrosa permite el manejo de cantidades afectadas por imprecisión e

incertidumbre que no son manejables usando la regresión probabilística. Cuando se dispone de

pocas observaciones para hacer una regresión probabilística se añade a este problema la

dificultad de poder verificar los supuestos. En esta situación una alternativa de modelación

ventajosa es un modelo borroso que pueda incorporar un nivel de confianza posibilístico

(Chang and Ayyub, 2001, Izyumov et al., 2001, Kim et al., 1996, Klir and Folger, 1988,

Nadipuram, 1999, Sugeno, 1985, Tsaur and Wang, 1999).

La presencia de la incertidumbre en la regresión probabilística queda plasmada en los

intervalos de confianza, generalmente con un nivel del 95%, lo que es atribuido a factores

aleatorios. Esta es la única forma de incertidumbre que maneja la teoría de probabilidades.

Page 33: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

La información que se dispone a priori de los problemas, generalmente se traduce en

restricciones a los modelos, éstas ayudan a obtener estimaciones más ajustadas a la realidad.

Estas restricciones también se pueden incorporar en algunos modelos de regresión

probabilística, pero con consecuencias para los supuestos de la fundamentación teórica de

tales modelos. Esto no ocurre en la regresión borrosa, donde la presencia de restricciones es

consustancial a su formulación por no estar limitada su formulación a tantos supuestos como

los de la regresión probabilística.

En el análisis de regresión borrosa, las desviaciones entre los valores de pertenencia

observados y los valores de pertenencia estimados se asume que dependen de la incertidumbre

de la estructura del modelo. En cambio en el análisis de regresión lineal clásica, las

desviaciones se suponen causadas por errores, de origen aleatorio, en las observaciones.

1.6 Medidas de bondad de ajuste en la regresión lineal múltiple

La regresión probabilística utiliza como principal indicador el coeficiente de determinación R2

(R-cuadrado) para indicar el porcentaje de la varianza de la variable dependiente que es

explicado por la regresión y el valor t para cada coeficiente estimado como una medida de la

significancia de la variable correspondiente.

Una vez ajustada la recta de regresión a la nube de observaciones es importante disponer de

una medida que mida la bondad del ajuste realizado y que permita decidir si el ajuste lineal es

suficiente o se deben buscar modelos alternativos. Como medidas de bondad del ajuste se

utilizan: el ya mencionado , el ajustado y los criterios de Akaike y criterio Bayesiano de

Schwarz, entre otros. A continuación se brinda una breve explicación de cada uno de ellos.

1.6.1Coeficiente de determinación

El coeficiente de determinación representa la proporción de la varianza total que es explicada

por la regresión.

(1.31)

Donde es la cantidad de variables predictoras, SCE es la suma de cuadrados del error y SCT

es la suma cuadrada total.

Page 34: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

El es una medida que puede utilizar se para determinar si se ha hecho un buen ajuste de X e

Y. Este valor varía entre 0 y 1. Por ejemplo, si puede afirmarse que el 90% de la

varianza total es explicada por la suma de cuadrados de la regresión, por lo tanto existe una

fuerte relación entre X e Y.

El valor del aumenta en la medida en que se incrementan las variables en el modelo. Por

tanto, no es correcto comparar el valor del de dos regresiones con un número de variables

explicativas diferentes.

1.6.2 Coeficiente de determinación ajustado

Elimina las desventajas del criterio anterior debido que el valor del coeficiente no

necesariamente aumenta con el número de variables en el modelo.

( )

( )

(1.32)

Donde n es la cantidad de observaciones.

Este criterio penaliza modelos con muchas variables predictoras por lo que es una opción

mejor que el para problemas bioinformáticos y quimioinformáticos que se caracterizan por

tener un gran número de variables predictoras.

1.6.3 Criterio de Akaike (AIC) y criterio Bayesiano de Schwarz (SBC)

Estos criterios también penalizan los modelos con muchas variables. Las medidas están dadas

por las ecuaciones:

( ) ( ) (1.33)

( ) ( ) ( ) (1.34)

Notar que para estos dos criterios el primer término es ( ). Este término decrece en

la medida en la que el número de variables en el modelo se incrementa.

Page 35: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

1.7 Medidas de bondad de ajuste en la regresión borrosa

Para dimensionar la calidad del ajuste de cualquier regresión borrosa, se deben definir medidas

que muestren la similitud o divergencia entre los números observados y los números difusos

estimados.

En el contexto de regresión posibilística, se han desarrollado muy pocas medidas de bondad de

ajuste siendo la más conocidas la medida de divergencia de Kim y Bishu, que tiene el grave

inconveniente, de que no está normalizada, puesto que el numerador es independiente del

denominador. La otra medida propuesta en la literatura, el R2 híbrido sigue sin estar

normalizado, puesto que no es posible determinar su valor máximo. Tampoco el R2 tradicional

probabilístico esta normalizado en el ámbito difuso.

No son muchos los estudios de regresión borrosa que incorporan un estudio de bondad y ajuste

de los métodos propuestos. Incluso un extenso estudio comparativo (B.M.Ayyub, 2001), no

utiliza ningún índice de evaluación.

En este apartado, vamos a presentar un conjunto de medidas de bondad de ajuste, que controlan

diversos aspectos de la similitud entre dos números difusos y que nos van a servir para evaluar

la calidad de una estimación de regresión difusa. Luego de haberlas definido, se realizará a una

calificación de tales medidas para saber hasta qué punto cumplen con su objetivo.

Para considerar, en el ámbito de las comparaciones entre números difusos, medidas de ajuste

entre los datos originales y los datos estimados por la regresión difusa, los indicadores que se

definen parten de medidas de similitud (o divergencia) generales entre números (Zwick et al.,

1987)

La medida de Kim y Bishu (Kim B, 1998), empleada también por Kao y Chyu (Kao C, 2002 )

y Kao y Lin(Kao C, 2005) tiene en cuenta la divergencia entre el valor observado y el valor

estimado:

dxxxD

ii

ii

YSopYSop

YYi

ˆ

ˆ |)()(| (1.35)

También se considera una medida de divergencia relativa para cada una de las observaciones

estimadas:

Page 36: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

dxx

DE

YSop Y

i

i

i

)( (1.36)

En(Chang Y, 2001b) se tiene como objetivo de la investigación construir índices de bondad de

ajuste. Estos índices son aplicados en (Mogilenko A, 2003). En esta propuesta se define un

coeficiente de Correlación híbrido como:

( ) ∑ ( )

∑ ( )

(1.37)

Donde representa el valor central de los datos estimados, yi los valores centrales observados

y la media de los centro de los datos observados.

Este indicador es idéntico al coeficiente de determinación de la regresión probabilística (R2),

con la diferencia que aquí se construye con la aritmética borrosa ponderada. Sin embargo el

índice puede tomar valores mayores que 1 (Chang Y, 2001a, Mogilenko A, 2003) lo que lo

hace menos atractivo que otros índices que fluctúan entre 0 y 1.

En (Hojati M., 2005) se pueden encontrar tres medidas de bondad y ajuste:

1. El porcentaje promedio de intervalos contenidos en los intervalos estimados.

2. El porcentaje promedio de los intervalos estimados contenidos en los intervalos

observados.

3. Una medida de similitud definida gráficamente como la proporción entre la

intersección de la función de pertenencia del dato estimado y del dato observado y la

unión de dichos números.

En (Sergio Donoso, 2006) se pueden encontrar seis medidas de bondad y ajuste normalizadas

(varían entre 0 y 1) que controlan diversos aspectos de la similitud entre dos números borrosos

y que evalúan la calidad de una estimación de regresión borrosa. Además se realiza una

calificación para saber hasta qué punto cumplen con su objetivo:

1. R2 Borroso mide las diferencias cuadráticas del valor central observado con el

valor central estimado.

Page 37: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

2. SIM1 pondera las diferencias entre las distribuciones de posibilidad de iY e iY

incluyendo la totalidad de las funciones de pertenencia.

3. SIM2 mide las diferencias en el soporte, tanto del punto central como sus dos

extensiones, entre los valores de salida y sus respectivas estimaciones.

4. SIM3 mide las diferencias tanto de las extensiones como de la tendencia central.

5. SIM4 mide la diferencia máxima de las extensiones de los datos de entrada con sus

respectivas estimaciones.

6. SIM5 mide la proximidad de las funciones de pertenencia con un solo punto, el

supremo de la intersección.

Se considera a la representación del número borroso estimado ( ), a Yi a la

representación del número borroso observado (p, y, q).

1.7.1 Medidas de ajuste de tendencia central

Para medir la calidad del ajuste de la tendencia central, se conoce de la regresión probabilística

el coeficiente de determinación, llamado también R-cuadrado, que varía entre 0 y 1.

Esta medida parte del concepto de que la varianza total de las observaciones de la variable

dependiente se puede descomponer en la suma de la varianza explicada más la no explicada,

interpretándose el coeficiente de determinación como la proporción de la varianza total que la

ecuación de regresión puede explicar. Formalmente se tiene que:

n

i

i

n

i

i

yy

yy

totalVarianza

plicadaexVarianzaR

1

2

1

2

2

)(

)(

(1.38)

En el caso borroso se propone un indicador R2 de tendencia central, cuya principal

característica es que, a medida que las diferencias cuadráticas entre el valor observado y el

valor central estimado tiende a cero, el indicador tenderá a uno:

Page 38: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

)

)(

)(

1,0max(

1

2

1

2

2

n

i

i

n

i

ii

yy

yy

BorrosoR (1.39)

Donde es el promedio de los números borrosos observados iy .

Este indicador toma valores entre 0 y 1. Como el denominador que aparece en la expresión es

el mismo que el denominador del coeficiente de determinación probabilístico, se puede

mantener la interpretación de éste, en el sentido de que es una medida de

proporción de la parte de la variación cuadrática de los iy que es explicada por la regresión.

Por ejemplo, si resulta 0,80, lo interpretamos como que la regresión explica el

80% de la variación de los datos centrales iy .

1.7.2 Índice de Bondad del Ajuste SIM1

Si se considera el cardinal escalar de un conjunto borroso A como:

| | ∫ ( ) (1.40)

Se puede definir el indicador de similitud iS entre Yi, de la siguiente forma:

{

| |

| | (1.41)

Este indicador varía entre 0 (cuando las funciones de pertenencia son disjuntas) y 1 (cuando

las funciones de pertenencia son idénticas) y se denomina de manera general ),( BAS para

dos números borrosos A y B .

Para el conjunto de los n datos de la regresión, se calcula la medida de similitud SIM1 con el

siguiente promedio:

n

S

SIM

n

i

i 1

1 (1.42)

Page 39: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

que también varía entre 0 y 1.

1.7.3 Índice de Bondad del Ajuste SIM2

Otras medidas de bondad de ajuste es la SIM2y se define:

{| ( )| | ( )| (| | | |)

( )

(1.43)

donde

( ) (1.44)

( ) (1.45)

Para el conjunto de todos los datos de una regresión se define el indicador de bondad de ajuste

global:

∑ ( )

(1.46)

1.7.4 Índice de bondad del ajuste SIM3

Este índice mide las diferencias tanto de las extensiones como de la tendencia central. Por lo

tanto de esta manera se define:

( ) | ( )| | ( )| | |

( ) (1.47)

donde (

) (1.48)

(

) (1.49)

Con esta definición de se construye el índice de bondad de ajuste Sim3 que varía entre 0 y

1:

n

R

SIM

n

i

i

1

3

)1(

(1.50)

Page 40: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

1.7.5 Índice de Bondad del Ajuste SIM4

Otra medida de similitud basada en la métrica de Hausdorff está dada por la relación

{ (| ( )| | ( )|)

( )

(1.51)

La no simetría de las funciones de pertenencia puede producir algunas inconsistencias en la

medición del indicador Ui ya que en un contexto en que el ajuste o proximidad entre Yi y

mejora, porque un extremo de la función de pertenencia se acerca al valor central de ambas

funciones de pertenencia, el indicador muestra una mayor divergencia.

Considerando Ui para el conjunto de n observaciones, se crea otro índice de bondad de ajuste

entre 0, cuando los n números observados se encuentran muy distantes de los n números

estimados, y 1, cuando las funciones de pertenencia de las n parejas de números difusos son

iguales. Su formulación es la siguiente:

∑ ( )

(1.52)

1.7.6 Índice de Bondad del Ajuste SIM5

Es una medida basada sólo en un punto de las funciones de pertenencia: el supremo de la

intersección. Esta medida se define:

( ( )) (1.53)

y calcula un valor de pertenencia (entre 0 y 1) para el dato i. Dados dos conjuntos difusos

se tiene que el valor de ellos es 1, por los que las propiedades del indicador de

bondad del ajuste son aplicables a este índice.

La determinación de como cruce de las funciones de pertenencia se ubica entre los dos

puntos centrales del número observado y del número borroso estimado, por lo que tiene una

directa relación con dichos dos puntos y es, por lo tanto, un indicador aproximado del ajuste

de la tendencia central.

Page 41: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

Por lo general, el comportamiento de los extremos no afecta a especialmente si

consideramos funciones de pertenencia no simétricas. Por este motivo, en un contexto de

estimación posibilística, puede resultar distinto a los índices de bondad de ajuste definidos

anteriormente.

Sin embargo, en una estimación no posibilística en que las extensiones estimadas son más

pequeñas puede ocurrir que el sea menor que el producido en la estimación posibilística,

dado que ante soportes mucho más pequeños, el supremos de la intersección de las funciones

de pertenencia no garantiza ser alto aunque los puntos centrales estén próximos.

Tomando la definición de puede extenderse para el conjunto de los datos de la regresión, a

otra medida de bondad de ajuste que varía entre 0 y 1:

∑ ( )

(1.54)

1.7.7 Índice integrado

Se propone un indicador integrado de similitud entre los índices SIM1, SIM2, quedando

definido por:

(1.55)

1.8 Procesamiento estadístico

A continuación se describen los procesamientos estadísticos que se utilizaron en la

investigación.

1.8.1 Análisis descriptivo de datos

El primer paso en una investigación estadística consiste en explorar o describir los datos

recolectados. Este proceso puede ser útil incluso para depurar errores. A los datos recolectados

se les llama datos primarios. Ellos aún no han pasado por ningún tipo de procesamiento.

Medidas de tendencia central

media: es el promedio clásico que todos conocemos desde la primaria.

Page 42: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

n

x

x

n

i

i 1

(1.56)

La media es susceptible a observaciones extremas, puede verse altamente afectada por ellas.

mediana: valor que divide a la muestra en dos partes iguales.

moda: valor que más se repite, (valor de mayor frecuencia).

cuartiles: son tres valores que dividen a la muestra en 4 partes iguales

percentiles: valores que dividen a la muestra en 100 partes iguales

Medidas de dispersión

varianza: medida cuadrática de variabilidad. Es la media de las desviaciones al cuadrado

de cada valor xi con respecto a la media aritmética del conjunto.

n

i

i xxn

XV1

21

0XV (1.57)

desviación típica: medida de variabilidad. XVs

0s (1.58)

coeficiente de variación: medida de dispersión relativa

(1.59)

Rango o amplitud: medida de variabilidad rango = máximo – mínimo

1.8.2 Gráficos de cajas y bigotes

El diagrama de caja es una presentación visual que describe al mismo tiempo varias

características importantes de un conjunto de datos, tales como el centro, la dispersión, la

simetría o asimetría y la identificación de observaciones atípicas. El diagrama de caja

representa los tres cuartiles, y los valores mínimo y máximo de los datos sobre un rectángulo

(caja), alineado horizontal o verticalmente.

Construcción:

Page 43: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

1. El rectángulo delimita el rango intercuartílico con la arista izquierda (o inferior)

ubicada en el primer cuartil Q1, y la arista derecha (o superior) en el tercer cuartil Q3.

2. Se dibuja una línea a través del rectángulo en la posición que corresponde al segundo

cuartil (que es igual al percentil 50 o a la mediana), Q2 = Md.

3. De cualquiera de las aristas del rectángulo se extiende una línea, o bigote, que va

hacia los valores extremos (valor mínimo y valor máximo). Estas son observaciones

que se encuentran entre cero y 1.5 veces el rango intercuartílico a partir de las aristas

del rectángulo.

4. Las observaciones que están entre 1.5 y 3 veces el rango intercuartílico a partir de las

aristas del rectángulo reciben el nombre de valores atípicos. Las observaciones que

están más allá de tres veces el rango intercuartílico a partir de las aristas del

rectángulo se conocen como valores atípicos extremos. En ocasiones se emplean

diferentes símbolos (como círculos vacíos o llenos), para identificar los dos tipos de

valores atípicos.(R., 2012)

También los diagramas de caja reciben el nombre de diagramas de caja y bigotes. (Figura 1.4)

Fig 1.4 Gráfico de cajas y bigotes

Page 44: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

1.8.3 Gráficos de máximo, mínimo y cierre

La categoría de gráficos de máximos y mínimos abarca a todos los gráficos para los que se

muestra el intervalo de datos comprendido entre dos valores: el mínimo y el máximo de una

variable. En un gráfico de máximo-mínimo-cierre, se muestra un valor adicional —el cierre—.

El valor de cierre es siempre opcional, en esta investigación siempre se consideró como cierre

el valor promedio. (ver Figura 1.5)

Fig 1.5 Gráfico de máximo, mínimo y cierre

1.8.4 Pruebas no paramétricas

Las pruebas no paramétricas son análisis estadísticos libres de distribución. La estadística no

paramétrica es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya

distribución no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser

definida a priori, pues son los datos observados los que la determinan. Son ampliamente

utilizadas en numerosas ramas de las ciencias.(Capote Pacareu and Borrego Clavero, 2013)

Prueba de Mann Whitney

Existen varias pruebas no paramétricas para comparar las distribuciones en grupos

independientes o en momentos diferentes. Se dice que tales test son alternativas no

paramétricas de los test paramétricos de Student.

Page 45: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

La alternativa no paramétrica generalmente usada del test de Student para la comparación de

muestras independientes es el test de Mann-Whitney (denominado también test de suma de

rango de Wilcoxon).

Sean X1 y X2 variables ordinales independientes con distribución cualquiera desconocida.

Supongamos que queremos verificar la hipótesis de que sus dos distribuciones son

coincidentes, en el sentido de que los rangos de los valores que aparecen en las respectivas

muestras no difieren significativamente.

La hipótesis de nulidad supondrá que X1 y X2 han sido tomadas de la misma población, o sea

que tienen la misma distribución. La hipótesis alternativa enuncia lo contrario.

El test se basa en el ranqueo de los datos de la muestra total (compuesta de dos grupos) y la

observación de sí estos valores ranqueados de un grupo y del otro se intercalan adecuadamente

como una medida de que las distribuciones no difieren.

El criterio de Mann - Whitney parte de determinar el número de veces que un valor del grupo

más pequeño precede a un valor del grupo más grande. Si los volúmenes de las muestras son

iguales analiza las dos orientaciones y toma la menor.

Para muestras pequeñas se puede determinar la distribución del estadístico U condicionada a

la hipótesis fundamental y construir un test con probabilidad exacta. Para muestras grandes, a

partir de U se construye el estadígrafo:

√ ( )

(1.60)

donde n1 es el volumen de la muestra más pequeña y n2 el de la más grande y se demuestra

que Z tiene aproximadamente distribución normal normalizada si la hipótesis fundamental es

cierta.

El criterio de la suma de rango de Wilcoxon consiste en calcular la suma W de los rangos para

el grupo de volumen menor (o para el primer grupo, si las dos muestras tienen igual volumen).

Si la hipótesis fundamental es cierta, esta suma W debería ser aproximadamente la mitad de la

suma total de los rangos en la muestra completa.

Page 46: Licenciatura en Ciencia de la Computación

CAPÍTULO 1

Para muestras pequeñas, la distribución de W se determina con precisión y se pude construir

un test exacto. Para muestras grandes, se construye el estadístico.

( )

√ ( )

(1.61)

que tiene también aproximadamente distribución normal normalizada cuando la hipótesis

fundamental es cierta.

Se demuestra que ambos criterios conducen a la misma significación y por ello se habla

indistintamente del Test de Rangos de Mann-Whitney o del Test de Suma de Rangos de

Wilcoxon. La mayoría de los paquetes estadísticos lo conocen como el test de Mann-Whitney

para distinguirlo del test de Wilcoxon de diferencias ranqueadas.

1.9 Consideraciones finales

En el capítulo se ha mostrado, de una manera resumida, definiciones y conceptos principales

de la teoría de conjuntos borrosos, regresión y principales medidas de bondad de ajuste

reportadas en la literatura especializada.

Además se muestra una breve panorámica de los procedimientos estadísticos que se utilizarán

posteriormente. Entre ellos se encuentran: análisis descriptivo de datos, algunos tipos de

gráficos como diagramas de cajas y bigotes y gráficos de máximo, mínimo y cierre, así como

pruebas no paramétricas de comparación de grupos independientes.

Page 47: Licenciatura en Ciencia de la Computación

CAPÍTULO 2

Capítulo 2 Análisis e implementación del Software “GOF 1.0”. Diseño

de experimentos

Este capítulo aborda las generalidades del análisis, diseño e implementación del software

―GOF 1.0‖. Se expone la plataforma de desarrollo y los diagramas creados para las fases de

análisis y diseño de la herramienta.

2.1 Análisis de la herramienta

El lenguaje UML (Unified Modeling Language) (Hung T. Nguyen 2006) se utilizó para el

diseño de la herramienta GOF versión 1.0, este tiene como objetivos principales la

especificación, visualización, construcción y documentación de los productos de un sistema de

software. Este lenguaje es usado por el RUP (Rational Unified Process) (Redden D, 1996)

como lenguaje de modelado para lo cual se basa en todos sus tipos de diagramas, que

constituyen diferentes vistas del modelo del producto. La Figura 2.1ilustra los diagramas que

componen la estructura de un producto escrito por el lenguaje UML:

Fig 2.1 Diagrama de UML

Page 48: Licenciatura en Ciencia de la Computación

CAPÍTULO 2

De los diagramas UML que muestra la Figura anterior, se emplean: Diagrama de Casos de

Uso, Diagrama de Clases y Diagrama de Actividad.

La herramienta empleada para el modelado de todos los diagramas correspondientes a las

fases de análisis y diseño fue Visual Paradigm versión 9.0 para UML.

2.2 Diagrama de casos de uso

Los modelos de casos de uso proporcionan un medio sistemático e intuitivo de capturar

requisitos funcionales del sistema basándose en los requerimientos de los usuarios. Ellos

dirigen todo el proceso de desarrollo de un software ya que constituyen el punto de partida

para llevar a cabo la mayoría de las actividades: el análisis, diseño y prueba del software

(Redden D, 1996). Este modelo se realiza identificando cada actor del sistema como los

posibles usuarios para los cuales está realizado el mismo.

La herramienta ―GOF 1.0‖ puede ser utilizado por cualquier tipo de usuario, ya sea estudiante

o especialista en computación o matemáticas. En la Figura 2.2 se nombra a este actor como

usuario.

Fig 2.2 Diagrama de casos de uso

Este software tiene un solo caso de uso, es aquel en que el usuario (actor del sistema) puede

calcular las diferentes medidas de bondad de ajuste (SIM2, SIM3, SIM4, Borroso,

Correlación híbrido y un índice integrado) para su posterior análisis.

2.3 Diagrama de clases

La técnica del diagrama de clase se ha vuelto medular en los métodos orientados a objetos. El

diagrama de clase describe los tipos de objetos que hay en un sistema y las diversas clases

Page 49: Licenciatura en Ciencia de la Computación

CAPÍTULO 2

derelaciones estáticas (asociaciones, subtipos) que existen entre ellos. También muestra los

atributos y operaciones de una clase y las restricciones a que se ven sujetos, según la forma en

que se conecten los objetos (Modarres M., 2004)

En la Figura 2.3 se ilustra la jerarquía de clases, con sus atributos y métodos más relevantes

mediante un diagrama de clases en UML.

Fig 2.3 Diagrama de clases

Se diseñaron cuatro clases (Procedimientos, Resultados, TrabajoFicheros, nbt).

En la clase Procedimientos se implementaron las diferentes medidas de bondad de ajuste

como (SIM2, SIM3, SIM4, Borroso, Correlación híbrido y una Media aritmética entre los

índices).

La clase Resultados se implementó con el objetivo de almacenar todos los resultados que

fuesen obteniéndose a medida que se calculan las diferentes medidas.

Page 50: Licenciatura en Ciencia de la Computación

CAPÍTULO 2

Por su parte la clase TrabajoFichero, tiene como objetivo el manejo y la manipulación de

todos los ficheros que son utilizados en el software tanto para cuando se carga un fichero

como para cuando se carga una dirección donde haya un lote de varios ficheros.

Para mostrar los resultados de los cálculos hechos por el usuario, primeramente, debemos

guardar los valores originales que son entrados al sistema, pues estos son modificados en la

lectura del fichero por el constructor de la clase nbt, para no perder esta información y

podérsela ofrecer al usuario en la salida del software, se crea la variable cad que es una lista de

tipo String que se encuentra dentro del método leerFichero, la cual almacena línea por línea

los valores original, estos son agregados posteriormente a datos, que es un arreglo de tipo

String que va a contener todos los números originales de todos los ficheros procesados.

Y por último, está la clase nbt, que no es más que la encargada de tener la representación de

los que es un número borroso triangular, así como su transformación para poder utilizarlo en el

software.

2.4 Diagrama de Actividades

Los Diagramas de Actividad son uno de los tres diagramas de UML (Unified Modeling

Language), junto con los Diagramas de Estado y los Diagramas de Secuencia, utilizados para

la descripción del comportamiento dinámico de un sistema. Estos diagramas utilizan clases del

metamodelo de UML que se encuentran en los paquetes de la especificación dedicados a la

descripción de comportamientos.

El objetivo de estos diagramas es ―describir lógica procedural, flujos de trabajo y procesos de

negocio‖(Pérez, 2010).

En la Figura 2.4 se muestra el diagrama de actividad para el software.

Page 51: Licenciatura en Ciencia de la Computación

CAPÍTULO 2

Fig 2.4Diagrama de Actividad

2.5 Implementación del software

La programación Orientada a Objetos (POO) es el método de implementación en el que los

programas se organizan como colección corporativas de objetos, cada uno de los cuales

representa una instancia de una clase (Zadech, 1968).

El enfoque orientado a objetos ha sido un paso evolutivo en el análisis, diseño e

implementación de software. Se utiliza por sus características para lograr sistemas poco

resistentes a los cambios y fácilmente mantenible, lo cual constituye una valiosa característica

en cualquier sistema.

Usando un enfoque de programación orientado a objetos se implementó ―GOF 1.0‖.

Plataforma de desarrollo del software

Se utilizó el lenguaje de programación Java desarrollado por la empresa Sun Microsystems

para la implementación del software ―GOF1.0‖. Java es en la actualidad software libre, lo que

garantiza el desarrollo de aplicaciones en los países menos desarrollados. Este lenguaje fue

creado para trabajar con objetos e independiente de la plataforma. Al compilar un programa,

Java genera un pseudocódigo para una máquina genérica, que corre indistintamente en

cualquiera de los ordenadores disponibles en el mercado, así funcionen sobre Windows,

Linux, Mac u otro sistema operativo. (Denoda Pérez, 2011) Es un lenguaje robusto justamente

por la forma en que está diseñado, no permite el manejo directo del hardware ni de la

Page 52: Licenciatura en Ciencia de la Computación

CAPÍTULO 2

memoria, implementa mecanismos de seguridad que limitan el acceso a recursos de las

máquinas donde se ejecuta. Además, con el JDK (Java Development Kit) vienen incorporadas

muchas herramientas, entre ellas un generador automático de documentación.

Entorno de desarrollo

Existen muchos Entornos de Desarrollo Integrado (IDE, por sus siglas en inglés) que permiten

el desarrollo de proyectos en Java. De los IDE disponibles para Java se seleccionó el NetBeans

versión 7.1.2 pues presenta un ambiente de programación cómodo, que compila en tiempo real

y es fácil de usar para depurar un programa.

2.6 Diseño de los experimentos

En esta investigación se diseñan varios experimentos que permitirán determinar el

comportamiento de los índices de bondad de ajuste de la regresión borrosa. Se conforman dos

tipos de experimentos, el primero denominado Experimento 1se corresponderá con datos

simulados que presentan un buen y mal ajuste de la regresión clásica; y Experimento 2, es

una variante de mantener el mismo centro para todos los números generados pero haciendo un

cambio en las extensiones para determinar si esto afecta la bondad del ajuste.

A continuación se explica cómo se diseñaron estos experimentos para una y dos variables

independientes y la variable dependiente borrosa triangular.

2.6.1 Experimento 1 “Buen y Mal Ajuste”

Una variable independiente (Regresión lineal simple)

Se generó aleatoriamente una serie de números borrosos triangulares de una variable con buen

ajuste de la siguiente manera (ver Tabla 2.1)

Tabla 2.1 Generación del experimento 1, para una variable con buen ajuste

Variable Nombre Forma de cálculo

X1 Variable independiente Generado aleatoriamente

siguiendo una distribución

uniforme

Page 53: Licenciatura en Ciencia de la Computación

CAPÍTULO 2

Y

Variable dependiente

número borroso triangular

observado

En la forma Y=a1, a2, a3

a2=x1+2*Valor_aleatorio

a1= a2-2*Valor_aleatorio

a3=a2+2*Valor_aleatorio

Se tomó el valor central de la variable dependiente a2 se aplicó una regresión clásica con el

objetivo de corroborar que el valor de R2 brindara buenos valores (Tabla 2.2)

Tabla 2.2 Regresión clásica para buen ajuste

Obsérvese que el valor de R2=0,954 es muy elevado. Esto indica que el modelo hallado es

muy bueno. El R2

ajustado=0,953 que también está muy cercano a la unidad.

Se generó aleatoriamente una serie de números borrosos triangulares de una variable con mal

ajuste de la siguiente manera (Tabla 2.3)

Tabla 2.3 Generación del experimento 1, para una variable con mal ajuste

Variable Nombre Forma de cálculo

X1 Variable independiente Generado aleatoriamente

siguiendo una distribución

uniforme

Y

Variable dependiente

número borroso triangular

observado

En la forma Y=a1, a2, a3

a2=x1+2*Valor_aleatorio

a1= a2-2*Valor_aleatorio

a3=a2+2*Valor_aleatorio

Se tomó el valor central de la variable dependiente a2 se aplicó una regresión clásica con el

objetivo de confirmar que el valor de R2 ofreciera malos resultados. (Tabla 2.4)

Tabla 2.4 Regresión clásica para mal ajuste

Page 54: Licenciatura en Ciencia de la Computación

CAPÍTULO 2

Obsérvese que el R2=0,001 está muy cerca de 0, Esto es un indicador de que el modelo lineal

hallado no es bueno.

Dos variables independientes (Regresión lineal múltiple)

Se generan dos variables independientes X1, X2, y luego para formar los números borrosos

triangulares se utilizó la siguiente fórmula (ver Tabla 2.5)

Tabla 2.5 Generación del experimento 1 para 2 variables con buen ajuste

Variable Nombre Forma de cálculo

X1 Variable independiente Generado aleatoriamente

siguiendo una distribución

uniforme

X2 Variable independiente Generado aleatoriamente

siguiendo una distribución

uniforme

Y

Variable dependiente, número

borroso observado

En la forma Y=a1, a2, a3

a2=X1+X2+Valor_aleatorio

a1=a2-2*Valor_aleatorio

a3=a2+2-Valor_aleatorio

Se tomó el valor central de la variable dependiente a2 se aplicó una regresión clásica con el

objetivo de garantizar que el valor de R2 brindara buenos valores (Tabla 2.6)

Tabla 2.6 Regresión lineal clásica para buen ajuste con 2 variables

Obsérvese que el valor de R2=0,996 está muy cercano a la unidad. Esto indica que el modelo

hallado es muy bueno. El R2

ajustado=0,992 es igualmente bueno.

Se generó aleatoriamente una serie de números borrosos triangulares de dos variables con mal

ajuste de la siguiente manera (ver Tabla 2.7)

Page 55: Licenciatura en Ciencia de la Computación

CAPÍTULO 2

Tabla 2.7Generación del experimento 1 para 2 variables con mal ajuste

Variable Nombre Forma de cálculo

X1 Variable independiente Generado aleatoriamente

siguiendo una distribución

uniforme

X2 Variable independiente Generado aleatoriamente

siguiendo una distribución

uniforme

Y

Variable dependiente, número

borroso observado

En la forma Y=a1, a2, a3

a2= 2*cos X1*sen X2+13+ Valor

aleatorio

a1=a2-2*Valor_aleatorio

a3=a2+2-Valor_aleatorio

Se tomó el valor central de la variable dependiente a2 se utilizó una regresión clásica con el

objetivo de certificar que el valor de R2ofreciera malos resultados. (Tabla 2.8)

Tabla 2.8 Regresión lineal clásica para mal ajuste con 2 variables

En esta ocasión el R2=0,087 está muy cercano a cero. Esto indica que el modelo hallado no es

adecuado, evidenciando un mal ajuste.

2.6.2 Experimento 2 “Extensiones cercanas y alejadas”

Se generaron aleatoriamente números borrosos triangulares de una y dos variables de la

siguiente manera:

Una variable independiente (Regresión lineal simple)

Se creó una variable independiente X1, y luego para formar los números borrosos triangulares

se utilizó la siguiente fórmula (ver Tabla 2.9):

Page 56: Licenciatura en Ciencia de la Computación

CAPÍTULO 2

Tabla 2.9 Generación de experimento 1 con una variable con extensiones cercanas y alejadas

Variable Nombre Forma de cálculo

X1 Variable independiente Generado aleatoriamente

Y

Variable dependiente número

borroso observado

En la forma Y=a1, a2, a3

a2= X1+valor

aleatorio+3*Valor aleatorio

a1= a2-2*Valor aleatorio

a3=a2+2*Valor aleatorio

Se tomó el valor central de la variable dependiente a2 se utilizó una regresión clásica con el

propósito de verificar que el valor de R2 ofreciera buenos valores (Tabla 2.10).

Tabla 2.10 Regresión lineal clásica

El valor de R2=0,977 está muy cercano a la unidad, lo que pone de manifiesto la calidad del

modelo hallado. El R2

ajustado=0,954 es igualmente bueno.

Dos variables independientes (Regresión lineal múltiple)

Se crearon dos variables independientes X1, X2, y luego para formar los números borrosos

triangulares se utilizó la siguiente fórmula (ver Tabla 2.11):

Tabla 2.11 Generación del experimento 2 con dos variables con extensiones cercanas y alejadas

Variable Nombre Forma de cálculo

X1 Variable independiente Generado aleatoriamente

X2 Variable independiente Generado aleatoriamente

Y

Variable dependiente,

número borroso observado

En la forma Y=a1, a2, a3

a2=2*X1+3*X2+Valor_aleatorio

a1=a2-2*Valor_aleatorio

a3=a2+2-Valor_aleatorio

Se muestra en la Tabla 2.12 la regresión lineal múltiple para el resumen del modelo con dos

variables.

Page 57: Licenciatura en Ciencia de la Computación

CAPÍTULO 2

Tabla 2.12 Regresión múltiple

Al igual que en las otras ocasiones, el valor del R2=0,996 es alto, lo que evidencia la buena

calidad del modelo.

Posteriormente se procedió a crear varios ficheros con dichos números y se procesaron

utilizando el software efuzzy 1.0 mediante una Regresión Lineal Borrosa Posibilística.

Tomamos los datos obtenidos y lo pasamos como ficheros de entrada al software GOF 1.0,

para finalizar se analizan dichos resultados con varios test (pruebas) no paramétricos y

mediante gráficos de cajas y de barras para un mejor entendimiento.

2.7 Consideraciones finales

En este capítulo se mostraron las principales generalidades del diseño, implementación y

análisis del software ―GOF 1.0‖. Se mostraron los diagramas creados para las fases de análisis

y diseño de la herramienta que son diagrama de casos de uso, diagrama de clases y diagrama

de actividad. Se explicó brevemente cada uno de ellos.

Además se presenta en detalle el diseño de los dos grupos de experimentos realizados en la

investigación:

Experimento 1: Datos generados con ―buen‖ y ―mal ajuste‖ para una y dos variables

independientes.

Experimento 2: Datos generados con extensiones cercanas y alejadas para una y dos

variables independientes.

Page 58: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Capítulo 3 Manual de usuario y Análisis de los Resultados

En el presente capítulo se realiza una presentación al usuario de las facilidades y

funcionalidades del software ―GOF 1.0‖. Se efectúa un análisis de las opciones y modo de uso

de cada una de ellas, lo cual constituye una guía para el trabajo con el software. Se efectúa un

estudio acerca de los experimentos realizados utilizando diversos procesamientos estadísticos.

3.1 Manual de Usuario

El software GOF versión 1.0 es un sistema que permite calcular medidas de bondad de ajuste

para la regresión borrosa. El usuario puede obtener, después de haber cargado correctamente

el fichero o los ficheros con los valores observados y estimados proporcionado por el software

efuzzy v1.0 mediante una regresión borrosa posibilística, diferentes medidas de bondad de

ajuste: Borroso, SIM2, SIM3, SIM4, Correlación híbrido, y una Media de los índices para su

posterior análisis estadístico. Esta herramienta está desarrollada completamente en Java.

3.1.1 Requerimientos del sistema

La Máquina Virtual de Java (32 Bits) Java Runtime Environment (jre).

3.1.2 Ficheros de entrada

El fichero de entrada al programa (ver Figura 3.1) tiene que tener una extensión ".txt", y este

fichero se obtiene al realizar una regresión lineal borrosa posibilística a través del software

efuzzy 1.0. Este fichero posee los valores observados y valores estimados que son necesarios a

la hora de calcular las medidas de bondad de ajuste. Estos deben estar entre corchetes ([]),

separados los lugares decimales por un punto (.); y por comas (,) los números entre sí. Los

números observados y estimados deben estar separados por una tabulación.

Page 59: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

3.1.3Ventana Inicial del Software

Al ejecutar el software ―GOF 1.0‖ primeramente se muestra el splash durante algunos pocos

segundos (Figura 3.2).

Fig 3.2 Interfaz principal de la aplicación

Fig 3.1Fichero de entrada al sistema

Page 60: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

3.1.4 Ventana Principal

Se muestra a continuación la ventana principal del software (Figuras 3.3)

3.1.4.1 Menú Ficheros (Figura 3.4)

Fichero: Se encuentran las opciones de Abrir, Cerrar, Ver Datos y Guardar.

3.1.4.2 Abrir

Abre el fichero o los ficheros que se desean cargar para el análisis (Figura 3.5). Tiene un

acceso directo en la ventana principal (Figura 3.6).

Fig 3.3 Ventana principal del software

Fig 3.4 Menú Ficheros

Page 61: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.5 Botón Abrir en el Menú Ficheros

Fig 3.6 Acceso directo del botón Abrir

3.1.4.2 Ver Datos

Después de haber calculado las medidas de bondad de ajuste para un fichero, o para un lote de

ficheros, si se desean ver los resultados de inmediato, se puede observar mediante el Menú

Ficheros/ Ver Datos o a través de su correspondiente acceso directo en la ventana principal.

(Figuras 3.7 y 3.8), además se muestra un ejemplo de un fichero de resultado (Figura 3.9)

Fig 3.7 Seleccionar Ver Datos

Page 62: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.8 Acceso directo del botón Ver Datos

Fig 3.9 Ejemplo de resultados calculados

3.1.4.4 Guardar

Nos brinda la posibilidad de guardar los resultados de un fichero o de varios, que se hayan

calculado, en un documento "yyy".txt, donde yyy es el nombre del documento. También existe

un acceso directo en la ventana principal. (Figura 3.10)

Fig 3.10 Botón Guardar en el Menú Ficheros

Page 63: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

3.1.4.5 Botón Ayuda

La opción ―Ayuda‖ brinda una descripción sencilla y detallada de cada una de las

funcionalidades del sistema, así como una breve descripción (Figura 3.11)

Fig 3.11 Manual de usuario

3.2 Análisis de los Resultados

3.2.1 Experimento 1 “Valores con buen y mal ajuste”

Se muestra a continuación los resultados de los diferentes experimentos realizados con el

objetivo de determinar cuál de los índices de bondad de ajuste utilizados en el presente trabajo

presenta mejores resultados.

Una variable independiente

A continuación se muestran los gráficos de cajas y bigotes teniendo en cuenta: el ―buen‖ y

―mal ajuste‖ y la cantidad de datos que van desde muy pocos valores (5) hasta ficheros algo

mayores: (50 casos). Recuérdese que para calcular un modelo de regresión borrosa

posibilística es necesario resolver un problema de programación lineal, que incrementa su

complejidad con el aumento de la cantidad de datos. Es por ello que estos métodos se utilizan

frecuentemente para resolver problemas con pocos casos. Se calcularon los índices SIM2,

SIM3, SIM4, el y el coeficiente de Correlación híbrido (Figuras 3.12-3.16)

Page 64: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.12 Gráfico de cajas y bigotes del SIM2 por cantidad de datos

En este gráfico se aprecia que, con independencia de la cantidad de datos analizados, el índice

SIM2 no es una buena medida, pues sus valores nunca sobrepasan el valor de 0,5, a pesar de

que las cajas del ―buen ajuste‖ están por encima de las correspondientes al ―mal ajuste‖.

Fig 3.13 Gráfico de cajas y bigotes de Sim3 por cantidad de datos

En este gráfico se observa que para un ―buen ajuste‖ los valores obtenidos por este índice son

buenos, superando los 0,70; cuando se analizaron grupos de cinco valores mostró resultados

cercanos a 0,70 con cantidad de datos de 20 valores, vale destacar que con un ―mal ajuste‖ la

gran mayoría de los resultados están por encima de 0,50.

Page 65: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.14 Gráfico de cajas y bigotes de Sim4por cantidad de datos

En este gráfico se observa que para un buen ajuste con poca cantidad de casos (cinco valores)

da un valor superior a 0,8, por lo que es un buen resultado, para el resto de las cantidades de

datos analizados los valores oscilan entre 0,5 y 0,8. Sin embargo para ―mal ajuste‖ los

resultados decaen mucho pues apenas se acercan a los 0,5.

Fig 3.15 Gráfico de cajas y bigotes para el R2 Borroso por cantidad de datos

En el gráfico para el R2

Borroso todos los resultados dan cero para todas las cantidades de

datos que fueron analizadas. Esta no es una buena medida.

Page 66: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.16 Gráfico de cajas y bigotes para la Correlación híbrido por cantidad de datos

La Correlación híbrido no es una medida estandarizada como las anteriores. Sus valores

pueden sobrepasar la unidad (1). Obsérvese en la Figura3.16 los gráficos correspondientes al

―buen ajuste‖ están muy por encima a los del ―mal ajuste‖.

Además del análisis descriptivo, se decidió establecer comparaciones utilizando pruebas no

paramétricas. En la Tabla 3.1 se muestran los resultados del test de Mann Whitney entre el

―buen‖ y ―mal ajuste‖ por medidas y por cantidad de datos.

Tabla 3.1 Test no paramétrico de Mann Whitney para las medidas clásicas

Cant. Datos Sig. SIM2 Sig.SIM3 Sig.SIM4 Sig.R2borroso Sig.cHib

5 0,012 0,002 0,001 0,317 0,015

10 0,000 0,000 0,000 1,000 0,000

20 0,031 0,016 0,001 1,000 0,000

50 0,149 0,564 0,021 1,000 0,021

En la mayoría de los casos las diferencias encontradas son significativas. Se exceptúan el

porque todos sus valores fueron 0 y la SIM2 y SIM3 con 50 datos. Debe

recordarse del análisis gráfico que el índice SIM2 no era una buena medida.

A partir de estas medidas, se decidió proponer otras y estudiar su comportamiento con los

mismos ficheros de datos generados.

Page 67: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Medidas propuestas derivadas de las primeras:

MSIM234= Mean (SIM2, SIM3, SIM4)

MaxSIM=Max (SIM2, SIM3, SIM4)

MinSIM= Min (SIM2, SIM3, SIM4)

SumSIM= (SIM2 + SIM3 + SIM4)

Todas las medidas varían entre 0 y 1 con excepción de la última cuyo máximo valor posible es

tres.

A continuación se muestran gráficos de máximo, mínimo y cierre para estos nuevos índices

teniendo en cuenta: el ―buen‖ y ―mal ajuste‖ y la cantidad de datos (Figuras 3.17-3.22)

Fig 3.17 Gráfico de máximo, mínimo y cierre para MSIM23

Se observan en la Figura 3.17 valores superiores a 0,75 con un ―buen ajuste‖, pero teniendo en

cuenta la cantidad de datos (50 valores) el resultado cae considerablemente incluso por debajo

de 0,45. Esta medida se recomienda entonces cuando la cantidad de datos es pequeña.

Page 68: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.18 Gráfico de máximo, mínimo y cierre para MSIM24

Se aprecia que el valor medio entre estos dos índices es inferior al anterior, su máximo valor

no supera los 0,75, aunque con un mal ajuste sus valores dan ligeramente superiores a los de

su similar con la media entre los índices MSIM24.

Fig 3.19 Gráfico de máximo, mínimo y cierre para MSIM34

Entre estos dos índice siempre nos brinda una media superior a los 0,5 para los ficheros de

―buen ajuste‖ y con algunos valores superiores a los 0,8. Los ficheros de ―mal ajuste‖

muestran resultados mucho peores.

Page 69: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.20 Gráfico de máximo, mínimo y cierre para MaxSIM

Con esta medida que se propone se aprecia que con un ―buen ajuste‖ los resultados son muy

buenos pues los valores oscilan entre 0,55 y 0,95. No obstante, puede apreciarse en la Figura

3.20 que las barras de ―buen‖ y ―mal ajuste‖ se solapan en algunos intervalos.

Fig 3.21 Gráfico de máximo, mínimo y cierre para MinSIM

Analizando el mínimo de las SIM (MinSIM), se puede concluir que los resultados no son

alentadores. Anteriormente se demostró que la SIM2 no era una buena medida en la

diferenciación de modelos con‖ buen‖ y ―mal ajuste‖. Resulta lógico pensar que el mínimo de

las SIM tampoco lo sea, tal y como se muestra en el gráfico anterior.

Page 70: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.22 Gráfico de máximo, mínimo y cierre para MSIM234

La media entre los tres índices SIM calculados muestra un rango entre 0,40 y 0,80 para un

buen ajuste, por su parte para un mal ajuste los valores apenas se acercan a 0,5. Obsérvese que

a partir de 10 datos, las barras no se solapan, lo que evidencia que las diferencias entre los

modelos con buen y mal ajuste son mayores.

Fig 3.23 Gráfico de máximo, mínimo y cierre para SumSIM

La media de la suma de los índices calculado muestra valores superiores a 1,50 para el caso de

los valores que fueron filtrados por ―buen ajuste‖, para el caso del ―mal ajuste‖ los resultados

están cercanos a 1,20.

Page 71: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

A continuación se muestran los resultados del test no paramétrico de Mann Whitney entre el

―buen‖ y ―mal ajuste‖ por medidas y por cantidad de datos (ver Tabla 3.2)

Tabla 3.2 Test no paramétrico de Mann Whitney para las medidas propuestas

Cantidad

de datos

MSIM234 MaxSIM MinSIM SumSIM

SIM234

5 0,000 0,002 0,012 0,000 0,002 0,000 0,000

10 0,000 0,000 0,000 0,000 0,000 0,000 0,000

20 0,000 0,016 0,031 0,000 0,001 0,001 0,000

50 0,021 0,564 0,149 0,021 0,059 0,020 0,021

De manera general las medidas propuestas son capaces de diferenciar los modelos con ―buen‖

y ―mal ajuste‖ cuando la cantidad de datos es relativamente pequeña (hasta 20 datos). Con 50

valores no todos los índices detectan las diferencias.

Debido a que se había mostrado previamente que la medida SIM2 no ofrece siempre buenos

resultados, se sugiere la utilización de M34. Obsérvese que MSIM234 y SumSIM pudieran ser

también medidas válidas.

Dos variables independientes

A continuación se muestran los gráficos de cajas y bigotes teniendo en cuenta: el ―buen‖ y

―mal ajuste‖ y la cantidad de datos, para los índices SIM2, SIM3, SIM4, y el

coeficiente de Correlación híbrido. (Figuras 3.24-3.28)

Fig 3.24 Gráfico de cajas y bigotes para el índice SIM2 teniendo en cuenta: el ajuste y la cantidad de datos

Page 72: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

A través de este gráfico se aprecia que el índice SIM2 nos da para todos los casos analizados

valores inferiores a 0,60, lo cual indica que no son buenos resultados.

Fig 3.25 Gráfico de cajas y bigotes para el índice SIM3 teniendo en cuenta: el ajuste y la cantidad de datos

Este gráfico muestra que el índice SIM3 tanto como para un buen ajuste, como para un mal

ajuste nos da valores siempre por encima de 0,60. Se tiene incluso en el caso de buen ajuste,

para el análisis de 10 datos un valor cercano a 0,80.

Fig 3.26 Gráfico de cajas y bigotes para el índice SIM4 teniendo en cuenta: el ajuste y la cantidad de datos

Este gráfico tiene como finalidad la posibilidad de apreciar una gran diferencia entre un

―buen‖ y un ―mal ajuste‖. Los valores de un ―buen ajuste‖ siempre están por encima de 0,70 y

Page 73: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

brinda un buen resultado para cantidad de datos pequeña bastante bueno (valores superiores a

0,80). En la medida en la que aumenta la cantidad de datos analizados los resultados van

decayendo ligeramente y la diferencia entre sus medianas se va incrementando.

Fig 3.27 Gráfico de cajas y bigotes para el índice R2 Borroso teniendo en cuenta: el ajuste y la cantidad de datos

En este gráfico se observa que solamente el buen ajuste muestra valores diferentes de cero (0),

pero que fluctúan en un gran rango de valores, prácticamente desde 0, hasta 0,75

aproximadamente, aunque sus valores medios nunca sobrepasan los 0,60. Para el caso de mal

ajuste el valor del R2

Borroso es de cero (0), al igual que en casos detallados con anterioridad.

Fig 3.28 Gráfico de cajas y bigotes para la Correlación Híbrida teniendo en cuenta: el ajuste y la cantidad de datos

Page 74: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

El coeficiente de Correlación híbrido no es una medida estandarizada como las anteriores.

Obsérvese en la Figura 3.28 que los gráficos correspondientes al ―buen ajuste‖ están muy por

encima a los del ―mal ajuste‖, a excepción de cuando es utilizada una cantidad de datos igual a

10.

La tabla 3.3 muestran los resultados del test no paramétrico de Mann Whitney entre el ―buen‖

y ―mal ajuste‖ por medidas y por cantidad de datos (Tabla 3.3).

Tabla 3.2 Test no paramétrico de Mann Whitney para las medidas clásicas

Cant. Datos Sig. SIM2 Sig.SIM3 Sig.SIM4 Sig.R2B Sig.cHib

5 0,290 0,705 0,290 0,013 0,059

10 0,499 0,070 0,000 0,000 0,083

20 0,028 0,019 0,000 0,001 0,006

50 0,248 0,564 0,021 0,047 0,021

Para el caso de dos variables, los resultados son inferiores a los encontrados en los

experimentos anteriores. La cantidad de diferencias significativas es menor. Recuérdese que el

R2

Borroso ofrece las mejores diferencias porque para el mal ajuste, sus valores fueron

siempre de cero.

A continuación se muestran los gráficos de máximos, mínimos y cierre teniendo en cuenta: el

―buen‖ y ―mal ajuste‖ y la cantidad de datos para el MaxSIM, el MSIM y para la comparación

entre los valores medios de los SIM2-SIM3 (M23), SIM2-SIM4 (M24) y SIM3-SIM4 (M34).

(Figuras 3.29-3.33)

Page 75: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.29 Gráfico de máximos, mínimos y cierre con buen y mal ajuste para el índice propuesto M23

Se observan en la mayoría de los casos, rangos muy parejos, valores que se encuentran

aproximadamente entre 0,35 y superiores a 0,80, pero no se diferencian los modelos por la

calidad de su ajuste.

Fig 3.30 Gráfico de máximos, mínimos y cierre con buen y mal ajuste para el índice propuesto M24

Este gráfico es muy similar al anterior con rangos igualmente entre los valores 0,35 y en este

caso, cercanos a 0,80, pero siempre por debajo de este valor. Tampoco aquí se muestran

grandes diferencias por ajuste.

Page 76: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.31 Gráfico de máximo, mínimos y cierre con buen y mal ajuste para el índice propuesto M34

Se observan en este gráfico resultados bastante buenos, pues el rango de variación de los

valores se encuentra por encima de 0,60 y en varias ocasiones superior a 0,80, incluso en los

casos que se analizan valores con mal ajuste. Cuando la cantidad de datos a analizar es mayor

(50), las barras prácticamente no se solapan, lo que hace que los resultados sean mucho

mejores.

Fig 3.32 Gráfico de máximos, mínimos y cierre con buen y mal ajuste para el índice propuesto MaxSim

Esta propuesta de análisis, nos muestra un rango de soluciones muy bueno desde el punto de

vista de los resultados que se alcanza, pues sus valores más bajos con buen ajuste, siempre

están por encima de 0,70 y muy próximos a 1. Los valores para el mal ajuste son también

altos, lo que impide a esta medida hacer una correcta discriminación entre ambos.

Page 77: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.33 Gráfico de máximo, mínimos y cierre con buen y mal ajuste para el índice propuesto MinSim

La Figura 3.33 muestra un gráfico con rangos de soluciones muy amplias, en el mejor de los

casos se tiene valores próximos a 0,80, pero posee muchos valores inferiores a 0,50.

De manera general, los índice SIM2 y no presenta buenos resultados tanto con una

como para dos variables.

Fig 3.34 Grafico de máximos, mínimos y cierre para SumSIM con dos variables.

La media de la suma de los índices calculado muestra valores superiores a 2,50 para el caso de

los valores que fueron filtrados por buen ajuste, para el caso del mal ajuste los resultados están

cercanos a 2,20.

Page 78: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.35 Grafico de máximos, mínimos y cierre para MSIM con dos variables.

La media entre los tres índices SIM calculados muestra un rango entre 0,50 y 0,80 para un

buen ajuste, por su parte para un mal ajuste a partir de 10 datos las barras no se solapan, lo que

evidencia que las diferencias entre los modelos con buen y mal ajuste son mayores.

Los experimentos con dos variables independientes mostraron mejores resultados que al

considerar sólo una variable. Con el propósito de comparar las medidas, se realizaron dos

gráficos de barras considerando solamente el buen ajuste para las medidas clásicas (Figuras

3.36 – 3.37):

Fig 3.36 Gráfico de Barras filtrado con buen ajuste para el análisis del SIM2, SIM3, SIM4, R2 Borroso y Correlación

híbrido para una variable

Page 79: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Se observa en este gráfico que los valores medios del índice SIM3 siempre están por encima

que los valores medios de las demás medidas. Anteriormente se había demostrado que la

medida SIM2 y el no ofrecían siempre resultados buenos. Este gráfico reafirma

que la SIM3 da valores superiores.

Fig 3.37 Gráfico de Barras filtrado con buen ajuste para el análisis del SIM2, SIM3, SIM4, R2 Borroso y Correlación

híbrido para dos variables

Se muestra en este gráfico que los valores medios del índice SIM4 presentan valores que se

encuentran por encima de los valores medios de las demás medidas, aunque se destaca que el

SIM3 que para casi todos los experimentos ha mostrados buenos resultados, en este gráfico se

encuentra bien próximo a los resultados obtenidos por el SIM4.

De las medidas propuestas también mostraremos cuál de ellas presentan mejores resultados a

través de dos gráficos de barras.

Page 80: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.38 Gráfico de barras para las medidas propuestas filtrado por buen ajuste para una variable

En este gráfico de barras observamos que la medida propuesta MaxSim es la que presenta los

mejores resultados.

Fig 3.39 Gráfico de barras para las medidas propuestas filtrado por buen ajuste para dos variables

Al igual que el gráfico 3.38 que representa a las medidas propuestas para una variable, la

Figura 3.39 coincide en que la medida MaxSIM es la que presenta los mejores resultados.

Page 81: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

3.2.2 Experimento 2”Extensiones cercanas y alejadas”

Se muestra a continuación los resultados de los diferentes experimentos elaborados con el

objetivo de comprobar cuál de los índices de bondad de ajuste manejados en el presente

trabajo exhibe mejores resultados.

Una variable independiente

A continuación se muestran los gráficos de cajas y bigotes con una variable teniendo en cuenta

centros iguales y cambiando las extensiones izquierda y derecha para las medidas: SIM2,

SIM3, SIM4, y Correlación híbrido. (Figuras 3.40-3.44)

Fig 3.40 Gráfico de cajas y bigotes para el índice SIM2 teniendo en cuenta extensiones cercanas y lejanas

Se observa en este gráfico que cuando fueron modificados los valores con extensiones lejanas

este índice mejoró con respecto a los valores con extensiones cercanas, pero el mejor resultado

apenas sobrepasa los 0,70.

Page 82: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.41 Gráfico de cajas y bigotes para el índice SIM3 teniendo en cuenta extensiones cercanas y lejanas

Este gráfico muestra que generalmente este índice para todos los experimentos brinda buenos

resultados, superando en varias ocasiones los 0,80.

Fig 3.42 Gráfico de cajas para el índice SIM4 teniendo en cuenta extensiones cercanas y lejanas

El gráfico 3.42 muestra excelente resultados para la mayoría de los valores analizados,

mostrando valores cercanos en su totalidad a 0,8 y en varias ocasiones por encima de dicho

valor en el caso de las extensiones lejanas.

Page 83: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.43 Gráfico de cajas y bigotes para el R2 Borroso teniendo en cuenta extensiones cercanas y lejanas

A través de este gráfico se puede observar que el R2 Borroso muestra excelentes resultados

con valores muy próximos a la unidad, aunque sus valores medios presentan muchas

fluctuaciones.

Fig 3.44 Gráfico de cajas y bigotes para la Correlación híbrido teniendo en cuenta extensiones cercanas y lejanas

Una vez más este gráfico muestra excelentes resultados pero teniendo en cuando que dicha

medida no está estandarizada y sus valores sobrepasan la unidad. Todos los valores con

extensiones alejadas brindan resultados ligeramente superiores.

Además del análisis descriptivo, se decidió establecer comparaciones utilizando pruebas no

paramétricas. En la Tabla 3.3 se muestran los resultados del test de Mann Whitney entre los

valores con extensiones cercanas y alejadas para una variable

Page 84: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Tabla 3.3 Test de Mann Whitney entre los valores con extensiones cercanas y alejadas para una variable

Cant. Datos Sig. SIM2 Sig.SIM3 Sig.SIM4 Sig.R2Borroso Sig.cHib

10 0,017 0,013 0,001 0,871 0,028

20 0,159 0,058 0,006 0,025 0,045

Sólo la SIM4 y la correlación híbrida muestran diferencias para los dos tamaños de muestra

estudiados, aunque la SIM3presenta resultados medianamente significativos para 20.

A continuación se muestran gráficos de máximo, mínimo y cierre para las medidas propuestas:

MSIM234, MaxSIM, MinSIM, SumSIM.

Fig 3.45 Gráfico de máximo, mínimo y cierre para la M23con extensiones cercanas y alejadas

Se observan rangos de resultados que fluctúan entre 0,25 y 0,85 con ligeras mejoras para el

caso de 10 valores.

Fig 3.46 Gráfico de máximo, mínimo y cierre para M24 con extensiones cercanas y alejadas.

Page 85: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Se observa que los valores son muy similares al del gráfico anterior, con valores ligeramente

superiores, pero de forma general no muy significativa que oscilan entre 0,20 y 0,85.

Fig 3.47 Gráfico de máximo, mínimo y cierre para M34 con extensiones cercanas y alejadas.

Se aprecia en el gráfico de la Figura 3.47 que al estar involucrados los dos mejores índices

simulados los resultados son mejores que los que involucraban al índice SIM2, resultados

obtenidos entre 0,45 y 0,90.

Fig 3.48 Gráfico de máximo, mínimo y cierre para MaxSIM con extensiones cercanas y alejadas.

Muestra este gráfico valores entre 0,55 y 0,90, para el caso de 10 valores las extensiones

lejanas presentan mejores resultados, pero para el caso de 20 valores ambos resultados son

similares.

Page 86: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.49 Gráfico de máximo, mínimo y cierre para MinSIM con extensiones cercanas y alejadas.

La Figura 3.49 correspondiente al gráfico de máximo, mínimo y cierre para MinSIM con

extensiones cercanas y alejadas presenta resultados desde valores inferiores a 0,20 hasta

valores próximos a 0,80.

Fig 3.50 Gráfico de máximo, mínimo y cierre para MSIM con extensiones cercanas y alejadas.

La media entre los tres índices SIM calculados muestra un rango entre 0,35 y 0,85 tanto para

extensiones cercanas como lejanas.

Page 87: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.51 Gráfico de máximo, mínimo y cierre para SumSIM con extensiones cercanas y alejadas.

La media de la suma de los índices calculado muestra valores superiores a 2,50 para la gran

mayoría de los valores tanto para extensiones cercanas, como para extensiones alejadas.

Además del análisis descriptivo, se decidió establecer comparaciones utilizando pruebas no

paramétricas. En la Tabla 3.4 se muestran los resultados del test de Mann Whitney entre los

valores con extensiones cercanas y alejadas para una variable.

Tabla 3.4 Test de Mann Whitney entre los valores con extensiones cercanas y alejadas para una variable

Cantidad

de datos

MSIM234 MaxSIM MinSIM SumSIM SIM234

10 0,005 0,003 0,017 0,008 0,014 0,005 0,004

20 0,045 0,023 0,159 0,045 0,048 0,088 0,037

La tabla muestra resultados significativos prácticamente para todos los casos. Ello pone de

manifiesto que la ―forma‖ del número borroso (extensiones cercanas o lejanas) influye en el

modelo de regresión.

Para el caso de las medidas clásicas una vez más el índice de bondad de ajuste SIM3 es el que

mejores resultados ofrece como se muestra a continuación. (Figura 3.52)

Page 88: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.52 Gráfico de barras con las medidas clásicas para extensiones cercanas y alejadas

Se observa que una vez más la medida MaxSIM ofrece los mejores valores, pero vale destacar

los buenos resultados obtenidos por la medida M34. (Figura 3.53)

Fig 3.53 Gráfico de barras con las medidas propuestas para extensiones cercanas y alejadas

Dos variables independientes

A continuación se muestran los gráficos de cajas y bigotes teniendo en cuenta centros iguales

y cambiando las extensiones izquierda y derecha con dos variables para las medidas: SIM2,

SIM3, SIM4, y Correlación híbrido.

Page 89: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.54 Gráfico de cajas y bigotes para el índice SIM2teniendo en cuenta extensiones cercanas y lejanas

Se ilustra en este gráfico que cuando fueron modificados los valores con extensiones lejanas

este índice mejoró con respecto a los valores con extensiones cercanas, los resultados

obtenidos no son muy buenos, solo con 20 valores con extensión lejana se logra obtener

valores próximos a 0,80.

Fig 3.55 Gráfico de cajas y bigotes para el índice SIM3 teniendo en cuenta extensiones cercanas y lejanas

Este gráfico muestra que habitualmente este índice en la totalidad de los experimentos ofrece

buenos resultados, superando todos los 0,80.

Page 90: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.56 Gráfico de cajas y bigotes para el índice SIM4 teniendo en cuenta extensiones cercanas y lejanas

Se observa que para el índice SIM4, los resultados son buenos pues oscilan entre 0,50 y 0,85,

una vez más las extensiones lejanas ofrecen mejores resultados.

Fig 3.57 Gráfico de cajas y bigotes para el R2 Borroso teniendo en cuenta extensiones cercanas y lejanas

A través de este gráfico se puede observar que el R2 Borroso muestra excelentes resultados

con valores muy cercanos a 1, resaltando el resultado para 20 valores con extensión lejana que

tiene un rango muy bueno entre 0,90 y 1.

Page 91: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.58 Gráfico de cajas y bigotes para la medida Correlación híbrido teniendo en cuenta extensiones cercanas y

lejanas

Este gráfico muestra la gran mayoría de los resultados cercanos a 1 y en ocasiones por encima

de 1, pero esto teniendo en cuenta que dicha medida no está estandarizada.

A parte del análisis descriptivo, se decidió establecer comparaciones utilizando pruebas no

paramétricas. En la Tabla 3.5 se muestran los resultados del test de Mann Whitney entre los

valores con extensiones cercanas y alejadas para dos variables con las medidas clásicas.

Tabla 3.5 Test de Mann Whitney entre los valores con extensiones cercanas y alejadas para dos variables

Cant. Datos Sig. SIM2 Sig.SIM3 Sig.SIM4 Sig.R2Borroso Sig.cHib

10 0,017 0,008 0,004 0,872 0,021

20 0,159 0,042 0,012 0,019 0,018

Al igual que en el caso anterior, existen diferencias significativas para casi todos los

experimentos realizados.

A continuación se muestran gráficos de máximo, mínimo y cierre para las medidas propuestas:

MSIM234, MaxSIM, MinSIM, SumSIM.

Page 92: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.59 Gráfico de máximo, mínimo y cierre para la M23 con extensiones cercanas y alejadas

Se observa en la Figura 3.59 que corresponde al gráfico de la M23 que las extensiones lejanas

para ambos casos analizados presenta mejores resultados con valores muy próximos a 1.

Fig 3.60 Gráfico de máximo, mínimo y cierre para la M24 con extensiones cercanas y alejadas

Se observa en la ilustración que la medida M24, presenta un rango amplio de resultados que va

desde 0,20 aproximadamente hasta valores ligeramente superiores a 0,80, como en la gran

mayoría de los gráficos en el cuales está involucrada la medida SIM2 hace que los valores

máximos decaigan y aumenten los valores mínimos.

Page 93: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.61 Gráfico de máximo, mínimo y cierre para la M34 con extensiones cercanas y alejadas

La Figura 3.61 representa la medida propuesta M34 la cual presenta resultados bastantes

buenos pues la totalidad de los resultados fluctúan entre 0,60 y 0,85.

Fig 3.62 Gráfico de máximo, mínimo y cierre para MSIM con extensiones cercanas y alejadas.

El gráfico 3.62 muestra resultados muy similares al gráfico de la Media de los SIM para una

variable, aunque los valores medios de cada conjunto de datos están ligeramente por encima

de su similar de una variable.

Page 94: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.63 Gráfico de máximo, mínimo y cierre para el MaxSIM con extensiones cercanas y alejadas

Se observa en la Figura 3.60 valores muy buenos cercanos a 1, en el caso de 20 valores ambas

extensiones brindan idénticos resultados.

Fig 3.64 Gráfico de máximo, mínimo y cierre para el MinSIM con extensiones cercanas y alejadas

La Figura 3.61 correspondiente al gráfico de máximo, mínimo y cierre para MinSIM con

extensiones cercanas y alejadas presenta resultados desde valores inferiores a 0,15 hasta

valores ligeramente superiores a 0,80; para el caso de 20 valores los resultados máximos son

prácticamente iguales pero para extensiones lejanas presenta valores mínimos más pequeños.

Page 95: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.65 Gráfico de máximo, mínimo y cierre para la MSIM con extensiones cercanas y alejadas

El gráfico 3.65 muestra resultados muy similares al gráfico de la Media de los SIM para una

variable, aunque los valores medios de cada conjunto de datos están ligeramente por encima

de su similar de una variable.

Fig 3.66 Gráfico de máximo, mínimo y cierre para el MinSIM con extensiones cercanas y alejadas

La Figura 3.66 representada por los valores mínimos de los índices presenta valores entre 0,10

y 0,80, pero con los valores medios sobre 0,50, por lo que no presenta buenos resultados.

Page 96: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.67 Gráfico de máximo, mínimo y cierre para la SumSIM con extensiones cercanas y alejadas

La suma de los SIM (SumSIM) que puede tener valores máximos próximos a 3, se encuentran

entre 1 y 2,80 con ligeros resultados superiores los datos representados por extensiones

lejanas.

Se decidió establecer comparaciones utilizando pruebas no paramétricas y en la Tabla 3.6 se

muestran los resultados del test de Mann Whitney entre los valores con extensiones cercanas y

alejadas para dos variables con las medidas propuestas.

Tabla 3.6 Test de Mann Whitney entre los valores con extensiones cercanas y alejadas para dos variables con las

medidas propuestas

Cantidad

de datos

MSIM234 MaxSIM MinSIM SumSIM SIM234

10 0,005 0,003 0,016 0,003 0,011 0,005 0,001

20 0,050 0,021 0,155 0,048 0,042 0,151 0,030

Page 97: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Los resultados del testde Mann Whitney son similares a los encontrados con anterioridad.

A continuación se muestran dos gráficos de barra: uno correpondiente a las medidas clásicas

y el otro a las medidas propuestas para determinar con mayor presición cual de estas medidas

presenta mejores resultados.

Fig 3.68 Gráfico de barras correspondiente a las mediadas clásicas para el experimento 2 con dos variables

En la Figura 3.68 una vez más el índice de similitud SIM3 presenta los mejores resultados con

valores muy próximos a 0,80, por su parte el índice SIM2 posee resultados inferiores a 0,45,

mientras que el R2 Borroso presenta inestabilidad con valores por debajo de 0,45 par

cantidades de datos igual a 10 y próximos a 0,70 para cantidades de datos igual a 20.

La SIM2 no es una buena medida. Sus valores están bastante por debajo de las demás para

ambos tamaños de muestra. Los índices SIM3 y SIM4 son los que ofrecen las mejores

puntuaciones.

Page 98: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

Fig 3.69 Gráfico de barras correspondiente a las medidas propuestas para el experimento 2 con dos variables

Para el caso que ilustra la media para las medidas propuestas, la medida MaxSIM y la M34

ofrecen los mejores resultados.

3.3 Aplicación a la tasa de cambio del Euro

La siguiente aplicación real fue tomada de la tesis de opción al título de maestría del Lic. Jorge

Luis Morales Martínez.

La tasa o tipo de cambio, relaciona a dos monedas y expresa la magnitud en que se

intercambian entre sí.

Factores determinantes de la tasa de cambio

Las fluctuaciones de la tasa de cambio del euro de acuerdo a las variaciones de los precios de

diferentes productos exportables e importables como metales básicos, metales preciosos,

alimentos, azúcar, energía y las tasas de interés de euro en el primer mes. Para ello los datos

que se utilizan fueron adquiridos del Banco Central de Cuba a través del sitio Web

www.interbancario.co.cu durante el período mayo – junio del 2009. La información recogida

presenta como variable dependiente la tasa de cambio del Euro frente al CUC y como

variables independientes los diferentes productos exportables e importables mencionados. Para

poder obtener las variaciones en la variable dependiente se mide las observaciones cada cinco

días y en cuanto a las variables independientes se calcula la media de los valores en esos 5

días. Las variables más importante fueron: (precio del estaño (metal básico), precio del oro y

del paladio (metales preciosos), harina de trigo y leche en polvo entera (alimentos), jet-fuel del

Page 99: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

mediterráneo (energía), precio del petróleo crudo ligero en la bolsa de Nueva York) (Morales

Martínez, 2010)

Posteriormente se realiza la regresión borrosa para cada mes, así como para el bimestre

correspondiente, obteniéndose para cada uno de ellos resultados satisfactorios que se muestran

a continuación:

Solo se cuenta con 5 observaciones, por cada mes.

Mayo

El Modelo de regresión Borrosa obtenido es:

( ) ( )

( )

( )

( )

( ) ( )

Para este mes se tiene que SIM2= 0.2822, SIM3= 0.7364, SIM4= 0.6033, la Correlación

híbrido= 0.9263, la M234= 0.5406 y el Borroso resultó ser 0.9782, por lo que se puede

interpretar que el modelo de regresión borrosa explica el 97 % de la variación presente en los

datos centrales .

Obsérvese que la medida SIM2 tiene un valor relativamente bajo, no ocurre así con los índices

SIM3 y SIM4. Estos dos últimos valores son indicadores mejores de la calidad del modelo

hallado.

Junio

El Modelo de regresión Borrosa obtenido es:

( ) ( )

( ) ( )

( ) (0,0,0) et Fuel (0,0,0)

Para este mes se obtuvo que SIM2= 0.4203, SIM3= 0.7024, SIM4= 0.6153, la Correlación

híbrido= 0.9145, la M234= 0.5793 y el Borroso resultó ser 0.9635. De la misma manera

Page 100: Licenciatura en Ciencia de la Computación

CAPÍTULO 3

se puede hacer la interpretación de que el modelo hallado es capaz de explicar el 96 % de la

variación presente en los datos centrales .

La medida SIM2 tiene un valor inferior a los índices SIM3 y SIM4, también en este ejemplo.

3.4 Consideraciones finales del capítulo

En este capítulo se mostró todas las funcionalidades del software GOF 1.0 a través de su

manual de usuario. También se presentaron los resultados obtenidos de todos los experimentos

que fueron realizados, mediante gráficos de caja y de barras, así como de test no paramétricos

los cuales fueron determinantes para corroborar que las mejores medidas de bondad de ajuste.

Tanto las medidas reportadas en la literatura como las propuestas, tuvieron buenos resultados

para algunas bases de datos. La complejidad computacional de ellas es sumamente simple, así

que se puede recomendar calcularlas todas y a partir de sus valores, tomar una decisión. No

obstante, los experimentos demostraron que:

De todas las medidas reportadas en la literatura que se estudiaron, las mejores

resultaron ser: el índice SIM3 y el SIM4.

De las medidas propuestas, las mejores fueron el MaxSIM y MSIM34. Debido a que

SIM2 siempre ofreció resultados bajos, el índice MaxSIM siempre elegirá un valor

entre SIM3 y SIM4. Es por ello que en este trabajo se recomienda la utilización de

MSIM34.

Page 101: Licenciatura en Ciencia de la Computación

CONCLUSIONES

87

CONCLUSIONES

En el presente trabajo se realiza una investigación acerca de las medidas de bondad de ajuste

en la regresión borroso posibilística. A manera de conclusiones:

1. Fueron seleccionadas las medidas de bondad de ajuste reportadas en la literatura:

SIM2, SIM3, SIM4, R2 Borroso y Correlación híbrido.

2. A partir de ellas, se propusieron las medidas: MSIM234,

MaxSIM, MinSIM, SumSIM.

3. Se diseñó e implementó un software capaz de calcular dichas medidas. con el objetivo

de realizar experimentos para analizar su comportamiento.

4. El sistema implementado está basado en la tecnología de software libre.

Page 102: Licenciatura en Ciencia de la Computación

RECOMENDACIONES

88

RECOMENDACIONES

Las medidas de bondad de ajuste es una temática muy interesante y novedosa en la actualidad.

Existen algunas medidas no abordadas en el presente trabajo, que sería muy útil analizarlas.

1. Además se proponen medidas como MSIM234,

MaxSIM, MinSIM, SumSIM, que se recomienda añadirlas al software efuzzy.

Page 103: Licenciatura en Ciencia de la Computación

BIBLIOGRAFÍA

89

BIBLIOGRAFÍA

AGUILERA CUEVAS, S. & RODRÍGUEZ BETANCOURT, R. 1999. Aplicación de la

regresión lineal borrosa para la planificación presupuestaria en el Hotel Meliá Santiago

de Cuba.

AGUILERA CUEVAS, S. R. B., RAMÓN 1999. Aplicación de la regresión lineal borrosa

para la planificación presupuestaria en el Hotel Meliá Santiago de Cuba.

ANDERSON, T. W. & DARLING, D. A. 1952. Asymptotic theory of certain goodness of fit

criteria based on stochastic processes. Annals of Mathematical Statistics.

ARANGUREN, S. M. & MUZACHIODI, S. L. 2003. Logica Difusa o matemática Borrosa.

Implicaciones del Data Mining [Online].

B.IZYUMOV, E. K., AND M. WAGENKNECHT. 2001. Software tool for regression analysis

of fuzzy data. In 9th Zittau Fuzzy Colloquium [Online].

B.M.AYYUB, Y. O. C. A. 2001. Fuzzy regression methods- a comparative assessment. Fuzzy

Sets and Systems.

BORIS, I. Aplication of f-regression method to fuzzy classification problem.

BUCKLEY, J. J. 2006. Fuzzy Probability and Statistics.

CAPOTE PACAREU, M. & BORREGO CLAVERO, R. 2013. Sistema informático para el

procesamiento de encuestas de satisfacción estudiantil.

CONTE, S., DUNSMORE, H. & SHEN, V. 1986. Software Engineering Metrics and Models.

In: COMPANY, B. C. P. (ed.).

CRESPO, J. 2002. Modelo Paramétrico Matemático Difuso para la estimación de Esfuerzo

de Desarrollo del Software. Tesis Doctoral.

CHANG Y, -. H. O. 2001a. Hybrid fuzzy least- squares regression anaysis and its reliability

measures. Fuzzy Sets and Systems, 119, 225-246.

CHANG Y, -. H. O. 2001b. RE: Hybrid regression anaysis with reliability and uncertainty

measures.

CHANG, Y. O. & AYYUB, B. M. 2001. Fuzzy regression methods- a comparative

assessment. Fuzzy Sets and Systems.

D'AGOSTINO, R. B. & STEPHENS, M. S. (eds.) 1987. Tests for the uniform distribution,

New York and Basel.

DE-LOS-COBOS-SILVA, S. G., GODDARD–CLOSE, J. & ANDRADE, M. A. G. 2011.

Regresión borrosa vs. Regresión por mínimos cuadrados ordinarios:caso de estudio.

Revista de Matemática: Teoría y Aplicaciones, 18, 37.

Page 104: Licenciatura en Ciencia de la Computación

BIBLIOGRAFÍA

DENODA PÉREZ, L. 2011. Sistema para el análisis de técnicas descriptivas y regresión

borrosa. Aplicaciones.

DUBOIS D, Y. P. H. 1983. Ranking fuzzy numbers in setting of possibility theroy.

Information Science, 30, 183-224.

FOLGER, G. K. A. T. A. 1988. Fuzzy Sets, Uncertainly, and Information.

GARCÍA, M. O. Y. C. 2010. Pruebas de bondad y ajuste

HERRERA PALLARES, S. 2012. PAQUETE ESTADÍSTICO PARA ANÁLISIS DE

REGRESIÓN.

HIDEO, T. 1987. Possibilistic regression analysis based on linear programin24.

HOJATI M., B. C. Y. S. K. 2005. A simple method for computation of fuzzy linear regression.

European Journal of Operational research, 166, 172-184.

HUNG T. NGUYEN , B. W. 2006. Fundamentals of Statistics with Fuzzy Data, Netherlands.

IZYUMOV, B., KALININA, E. & WAGENKNECHT, M. 2001. Software tool for regression

analysis of fuzzy data. In 9th Zittau Fuzzy Colloquium.

JARQUE, C. & BERA, A. 1980. Efficient tests for normality, homoscedasticity and serial

independence of regression residuals. Economics Letters.

JARQUE, C. & BERA, A. 1981. Efficient tests for normality, homoscedasticity and serial

independence of regression residuals: Monte Carlo evidence". Economics Letters 313–

318. .

JARQUE, C. & BERA, A. 2006. A Test for Normality of Observations and Regression

Residuals.

JOSÉ C , R. C. A. A. V. 1999. Reconocimiento de un Patrón de Estimación Humana

Aplicando el Modelo de Regresión Lineal Borrosa. Computación y Sitemas, 3 No. 2,

105-114.

KAO C, Y. C. C.-L. 2002 A fuzzy linear regression model with better explanatory power.

Fuzzy Sets And Systems, 126, 401-409.

KAO C, Y. L. P.-H. 2005. Entropy for fuzzy regression analysis. International journal of

Systems Science, 36 No 14, 869-876.

KIM B, Y. B. R. R. 1998. Evaluation of fuzzy linear regressin models by comparison

membership function. Fuzzy Sets And Systems, 100, 343-352.

KIM, K. J., MOSKOWITZ, H. & KOKSALAN 1996. Fuzzy versus statistical lineal

regression. European Journal of Operational research, 92, 417-434.

KLIR, G. & FOLGER, T. A. 1988. Fuzzy Sets, Uncertainly, and Information.

L'ECUYER, P. & SIMARD, R. 2002. TestU01: A Software Library in ANSI C for Empirical

Testing of Random Number Generators.

L’ECUYER, P. 2012. SS User's Guide Package gof Goodness-of-fit test Statistics.

Page 105: Licenciatura en Ciencia de la Computación

BIBLIOGRAFÍA

MODARRES, M., NASRABADI, E. & NASRABADI, M. M. 2004. Fuzzy linear regression

analysis from the point of view risk. International journal of Uncertainty, Fuzziness

and Knowledge-based Systems, 12 No. 5, 635-649.

MODARRES M., N. E. Y. N. M. M. 2004. Fuzzy linear regression analysis from the point of

view risk. International journal of Uncertainty, Fuzziness and Knowledge-based

Systems, 12 No. 5, 635-649.

MOGILENKO A, Y. P. D. 2003. Development of fuzzy regression model using genetic

algorithms. International journal of Uncertainty, Fuzziness and Knowledge-based

Systems, 11 No. 4, 429-444.

MORALES MARTÍNES, J. L. 2010. Análisis de Probabilidades Borrosas y de Regresión

Borrosa. Aplicaciones. Tesis en Opción al Título de Master en Matemática Aplicada.,

Universidad Central de Las Villas.

MORALES MARTÍNEZ, J. 2010. Análisis de Probabilidades Borrosas y de Regresión

Borrosa. Aplicaciones.

NADIPURAM, P. 1999. Fuzzy Modeling and Control: Selected Works of Sugeno.

NADIPURAM R, P. (ed.) 1999. Fuzzy Modeling and Control: Selected Works of Sugeno.

PÉREZ, J. D. 2010. Notaciones y lenguajes de procesos. Una visión global., 100.

R., G. J. L. 2012. Apuntes de Métodos Estadísticos I.

R.C. TSAUR, H. F. W. 1999. Outliers in Fuzzy Regression Analysis. In International Journal

of Fuzzy Sistems, 1. No.2, 113-119.

REDDEN D, T. Y. W. W. H. 1996. Further examination of fuzzy linear regression. Fuzzy Sets

And Systems, 79, 203-211.

REDDEN, D. T. & WOODALL, W. H. 1996. Further examination of fuzzy linear regression.

Fuzzy Sets And Systems, 79, 203-211.

ROMERO CORTÉS, J. C. & AGUILAR VÁZQUEZ, A. 1999. Reconocimiento de un Patrón

de Estimación Humana Aplicando el Modelo de Regresión Lineal Borrosa.

Computación y Sitemas, 3 No. 2, 105-114.

S. CONTE, H. D., AND V. SHEN. 1986. Software Engineering Metrics and Models. In:

COMPANY, B. C. P. (ed.).

SAKAWA, M. & YANO, H. 1992. Fuzzy linear regression and its applications. Fuzzy

regression Analysis. En Kacprzyk j. y Fedrizzi M ed.

SAKAWA M. YANO, H. 1992. Fuzzy linear regression and its applications. Fuzzy regression

Analysis. En Kacprzyk j. y Fedrizzi M ed.

SAVIC, D. A. & PEDRYCZ, W. (eds.) 1992. Fuzzy lineal regression models: construction

and evaluation.: Kacprzyk J. y Fedrizzi M.

SERGIO DONOSO, S. 2006. Análisis de Regresión Difusa: Nuevos Enfoques y Aplicaciones.

Doctor en Informatica Doctoral, Universidad de Granada.

Page 106: Licenciatura en Ciencia de la Computación

BIBLIOGRAFÍA

SHAKOURI, H. & NADIMI, R. 2009. A novel fuzzy linear regression model based on a non-

equality possibility index and optimum uncertainty. Applied Soft Computing 9, 590–

598.

SHAPIRO, S. & WILK, M. 1965. An analysis of variance test for normality (complete

samples). Biometrika, 591–611.

STEPHENS, M. 1974. "EDF Statistics for Goodness of Fit and Some Comparisons". Journal

of the American Statistical

SUGENO, M. 1985. Industrial Aplications of Fuzzy Control. North Holland.

TANAKA, H., UEJIMA, S. & ASAI, K. 1982. Linear regression analysis with fuzzy model.

IEEE Trans. On Systems, Man, and Cybernetics, 12, 903-907.

TANAKA HIDEO, I. H. 1992. Posibilistic regression analysis based on linear programing. En

Kacprzyk J. y Fedrizzi M. Fuzzy regression Analysis ed.

TSAUR, R. C. & WANG, H. F. 1999. Outliers in Fuzzy Regression Analysis. In International

Journal of Fuzzy Sistems, 1. No.2, 113-119.

ZADECH, L. A. 1968. Fuzzy algorithms. Information and Control, 12, 8.

ZADEH, L. A. 1965. Fuzzy Sets. Information and Control, 8, 15.

ZWICK, R., CARLSTEIN, E. & BUDESCU, D. V. 1987. Measures of similarity among fuzzy

concepts: A comparative analysis. . International Journal of Aproximate Reasoning 1,

221-242.

Page 107: Licenciatura en Ciencia de la Computación

ANEXOS

93

ANEXOS