desarrollo de un modelo computacional, para la ... · desarrollo de un modelo computacional, para...

120
DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA IDENTIFICACI ´ ON DE PATRONES CANDLESTICKS UTILIZANDO T ´ ECNICAS DE MINER ´ IA DE DATOS MARIO LINARES V ´ ASQUEZ Tesis presentada como requisito parcial para obtener el t´ ıtulo de MAGISTER EN INGENIER ´ IA INGENIER ´ IA DE SISTEMAS Y COMPUTACI ´ ON Director: DIEGO FERNANDO HERN ´ ANDEZ LOSADA, PH. D. Profesor Asociado Codirector: FABIO AUGUSTO GONZ ´ ALEZ OSORIO, PH. D. Profesor Asociado UNIVERSIDAD NACIONAL DE COLOMBIA FACULTAD DE INGENIER ´ IA BOGOT ´ A D. C. 2009

Upload: others

Post on 18-Mar-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

DESARROLLO DE UN MODELO COMPUTACIONAL,PARA LA IDENTIFICACION DE PATRONES

CANDLESTICKS UTILIZANDO TECNICAS DE MINERIADE DATOS

MARIO LINARES VASQUEZ

Tesis presentada como requisito parcial para obtener el tıtulo de

MAGISTER EN INGENIERIA

INGENIERIA DE SISTEMAS Y COMPUTACION

Director:DIEGO FERNANDO HERNANDEZ LOSADA, PH. D.

Profesor Asociado

Codirector:FABIO AUGUSTO GONZALEZ OSORIO, PH. D.

Profesor Asociado

UNIVERSIDAD NACIONAL DE COLOMBIAFACULTAD DE INGENIERIA

BOGOTA D. C.2009

Page 2: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia
Page 3: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Aprobada por la Facultad de Ingenierıa en cumplim-iento de los requisitos exigidos para otorgar el tıtu-lo de: Magister en Ingenierıa — Ingenierıa deSistemas y Computacion

Diego Fernando Hernandez Losada, Ph. D.Director de la Tesis

Fabio Augusto Gonzalez Osorio, Ph. D.Codirector

German Hernandez PerezJurado

German Guerrero ChaparroJurado

Universidad Nacional de ColombiaBogota D. C., Abril de 2009

Page 4: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia
Page 5: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

DEDICATORIA

A mis maestros Diego Hernandez y Fabio Gonzalez por su confianza y continua guıa. A todosaquellos profesores de la Universidad Nacional que contribuyeron mi proceso de formacion, como

Sandra Liliana Rojas y Jairo Hernan Aponte. A los liminarios por su paciencia. A ti Sara, por seresa luz que me dio inspiracion y apoyo durante la parte mas importante de este proceso.

iii

Page 6: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Contenido

Contenido iv

Lista de Tablas vi

Lista de Figuras vii

1 Introduccion 11.1 Objetivos y Aportes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 Organizacion del documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

I Marco Teorico 5

2 Fundamentos Teorıa de la Inversion 92.1 Teorıa del Consumidor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3 Analisis Tecnico 133.1 Candlesticks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

II Modelo Propuesto para Soporte al Proceso de Seleccion de Portafolio 19

4 Modelo Propuesto 234.1 Modelo Identificacion Formas Basicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 234.2 Modelo para Generacion de Expectativas . . . . . . . . . . . . . . . . . . . . . . . . . 284.3 Seleccion de Activos para Diseno de Portafolio . . . . . . . . . . . . . . . . . . . . . . 33

III Experimentacion y Analisis de Resultados 35

5 Experimentacion 395.1 Conjunto de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395.2 Diseno Experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395.3 Analisis de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

6 Conclusiones y Trabajo Futuro 49

Apendices 53

Apendice A: Artıculo Estado del Arte 55

iv

Page 7: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Apendice B: Glosario de Terminos Financieros 69

Apendice C: Resumen de Probabilidad y Estadıstica 77Experimento aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78Valor Esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78Desviacion Estandar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79Correlacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

Apendice D: Desarrollo de la Herramienta Computacional 81Vision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81Plan de Iteraciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83Modelo de uso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84Manual de usuario PDM-Data Manager . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89Manual de usuario PDM- Candles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95Manual de usuario PDM- Prefixtree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95Manual de usuario PDM-Patterns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

Bibliografıa 107

v

Page 8: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Lista de Tablas

4.1 Candlesticks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.2 Candlesticks y tamanos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.3 Ejemplos esquemas de representacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.4 Estados de la naturaleza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.1 Conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405.2 Experimentos catalogo de patrones y expectativas . . . . . . . . . . . . . . . . . . . . . . 425.3 Experimentos Expectativas y Seleccion de Activos . . . . . . . . . . . . . . . . . . . . . . 435.4 Resultados Fase 1 - Experimentos Grupo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 455.5 Resumen Fase 2- Experimentos Grupo 1 y Grupo 2 . . . . . . . . . . . . . . . . . . . . . . 465.6 Resultados Experimentos Expectativas y Seleccion de Activos . . . . . . . . . . . . . . . . 48

vi

Page 9: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Lista de Figuras

2.1 Conjunto disponible y restriccion presupuestal . . . . . . . . . . . . . . . . . . . . . . . . 10

3.1 Google Precio de cierre - Grafica de lınea . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.2 Google - Grafica de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.3 Google - Candlestick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.4 Barras vs Candlestick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.5 Basic Candlesticks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.6 Patrones de ruptura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.7 Patrones de continuacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4.1 Sistema clasificador difuso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244.2 Conjuntos difusos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.3 Posicion relativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284.4 Secuencia y estado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.5 Arbol de prefijos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.1 Patrones tamano 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415.2 Patrones tamano 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.3 Espacio TPR vs FPR (tomada de http://en.wikipedia.org/wiki/Receiver operating characteristic) 445.4 Espacio ROC seleccion de activos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475.5 Tasa de Error clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

1 Variable Aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 772 Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 803 Correlacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

4 Modelo de datos - PDM Data Manager . . . . . . . . . . . . . . . . . . . . . . . . . . . . 825 Formas basicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 836 Arquitectura general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 847 Diagrama casos de uso PDM-Data Manager . . . . . . . . . . . . . . . . . . . . . . . . . . 858 Casos de uso PDM-Candles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 869 Casos de uso PDM-Prefixtree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8710 Casos de uso PDM-Patterns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8811 Ventana principal -PDM Data Manager . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9012 Manage Markets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9113 Manage Companies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9214 Manage Stocks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9315 Manage Quotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9416 Ventanas para creacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9417 Ventana para carga de precios mediante archivo . . . . . . . . . . . . . . . . . . . . . . . . 9618 Grafica Candlesticks 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

vii

Page 10: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

19 Grafica Candlesticks 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9720 PDM Candles - Ventana Principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9721 PDM Candles - Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9822 PDM Candles - Archivo CSV generado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9823 PDM Prefixtree - Ventana Principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9924 PDM Prefixtree - Ventana construccion catalogo . . . . . . . . . . . . . . . . . . . . . . . 10025 PDM Prefixtree - Panel arbol de prefijos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10126 PDM Prefixtree - Panel arbol de patrones . . . . . . . . . . . . . . . . . . . . . . . . . . . 10127 PDM Prefixtree - Reglas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10228 PDM Patterns - Ventana Principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10229 PDM Patterns - Panel parametros de codificacion . . . . . . . . . . . . . . . . . . . . . . 10330 PDM Patterns - Panel parametros de analisis . . . . . . . . . . . . . . . . . . . . . . . . . 10331 PDM Patterns - Panel seleccion de acciones . . . . . . . . . . . . . . . . . . . . . . . . . . 10332 PDM Patterns - Reporte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10433 PDM Patterns - Visor arboles de patrones . . . . . . . . . . . . . . . . . . . . . . . . . . . 10434 PDM Patterns - Visor secuencia de candlesticks . . . . . . . . . . . . . . . . . . . . . . . . 10535 PDM Patterns - Simulador portafolios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

viii

Page 11: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Capıtulo 1

Introduccion

El problema de seleccion de portafolio es reconocido en la comunidad academica y empresarial comouno de los grandes desafıos de las finanzas, la estadıstica y las ciencias de la computacion, debido asus caracterısticas especiales, como son la complejidad e incertidumbre implıcita en los procesos, y lafundamentacion de tipo economico que lo orienta (generacion de riqueza). De forma general consisteen la seleccion de un conjunto de activos de un universo disponible, de acuerdo con un conjunto devariables objetivo del tomador de decisiones, que definen el modelo de inversion. Tal como se planteaen [54], el proceso de seleccion se compone de dos etapas:

• Generacion de expectativas: con base en los valores historicos de las series financieras, lainformacion del mercado, y el conocimiento del tomador de decisiones, se construyen expectati-vas acerca del comportamiento futuro de los activos y la dinamica del mercado que define esecomportamiento.

• Diseno del portafolio: con base en las expectativas obtenidas y el perfil del tomador dedecisiones (tolerancia del riesgo, horizonte de planeacion, posicion, etc) se selecciona el conjuntode activos y tıtulos (acciones, bonos, monedas, etc) en los cuales se debe invertir, ası comola proporcion de inversion de riqueza en cada uno de estos; esta seleccion esta dirigida por lanecesidad de optimizar las variables objetivo del proceso, que se asocian con el perfil del tomadorde decisiones. Por ejemplo, dos criterios clasicos de seleccion son maximizar el retorno esperadoy minimizar el riesgo del portafolio. Trabajos como los de Markowitz y Sharpe en [54] y [69]respectivamente, han definido los fundamentos financieros y matematicos del diseno de portafolioen un bloque teorico conocido como la Teorıa Moderna de Portafolio.

De forma general, las expectativas que dirigen el proceso de diseno del portafolio, son reglas,patrones o relaciones, que definen el comportamiento esperado de los activos con base en el mercado ytodos los activos disponibles1. Este comportamiento es representado a traves de series de tiempo quepresentan el historico de algun valor caracterıstico del activo. Estos valores caracterısticos describenel activo desde el punto de vista de su comportamiento en un mercado financiero a traves del tiempo.

Los enfoques para generar estas expectativas, se pueden agrupar en tres grupos: prediccion de seriesde tiempo (Forecasting), generacion de reglas de asociacion, identificacion de patrones y tendencias,tal como se plantea en [53]. En la actualidad, todo el desarrollo resumido por estos 3 enfoques, juntocon el crecimiento de los modelos financieros asociados con el proceso, estan convergiendo hacia la con-struccion de modelos hıbridos que combinan estos enfoques de generacion de expectativas, con nuevasmetodologıas como la computacion flexible y la Minerıa de Datos. Cabe mencionar aquı trabajos comolos de Wilson [78] y Das et al [21]. En el caso de [78], se presenta un sistema hıbrido para la prediccionde precios de acciones que se basa en diferentes modelos tecnicos, estadısticos y adaptativos. El nucleo

1Al conjunto de activos o tıtulos disponibles en el mercado para efectos de diseno de un portafolio, se le denominauniverso de seleccion

1

Page 12: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

del sistema es una red auto-organizativa que evalua mediante cada una de las entradas de la red, cualde los modelos utilizados se desempena mejor para cada una de las acciones del universo de seleccion.Luego, la capa de salida de la red con base en la recomendacion de los modelos seleccionados, con-struye el portafolio teniendo en cuenta el valor del riesgo definido por el tomador de decisiones. En[21], se generan reglas a partir del analisis de series financieras. Estas reglas expresan expectativas anivel de comportamiento temporal en una misma serie (autocorrelacion) y correlacion entre diferentesseries. El proceso de construccion de las reglas se basa en el uso de tecnicas de agrupacion (K-meansespecıficamente) como herramienta para identificar patrones en las series, utilizando como medidade similitud L2 (distancia euclidiana). Esta tecnica requiere como parametros el valor de la ventanatemporal para discretizacion de las series y el numero de patrones a encontrar (utilizando K-means)sobre los conjuntos discretizados. Las reglas de asociacion encontradas, expresan la relacion entre lapresencia de patrones frecuentes en series de precios de cierre, que son identificados con la tecnica deagrupacion.

En materia de modelos clasicos para abordar el problema de seleccion de portafolio, las aproxima-ciones desde la teorıa financiera y las ciencias de la computacion asumen que las series de tiempo se decomportan bajo distribuciones normales, descritas por una medida de tendencia y una de variacion.Pero el reciente crecimiento de areas de investigacion como la Minerıa de Datos, y la orientacion desus tecnicas como la extraccion de conocimiento y el manejo de grandes volumenes de informacion(tanto cuantitativa como cualitativa), presentan al problema del portafolio nuevas opciones de imple-mentacion y de solucion, sin los supuestos de normalidad. Trabajos como los presentados en [78] y[21], plantean nuevos horizontes en materia de sistemas hıbridos para la solucion del problema. Porejemplo, la identificacion de patrones en series financieras con tecnicas de agrupacion, requiere el usode esquemas automaticos que no necesiten la definicion de parametros del conjunto posible (por ejem-plo el numero de clusters), de tal forma que los resultados sean mas versatiles e identifiquen de formamenos restringida el conocimiento implıcito en los datos de las series. Por otro lado, caracterısticas delos patrones como escalamiento en tiempo y amplitud, translacion vertical y ruido, revelan la necesi-dad del uso de medidas de similitud robustas y aplicables al proceso. Por ejemplo, Dynamic TimeWarping es una medida de similiaridad presentada en [46] y [47] , cuya motivacion es tratar con seriesque tienen caracterısticas especiales como las mencionadas anteriormente.

El proceso de analisis de tendencias e identificacion de patrones en series financieras es de vitalimportancia para campos de estudio como el Diseno Activo de Portafolios, el Analisis de Series yModelos cualitativos. Con el crecimiento constante del numero transacciones registradas en la bolsa yla adicion de nuevas companıas a los mercados de intercambio, la identificacion de patrones en serieses cada vez mas compleja dada la cantidad de informacion disponible. Este proceso de reconocimientoesta limitado por supuestos patrones ya definidos por el analisis tecnico [60], y dada la dinamica delmercado es necesario tambien analizar nuevos patrones emergentes que aun no han sido identificados(partiendo del supuesto que estos patrones existen). Aquı el factor motivante y generador de investi-gacion, es que los modelos de clasicos de diseno de portafolio no estan elaboradoras para operar coninformacion cualitativa y reglas de prediccion, sino con distribuciones de probabilidad de los retornosesperados de las acciones. En esta medida se requiere de una herramienta computacional que soporteal proceso de diseno de portafolio abordando el problema de la generacion de expectativas como unproceso de reconocimiento de patrones, que aproveche las bondades propuestas por el analisis tecnico.Esta herramienta debe cubrir las necesidades de manipulacion de grandes volumenes de informaciony descubrimiento automatico de conocimiento en las series financieras (a manera de reglas).

Bajo esta optica, el proposito de esta tesis para obtar al tıtulo de Maestrıa en Ingenierıa - Ingenierıade Sistemas y Computacion, es el desarrollo de una herramienta de software basada en minerıa dedatos, para soporte al proceso de Seleccion de Portafolio. Esta herramienta plantea una implementacioncomputacional de una tecnica para reconocimiento de patrones en series financieras, conocida comocandlesticks. Estos candlesticks se definen a traves de reglas linguısticas para el reconocimieno visual depatrones y proporcionan expectativas del comportamiento futuro de las acciones. En el caso particularde esta tesis se utiliza razonamiento difuso para la identificacion de los candlesticks. Estos candlesticksreconocidos sobre el conjunto de datos, se organizan como patrones mediante un arbol de prefijos

2

Page 13: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

sobre el cual se generan expectativas(reglas) que son usadas entonces para sugerir al tomador deinversiones la composicion de su portafolio para el dıa de analisis seleccionado. La definicion delmodelo computacional representa un aporte valioso al campo financiero y al campo computacional, enla medida que un modelo computacional permitira realizar de forma automatica un proceso manualque en el contexto financiero requiere esfuerzo y tiene un nivel de complejidad asociado, como lo es elreconocimiento de patrones en grandes volumenes de datos.

1.1 Objetivos y Aportes

Con base en el objetivo general de implementar una herramienta de software basada en minerıa dedatos, para soporte al proceso de Seleccion de portafolio, se presentan a continuacion los objetivosespecıficos definidos y se describen los aportes de la tesis para cada uno:

• Objetivo 1: Elaborar un estado del arte desde el punto de vista de los modelos computacionesaplicados al proceso de seleccion de portafolio. Como resultado de este objetivo se publico en laRevista Ingenierıa e Investigacion [53] (Ver Apendice A) un artıculo estado del arte de modeloscomputaciones utilizados en el proceso de Seleccion de Artıculo. El aporte de este artıculo radicaen la taxonomia de tecnicas presentada y en la descripcion del proceso de seleccion como unproblema de seleccion multiobjetivo, el cual es presentado comunmente en un enfoque netamentefinanciero. Este estado del arte permitio identificar como la tecnica de candlesticks no habia sidoutilizado antes para la generacion de expectativas.

• Objetivo 2: Disenar un modelo de generacion de expectativas basado en razonamiento difuso yarboles de prefijos. El modelo de generacion de expectativas propuesto incluye un sistema clasi-ficador difuso, que permite usar computacionalmente las reglas linguisticas usadas en el procesohumano de reconocimiento de candlesticks. Este modelo aborda el problema desde una perspecti-va de reconocimiento de patrones y no como un problema de prediccion clasico (aproximacion defunciones). Adicionalmente el uso del arbol de prefijos permite organizar las secuencias de can-dlesticks encontradas en los datos reales, de tal forma que se construye un catalogo de patronesque permite evaluar la frecuencia y capacidad de dar informacion de cada patron.

• Objetivo 3: Desarrollar un modelo de diseno de portafolio, basado en el modelo de generacion deexpectativas. Uno de los elementos claves del proceso de diseno de portafolio radica en la seleccionde los activos que formaran parte del portafolio con base en las expectativas generadas. Elaporte del modelo de diseno propuesto, radica en que permite seleccionar del universo disponibleaquellos activos, que para un dıa de analisis definido proporcionan una perspectiva de mercadocreciente con base en el analisis de los candlesticks proporcionados por el analisis tecnico.

• Objetivo 4: Implementar un prototipo de software basado en los modelos de generacion deexpectativas y diseno de portafolio construidos en el proyecto. Este prototipo permite validar losmodelos propuestos y proporciona a los tomadores de deciciones una herramienta para soporte alproceso, que va desde la gestion de datos hasta la seleccion de activos para diseno de portafolios.

• Objetivo 5: Evaluar el desempeno del prototipo de software desarrollado, con series de tiempode acciones reales. Con el uso de series de acciones reales se puede validar como el prototipo con-tribuye al proceso de seleccion, generando portafolios de inversion y visualizando los resultadosde estos.

1.2 Organizacion del documento

Este documento presenta el desarrollo del proceso de investigacion y desarrollo en cuatro partes queson: marco teorico, modelo propuesto, proceso de desarrollo de la herramienta computacional, y analisis

3

Page 14: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

de resultados obtenidos y conclusiones. En la primera parte se presenta la teorıa financiera asociadacon el proceso de Seleccion de Portafolio, con los siguientes capıtulos:

• Capıtulo 2: presenta fundamentos de la teorıa de la inversion como la teorıa del consumidoren la cual se basan los modelos de portafolio..

• Capıtulo 3: presenta el analisis tecnico y la tecnica de candlesticks como herramienta paraidentificacion de patrones en series de acciones. El modelo propuesto usa los candlesticks delanalisis tecnico para abordar el proceso de seleccion de activos en el diseno de portafolios.

La segunda parte esta dedicada al modelo propuesto. Incluye el Capıtulo 4 en el cual se defineel modelo para identificacion de formas basicas de candlesticks con un sistema clasificador difuso y elmodelo para generacion de expectativas usando arboles de prefijos.

En la tercera se presentan los resultados del proceso con los siguientes capıtlos:

• Capıtulo 5: describe el proceso de experimentacion usando datos reales del mercado bursatil.Este capıtulo incluye la descripcion del conjunto de datos, el diseno experimental y el analisisde los resultados obtenidos.

• Capıtulo 6: plantea los conclusiones del proceso y el trabajo futuro.

Adicionalmente, el documento tiene una seccion de Apendices para contextualizar al lector nofamiliarizado con la terminologıa y conceptos financieros, y mostrar el proceso de desarrollo de losprototipos que soportaron la experimentacion:

• Apendice A: estado de arte sobre tecnicas computaciones utilizadas en la generacion de ex-pectativas.

• Apendice B: glosario de terminos financieros.

• Apendice C: repaso de la estadıstica usada en el proceso de Seleccion de Portafolio

• Apendice D: proceso de desarrollo de los prototipos construidos como producto de la tesis.

Mario Linares VasquezDepartamento de Ingenierıa de Sistemas

Universidad Nacional de Colombia

4

Page 15: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Parte I

Marco Teorico

5

Page 16: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia
Page 17: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

En la filosofıa la mente esta aferrada a las cosas,mas en la poesıa se halla libre de tales cadenas

y puede divagar y fingir lo que le plazca.Francis Bacon. Teorıa del Cielo

7

Page 18: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia
Page 19: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Capıtulo 2

Fundamentos Teorıa de la Inversion

2.1 Teorıa del Consumidor

Cada uno de los agentes que forman parte de un sistema economico se encuentran intimamente ligadoscon los procesos de produccion y mas especıficamente con el consumo de los productos generados porestos procesos al interior del sistema. Bienes y servicios, dinero, etc, son la materializacion de estosproductos y las personas u organizaciones son la representacion de los agentes que quieren de una otraforma poseer esos productos de acuerdo con criterios como la necesidad, el lujo, o de forma general laadquisicion de bienestar.

Este proceso de adquisicion de productos con base en la maximizacion de la satisfaccion o lautilidad, esta fundamentado en la toma de decisiones racionales (con o sin incertidumbre), y se conocecomo el Problema del Consumidor.

El problema del consumidor se modela como un problema de optimizacion que se define a travesde 4 elementos, que son los siguientes: el conjunto de oportunidades disponible, las restricciones pre-supuestales, las preferencias individuales de consumo y el comportamiento de consumo representadosen las elecciones hechas con el fin de maximizar la satisfaccion.

Para ilustrar el problema del consumidor, a continuacion se presentaran cada uno de los elementos,antes de enunciar el modelo formal.

2.1.1 Conjunto de Oportunidades

El proceso de adquisicion de bienes esta dirigido en primera instancia por el universo de selecciondisponible en el mercado. Las oportunidades de elegir una canasta o conjunto de bienes son directa-mente observables por cualquier consumidor, y cualquier variacion en las oportunidades debera influirdirectamente sobre la eleccion. Es decir, los cambios en la eleccion son debidos en gran parte a lavariacion en el universo de seleccion. En esta medida se define el conjunto de oportunidades, como elconjunto n de productos disponibles en el mercado.

2.1.2 Restricciones Presupuestales

De forma general cuando el consumidor se dispone a comprar algun bien, no solo encuentra el bienbuscado sino otros (conjunto disponible) que le hacen reflexionar sobre la canasta a comprar. Estasituacion evidencia como las condiciones para la toma de decisiones han cambiado y por ende elconjunto de oportunidades.

Aquı es donde en la toma de la decision respecto a la compra interviene un segundo elemento, yes la cantidad de dinero que posee el consumidor al momento de la compra. Esta condicion se definecomo la restriccion presupuestal. Si el consumidor posee un valor de riqueza que se denomina y, y cadauno de los n productos del conjunto disponible tienen un precio pi ∀i, i = 1, .., n, se define entonces lasiguiente la relacion

9

Page 20: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

n∑i=1

pixi ≤ y (2.1)

donde xi representa el porcentaje de la riqueza y que el consumidor utilizara en la compra delproducto i, o la cantidad del bien i a comprar. La relacion (2.1) expresa la restriccion presupuestal enel problema de consumidor bajo el hecho que el costo de los bienes a consumir o adquirir esta limitadopor la cantidad de riqueza que dispone el tomador de decisiones para efecto del consumo.

Figura 2.1: Conjunto disponible y restriccion presupuestal

La Figura 2.1 ilustra el efecto de la restriccion presupuestal sobre un conjunto disponible de 2productos (A y B). Ası una canasta se puede expresar como una combinacion de cantidades deproducto A y B. Pero la restriccion presupuestal reduce las opciones a un conjunto valido a traves delcual el consumidor debe seleccionar las mas atractivas bajo un criterio de satisfaccion o utilidad. Porejemplo los puntos o, p y q son combinaciones validas pero el consumidor en particular define cual esmas atractiva.

El modelo basico de consumo involucra solo una restriccion que esta definida por la riquezadisponible, pero otros elementos pueden ser involucrados como el tiempo disponible, el maximo nivelde ocio soportado, extendiendo ası el problema basico a un problema multiobjetivo.

2.1.3 Preferencias individuales

Un elemento fundamental desde el punto de vista de la teorıa del consumidor es la comprension ymodelado de como los individuos realizan sus decisiones y como seleccionan alternativas de un conjuntodisponible de las mismas. Desde el punto de vista miroeconomico, cada individuo ordena o prioriza lasalternativas de seleccion de acuerdo con su preferencia relativa. Segun esto, cuando el individuo realizauna eleccion, selecciona la alternativa que mejor satisfaga sus necesidades en un momento dado.

Este proceso de seleccion sobre m alternativas, que se traduce en un orden de preferencias expresadopor el consumidor, define una relacion de orden entre las alternativas disponibles. Por ejemplo, cuandoalgunas alternativas tienen el mismo nivel en la lista de preferencias, el consumidor tendra indiferenciaentre las mismas.

Existen dos propiedades asociadas con la relacion de orden:

10

Page 21: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

(i) Una relacion de orden permite comparar 2 alternativas diciendo cual es dominante o preferida,o definir cuando ambas tienen el mismo nivel de preferencia.

(ii) La relacion de orden es transitiva, es decir si una alternativa A es mayor que una alternativa B,y esta ultima mayor que una C, entonces A es mayor q C.

Las relaciones de preferencias se usan para caracterizar los deseos de los consumidores, por variascombinaciones de bienes. Los bienes son indexados de 1 hasta n. Una canasta de bienes se defineentonces como la coleccion de varias cantidades de esos n bienes, y la cantidad de cada bien en unacanasta es un numero real positivo. Ası cada consumidor tiene sus relaciones de preferencia propias.

El instrumento formal para identificar las relaciones de preferencia se conoce como Funcion deutilidad y se define bajo la siguiente condicion: Si la relacion de orden es completa, transitiva, reflex-iva y continua, entonces las preferencias se pueden representar a traves de una funcion de utilidadcontinua.

La funcion de utilidad U , es una funcion real, definida de la siguente forma:

U : <n → <(x1, x2, .., xn) 7→ f(x1, x2, .., xn)

donde el conjunto de x representa el conjunto cantidades de compra de los bienes o canasta de bienes(con la condicion que el orden de las preferencias sobre estas se preserva por la magnitud de U(x))y f mide la satisfaccion o bienestar producido por la canasta. Ası, una funcion de utilidad tiene lapropiedad de que dados dos elementos x(1) y x(2) en X se cumple que U(x(1)) ≥ U(x(2)) sı y solosı x(1) es mas atractiva que x(2).

2.1.4 El problema del consumidor

Cualquier consumidor se ha visto en la situacion de que sus deseos de elegir n bienes se ven frustradoscuando decide ir de compras a un centro comercial. Esta situacion de frustacion confirma claramentecomo las preferencias individuales son afectadas por restricciones como la cantidad de dinero que setiene para comprar los bienes. Esta situacion representa el Problema del Consumidor.

Una canasta se define como la representacion de un vector n-dimensional x(k) de numeros nonegativos, donde comunmente se asume que los bienes son divisibles Un consumidor selecciona unacanasta que contiene un conjunto de bienes descritos por el vector x(k) = (x1, x2, .., xn) donde xi

∀i = 1, .., n representa la cantidad del bien i-esimo en la canasta k. Las preferencias del consumidor,sobre varias posibles canastas, se representa por la relacion de preferencias definida por la funcion deutilidad U(x).

Asociado a cada bien i existe un precio, medido en alguna unidad monetaria pi > 0, de tal formaque el costo de elegir xi sera pixi. En esta medida el costo total de elegir la canasta x(k) sera

∑ni=1 pixi.

Asumiendo, que el consumidor tiene un presupuesto o nivel de riqueza de y unidades monetarias,el problema del consumidor en su version basica se define como un problema de optimizacion de lasiguiente forma:

max U(x)

sujeto an∑

i=1

pixi ≤ y (2.2)

y en su forma general de l restricciones y k funciones de utilidad, es decir el problema del consumidoren su version multiobjetivo se expresa

max U(x) = [U1(x), U2(x), ..., Uk(x)]T

sujeto a gi(x) ≤ yi ∀i, i = 1..l (2.3)

11

Page 22: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

2.1.5 Portafolios de Inversion

El proceso de diseno de portafolio es una instancia particular del problema del consumidor en elmercado bursatil. Consiste en seleccionar bajo algun criterio particular, el conjunto de activos deluniverso de seleccion en los cuales se va a invertir. Adicionalmente incluye la seleccion de los porcentajesde inversion en cada uno de los activos. Este proceso se describe como un problema de optimizacionmultiobjetivo en el cual, el tomador de decisiones selecciona en un conjunto de soluciones dominantes,la opcion que vaya mejor con su perfil.

Este proceso de seleccion de los activos incluye una fase de generacion de expectativas (preferenciasindividuales) respecto al comportamiento futuro de los activos, con la cual se define la estrategia deinversion a seguir. Estas expectativas, de forma general se construyen desde dos puntos de vistao esquemas de analisis de la informacion disponible, que se conocen como Analisis Fundamental yAnalisis Tecnico. En el primero, el objetivo es establecer el precio de los activos con base en toda lainformacion disponible en el mercado, como lo son historicos, noticias, indicadores macroeconomicos,etc. En el segundo, el objetivo es encontrar tendencias de comportamiento con base en los precioshistoricos de los tıtulos. En la siguiente seccion se presentara mas en detalle el Analisis Tecnico.

12

Page 23: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Capıtulo 3

Analisis Tecnico

El comportamiento del mercado bursatil se presenta como informacion disponible en diferentes formas.Generalmente se habla de indicadores, ındices, precios, estados financieros, etc, pero la forma esencialde informacion disponible, son las series de tiempo que registran los valores caracterısticos de los tıtuloso activos del universo disponible. En el caso particular del mercado bursatil el universo disponiblese compone de acciones. Estos valores caracterısticos representan el comportamiento diario de lasespecies1 como resultado de la dinamica temporal del mercado:

• Precio de Apertura (YA(t)): es el valor que tiene la especie en el momento de apertura de unasesion del mercado de intercambio al cual esta asociado el activo.

• Precio de Cierre (YC(t)): es el valor que tiene la especie al momento de cierre de una sesion delmercado de intercambio al cual esta asociado el activo. El precio de cierre es el valor que se tomacomo referencia cuando se analiza un tıtulo para efectos de diseno de portafolio.

• Promedio (YP (t)): es el valor promedio de todos los precios obtenidos por una especie duranteuna sesion del mercado.

• Maximo (Ymax(t)) y Mınimo (Ymin(t)): son los valores maximo y mınimo que obtuvo una especiedurante una sesion del mercado.

• Volumen (V (t)): se mide como el producto de la cantidad por el precio de transaccion de cadaunidad.

• Cantidad (Q(t)): es la cantidad de acciones(unidades) de una especie particular transadas du-rante una sesion de mercado.

Una serie de tiempo se define como una secuencia S de valores si indexados y ordenados por eltiempo. En el caso de las series de acciones cada si es un valor representativo de su comportamiento enel mercado, que suele llamarse precio. Estos precios son valores reales que marcan el comportamientode una accion en un dıa; estos precios se definen por la dinamica del mercado y son precio de cierre,precio de apertura, precio mınimo y precio maximo. Adicionalmente a los precios se utiliza tambienel volumen que se define como el numero de acciones transadas en el mercado durante el dıa. De unaespecie de accion (por ejemplo la accion de GOOGLE en NYSE) en particular se pueden tener mınimo5 series de tiempo que describen el comportamiento de la accion 2. De estas, la serie del precio de cierrees la mas utilizada bajo el supuesto que este valor revela todo el ejercicio diario de los agentes del

1El termino especie se utiliza para referirse a la accion que una empresa en particular registra en el mercado de bolsapara efectos de negociacion y transaccion. El termino accion se utilizara para referirse a las unidades de una especie enparticular que son negociadas.

2Se menciona aquı que mınimo 5 series, porque en el analisis tambien se utilizan los indicadores tecnicos o losretornos, que son funciones de transformacion de los precios que a su vez son tambien series de tiempo.

13

Page 24: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

mercado. Las series de tiempo financieras son especialmente reconocidas por la motivacion economicaque sugieren (adquisicion de riqueza) y por un conjunto de caracterısticas propias. De acuerdo con lainformacion que se utiliza en el proceso de analisis de las series financieras, el tomador de decisionespuede abordar el problema desde la optica del Analisis Fundamental, el Analisis Tecnico o una mezclade ambas.

El Analisis Fundamental utiliza toda la informacion disponible y existente como por ejemplo,indicadores macroeconomicos, estados financieros de las companıas, noticias y fundamentales. En estamedida el objetivo es con base en toda esa informacion calcular el valor que debe tener una accion.El Analisis Tecnico solo utiliza como informacion disponible los precios historicos de las acciones. Elejercicio de este tipo de analisis consiste en pronosticar el precio de las acciones con base en graficase indicadores tecnicos. Tres supuestos estructuran el esquema teorico a partir del cual se construye elanalisis tecnico:

• El precio revela toda la informacion del mercado.

• Los precios se mueven en tendencias.

• La historia del mercado se repite.

Como el precio refleja toda la informacion que lo puede afectar (noticias, fundamentales, indi-cadores macroeconomicos, demanda, oferta, etc), para efectos de predecir el comportamiento del mer-cado solo se requiere entonces el estudio de los precios historicos de las acciones. Como estos preciosse mueven en tendencias, el uso de graficas proporciona un mecanismo a traves del cual el tomadorde decisiones identifica tendencias de los precios para ejecutar las estrategias de compra/venta en elsentido de esas tendencias. Adicionalmente, la psicologıa del mercado se revela en el comportamientohistorico que puede ser representado a traves de patrones graficos. El acervo de conocimiento delanalisis tecnico presenta un conjunto de patrones que han sido identificados y categorizados en elpasado. Estos patrones son propios del tipo de grafica que utiliza el tomador de decisiones. En elanalisis tecnico se utilizan cuatro tipos de graficas que son: grafica de lıneas, grafica de barras, graficade puntos y figuras, y candlesticks.

3.1 Candlesticks

Las graficas y los indicadores tecnicos son las herramientas fundamentales que los seguidores delAnalisis Tecnico usan con el objetivo de predecir el comportamiento futuro del mercado. Las graficasproporcionan una representacion visual de los precios caracterısticos de las acciones (apertura, cierre,maximo, mınimo), mientras que los indicadores tecnicos son medidas del comportamiento del mercado.

Las graficas de lınea presentan solo un precio caracterıstico, que generalmente es el precio de cierre.Si el analista desea visualizar otro valor, debe entonces pintar otra serie de tiempo en el grafica. Estasson utilizadas tambien para visualizar el comportamiento de indicadores tecnicos a lo largo del tiempo(Figura 3.1).

Las graficas de barras presentan en un sola figura los precios de cierre, maximo y mınimo; si elprecio de apertura es disponible suele pintarse tambien. Se llama de barras, porque una lınea verticales utilizada para representar el rango de precios entre el maximo y el mınimo. Los precios de cierrey apertura se pintan como una pequena marca horizontal sobre la barra vertical, que van hacia haciala derecha y la izquierda respectivamente (Figuras 3.2 y 3.4).

Los Candlesticks (Figura 3.3 ) son la version Japonesa de las graficas de barras. La diferencia entreambos tipos de graficas, radica en que los candlesticks visualmente proporcionan mas informacion, enla medida que es mas clara la diferencia y la direccion del cambio entre los precios de cierre y apertura.El cuerpo de los candlesticks es un rectangulo que representa el rango definido por los precios de cierrey apertura. En el caso que el precio de apertura es mayor, el cuerpo es de color negro, en caso contrarioel cuerpo es blanco (Figura 3.4). Adicionalmente los precios maximo y mınimo son representados comobarras verticales que salen del cuerpo.

14

Page 25: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 3.1: Google Precio de cierre - Grafica de lınea

Figura 3.2: Google - Grafica de barras

Si el precio revela todo y el mercado se mueve en ciclos el oficio de los analistas tecnicos es re-conocer las relaciones existentes entre los precios, el tiempo y los datos historicos. En esta medida loscandlesticks son la herramienta preferida a la hora de reconocer patrones porque permiten identificarel comportamiento de los mercados y la psicologıa de los tomadores de decisiones mediante configura-ciones especıficas de los precios de las acciones. Estas configuraciones son denominadas formas basicasy se reconocen como figuras con cuerpo y colas particulares(Figura 3.5):

• Marubozu (1).

• Long days (2).

15

Page 26: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 3.3: Google - Candlestick

Figura 3.4: Barras vs Candlestick

• Long lower shadow (3).

• Shaven Head (4).

• Hanging Man (5).

• Hammer (6).

• Spinning Top (7).

• Inverted Hammer (8).

• Shooting Star (9).

• Shaven Bottom (10).

• Long upper shadow (11).

• Dojis (12): neutral, long legged, Dragonfly doji, Gravestone doji.

16

Page 27: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 3.5: Basic Candlesticks

Una coleccion secuencial de formas basicas se define como un patron candlestick que representa elcomportamiento de los agentes del mercado y la mentalidad de los tomadores de decisiones. Un patronse describe por la secuencia de formas basicas asociadas, la posicion relativa de estas en la secuencia,y el estado de la naturaleza asociado. Estos estados de la naturaleza describen el comportamientoasociado al patron, es decir su naturaleza de ruptura o continuacion de la tendencia posterior a lasecuencia. Estos patrones son reconocidos de forma visual con base en reglas que generalmente seexpresan en lenguaje natural, y forman parte del acervo de conocimiento del analisis tecnico y susseguidores. Las reglas se usan tanto en el proceso de identificacion de las formas individuales comopatrones especıficos. En el caso de identificacion de formas basicas, se definen utilizando relacionesde magnitud de las partes de la forma: cuerpo, cola(sombra) superior y cola (sombra) inferior. Unejemplo de estas reglas es : si la cola superior es muy pequena o pequena, el cuerpo es pequeno, yla cola inferior es larga, la figura basica es entonces un hammer(ver Figura 3.5). En el caso de lospatrones las reglas se definen utilizando posiciones relativas entre una secuencia de forma basica quetiene un estado de la naturaleza asociado.

En el marco de trabajo del analisis tecnico, estos patrones han sido observados a lo largo deltiempo y algunos han sido catalogados debido a su ocurrencia frecuente y la implicacion de estos en elcomportamiento futuro del mercado. Las figuras 3.7 y 3.6 presentan ejemplos de patrones de rupturay patrones de continuacion respectivamente.

Los patrones de ruptura de tendencia, que aparecen en la Figura 3.7 son: Eveninng star (1),Morning star (2), Rising three methods (3), Inverted hammer (4), Engulfing (5), Aban-doned baby(6), Unique three river (7), Three stars in the south (8), Breakaway (9),Concealling baby swallow (10). Los patrones de continuacion , que aparecen en la Figura 3.6 son:Upside tasuki gap (1), Downside tasuki gap (2), Side by side white lines + (3), Side byside white lines - (4), Three line strike + (5), Three line strike - (6). Para una referenciacompleta del catalogo de patrones ver [60].

17

Page 28: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 3.6: Patrones de ruptura

Figura 3.7: Patrones de continuacion

18

Page 29: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Parte II

Modelo Propuesto para Soporte al Procesode Seleccion de Portafolio

19

Page 30: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia
Page 31: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

The first step in forecasting the businessor economic future consists, thus of

gathering observations from the past.Freund John E and Frank J Williams,

Modern business Satistics

21

Page 32: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia
Page 33: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Capıtulo 4

Modelo Propuesto

En materia de esfuerzos computacionales para generacion de expectativas para diseno de portafolios deinversion, varios enfoques y tecnicas han sido utilizadas. La mayoria de los esfuerzos de investigacion sehan orientado a modelos para prediccion (forecasting), aproximacion de funciones y regresion clasicasobre series de tiempo con el precio de cierre o indicadores tecnicos. En [53] (Ver Apendice A) sepresenta un estado del arte de tecnicas computacionales aplicadas a generacion de expectativas.

Desafortunadamente, los trabajos orientados a generacion de expectativas solo se han enfocadoen la informacion presente en el precio de cierre y algunos indicadores, a pesar de que en el mundoreal del analisis tecnico el ejercicio diario se basa en el analisis de graficas de candlesticks y en laidentificacion de patrones que llevan a la definicion de estrategias de inversion.

Los patrones candlesticks se han definido bajo un catalogo elaborado con base en la observacionhistorica de los mercados. Esta observacion incluye el analisis de grandes volumenes de informacion queson las series de tiempo historicas de las acciones o tıtulos en un mercado. Multiples preguntas aparecenen torno a la validez estadıstica de estos patrones y la completitud y correctitud del catalogo actual.En general, aquı nace el interes para la identificacion de patrones candlesticks de forma automatica,usando tecnicas propias de la minerıa de datos, desde un punto de vista exploratorio y de confirmacionde los supuestos del analisis tecnico.

Dadas las caracterısticas propias del proceso de reconocimiento de patrones candlesticks, el modelopropuesto en esta tesis tiene tres fases que son las siguentes:

• Identificacion de formas basicas y codificacion de series de tiempo en una seriesimbolica. El objetivo de esta fase es obtener una representacion simbolica de las series detiempo de los precios de los tıtulos. La representacion simbolica es una serie que representa loscandlesticks que se obtienen a partir de los precios reales. Esta representacion depende de losparametros seleccionados por el usuario para efectos de la codificacion

• Generacion de expectativas para Diseno de portafolio. Con las series simbolicas de lostıtulos seleccionados, se construye un catalogo historico de patrones, con base en las parametrosde construccion de patrones, seleccionados por el usuario. Para construir el catalogo se recorrentodas las series simbolicas, se extraen las secuencias y se identifica el estado de la naturalezaasociado con cada secuencia.

• Diseno de portafolio. Para un dıa de analisis seleccionado, se identifican las secuencias realesde ese dıa y se buscan en el catalogo las secuencias cuyo estado con mayor probabilidad deocurrencia este asociado a un estado de mercado creciente (bull).

4.1 Modelo Identificacion Formas Basicas

La identificacion de formas basicas se aborda como un proceso tıpico de clasificacion, que en la vidareal es un proceso de reconocimiento visual de patrones, realizado por el tomador de decisiones, con

23

Page 34: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 4.1: Sistema clasificador difuso

base en reglas que generalmente se expresan en lenguaje natural. Estas reglas se definen utilizandorelaciones de magnitud de las partes que tiene la forma basica: cuerpo, cola(sombra) superior y cola(sombra) inferior. Un ejemplo de estas reglas es : si la cola superior es muy pequena o pequena, elcuerpo es pequeno, y la cola inferior es larga, la figura basica es entonces un hammer(ver Figura 3.5).Es decir el universo del discurso que define los patrones basicos es cualitativo, y para efectos de suimplementacion computacional se requiere entonces de una tecnica capaz de manejar informacion deeste tipo, es decir que permita la implementacion de un modelo definido con informacion cualitativa.

Con base en esto se define para el modelo propuesto, la tarea de identificacion de formas basicascomo un proceso de clasificacion difuso, de tal forma que el mecanismo de razonamiento naturaldefinido a traves de reglas, se implemente computacionalmente a traves de razonamiento difuso. Laarquitectura del sistema clasificador difuso se presenta en la Figura 4.1. A continuacion se describencada uno de sus componentes.

4.1.1 Fuzzificador

Las entradas al fuzzificador son las series de tiempo de los valores caracterısticos, de tal forma que unaentrada individual es formada por los 4 valores de los precios. Las reglas difusas son evaluadas sobrelas magnitudes que representan una forma basica: tamano del cuerpo, tamano de la sombra superiory tamano de la sombra inferior. Estas medidas se definen de la siguiente forma:

body = |open− close|/|high− low| (4.1)

upShadow =|high− open|/|high− low|, open > close|high− close|/|high− low|, e.o.c

(4.2)

lowShadow =|close− low|/|high− low|, open > close|open− low|/|high− low|, e.o.c

(4.3)

Una forma basica se representa entonces como la tripla C = (body, upShadow, lowShadow) conbase en las definiciones dadas en las ecuaciones (4.1),(4.2) y (4.3). Cada tripla Ci sera evaluadacon base en los conjuntos difusos propios del problema, que seran aplicados a las magnitudes dela forma basica. En el caso particular de este modelo se definen cinco conjuntos difusos que son

24

Page 35: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 4.2: Conjuntos difusos

veryshort, short,medium, long, verylong. Las funciones de pertenencia de los conjuntos difusos sonlas siguientes (ver Figura 4.2):

µveryshort(x) =

1− 20x, x ≤ 0,050, x > 0,05 (4.4)

µshort(x) =

10x, x ≤ 0,11, 0,1 < x ≤ 0,32,5− 5x, 0,3 < x ≤ 0,40, x > 0,4

(4.5)

µmedium(x) =

0, x ≤ 0,3, x > 0,710x− 3, 0,3 < x ≤ 0,41, 0,4 < x ≤ 0,67− 10x, 0,6 < x ≤ 0,7

(4.6)

µlong(x) =

0, x ≤ 0,55x− 2,5, 0,5 < x ≤ 0,71, 0,7 < x ≤ 0,91− 10x, x > 0,9

(4.7)

µverylong(x) =

0, x ≤ 0,910x− 9, x > 0,9 (4.8)

4.1.2 Inferencia y reglas

El universo de reglas disponibles esta definido por la cantidad de formas basicas que sirven comoclases para el sistema. En esta medida se tiene una regla por cada forma basica (ver Figura 3.5). Estasreglas son de la forma IF x is Ai and y is Bi THEN z = ci con A y B conjuntos difusos y c un valorreal (singleton difuso) para todo i = 1, 2, ..., r. Este tipo de reglas son usadas en un metodo de razon-amiento difuso conocido como metodo de consequente simplificado en la medida que el consequentese define como una asignacion a una clase y no a un conjunto difuso. Para efectos de evaluacion delos antecedentes de las reglas se utiliza el operador min entre las variables :

25

Page 36: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

wj = µAj (x) ∧ µBj (y) = min(µAj (x), µBj (y)))

Ası cada wj representa el valor o pertenencia de una tupla Ci para la la regla j. La regla con elmayor valor wj es la regla ganadora, es decir, la que define la clase que sera asignada a la tupla. Elconjunto de reglas se presenta a continuacion:

1. IF body is verylong and up-Shadow is veryshort and low-Shadow is veryshort THEN c =1 (MARUBOZU)

2. IF body is long and upShadowis short and lowShadow is shortTHEN c = 2 (LONG)

3. IF body is medium and up-Shadow is short and lowShadowis medium THEN c = 3 (LONG-LOWER-SHADOW)

4. IF (body is long and upShad-ow is veryshort and lowShadowis short) or (body is medium andupShadow is veryshort and low-Shadow is medium) THEN c = 4(SHAVEN-HEAD)

5. IF body is short and upShad-ow is veryshort and lowShadowis long THEN c = 5 (HANGING-MAN)

6. IF body is short and upShadowis short and lowShadow is longTHEN c = 6 (HAMMER)

7. IF (body is short and upShad-ow is medium and lowShadow ismedium) or ( body is short andupShadow is short and lowShad-ow is medium) or (body is shortand upShadow is medium andlowShadow is short) THEN c =7 (SPINNING-TOP)

8. IF body is short and upShad-ow is long and lowShadow isshort THEN c = 8 (INVERTED-HAMMER)

9. IF body is short and up-Shadow is long and lowShad-ow is veryshort THEN c = 9(SHOOTING-STAR)

10. IF (body is long and upShad-ow is short and lowShadow isveryshort) or (body is mediumand upShadow is medium andlowShadow is veryshort) THENc = 10 (SHAVEN-BOTTOM)

11. IF body is medium and up-Shadow is medium and lowShad-ow is short THEN c = 11(LONG-UPPER-SHADOW)

12. IF body is veryshort THEN c= 12 (DOJI)

Para efectos de asignacion de la clase a una tripla (body,upperShadow, lowerShadow), se evaluala tripla con todas las reglas del motor de inferencia y se asigna la clase de la regla con mayor valorwj . En este caso particular, la defuzzificacion simplemente consiste en convertir el numero de la clase(definido por el valor c de la regla ganadora) a su cadena identificadora respectiva, es decir si la clasede la regla ganadora es 1 el sistema retornara que las variables corresponden a una forma basicadenominada MARUBOZU (Ver Tabla 4.1 y Figura 3.5).

26

Page 37: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Tabla 4.1: Candlesticks

FORMA Valor Cadena cortaMARUBOZU 1 M

LONG 2 LLONG LOWER SHADOW 3 LLS

SHAVEN HEAD 4 SHHANGING MAN 5 HM

HAMMER 6 HSPINNING TOP 7 ST

INVERTED HAMMER 8 IHSHOOTING STAR 9 SSSHAVEN BOTTOM 10 SB

LONG UPPER SHADOW 11 LUSDOJI 12 D

4.1.3 Otros esquemas de representacion

Adicional al esquema principal de representacion que son los candlesticks, se plantean otras formas derepresentacion que se basan tambien en la forma natural de reconocimiento de patrones que realizanlos analistas tecnicos. Esos esquemas adicionales son los siguientes:

• Cuerpo: una forma basica se representa por el tamano del cuerpo que puede ser Long o Short.

• Cuerpo y sombras: una forma basica se representa por la tripla (upperShadowSize, bodySize,lowerShadowSize). Ası una forma de tipo Hammer que tiene una sombra superior corta, uncuerpo corto y una sombra inferior larga, se representa por la cadena SSL.

Para efectos de definicion de los tamanos propios de cada forma basica en el modelo se utiliza latabla 4.2.

Tabla 4.2: Candlesticks y tamanos

FORMA SOMBRA SUPERIOR CUERPO SOMBRA INFERIORMARUBOZU short long short

DOJI long short longHAMMER short short long

HANGING MAN short short longINVERTED HAMMER long short short

LONG short long shortLONG LOWER SHADOW short short longLONG UPPER SHADOW long short short

SHAVEN BOTTOM short long shortSHAVEN HEAD short long short

SHOOTING STAR long short shortSPINNING TOP long short long

4.1.4 Extensiones de los esquemas de representacion

Cada forma basica reconocida, puede tener infomacion adicional que contribuye al proceso de re-conocimiento de los patrones. Con el objetivo de evaluar experimentalmente como la informacion

27

Page 38: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

disponible influye el proceso, se definen las siguientes extensiones que pueden ser usadas de formaadicional al esquema de representacion seleccionado:

• Color: de acuerdo con la diferencia entre el valor de cierre y el de apertura se asigna el colora la forma; si (open− close) ≥ 0 entonces el cuerpo es negro(B), en caso contrario el cuerpo esblanco(W).

• Posicion relativa: bajo el supuesto que, la ubicacion relativa de una forma basica respecto asu predecesora influye en el proceso de confirmacion de un patron se define la posicion relativade acuerdo con regiones definidas por las partes de una forma basica. Estos puntos son maximo,cierre, promedio, apertura y mınimo para el caso de formas negras, y maximo, apertura, prome-dio, cierre y mınimo para el caso de formas blancas. Con estos 5 puntos se establecen 6 regiones(A,B,C,D,E,F) y la posicion relativa es el rango de regiones que ocupa una forma respecto a supredecesora (Ver Figura 4.3 ).

Figura 4.3: Posicion relativa

Los esquemas de representacion planteados, seran utilizados para efectos de trasformar las seriesde tiempo de los precios en una serie simbolica de patrones. En la Tabla 4.3 se presentan ejemplosde como un patron es codificado con los diferentes esquemas de representacion. El patron en la figurade la tabla 4.3, tiene un Long negro, un Hammer blanco y un Marubozu negro. El Hammer esta enposicion relativa A con respecto al Long, y el Marubozu en posicion EF con respecto al Hammer.

4.2 Modelo para Generacion de Expectativas

Una expectativa se expresa como una regla, donde el antecedente es un patron o secuencia de formasbasicas, y el consecuente un estado de la naturaleza. Estos estados de la naturaleza son una expresion de

28

Page 39: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Tabla 4.3: Ejemplos esquemas de representacion

Patron Esquema Basico Basico + color Basico + pos Basico + color + posCuerpo L, S, L L-B, S-W, L-B L, S-A, L-EF L-B, S-W-A, L-B-EF

Cuerpo+sombras SLS, SSL,SLS SLS-B, SSL-W, SLS-B SLS, SSL-A, SLS-EF SLS-B, SSL-W-A, SLS-B-EF

Candlesticks L, H, M L-B, H-W, M-B L, H-A, M-EF L-B, H-W-A, M-B-EF

cambio o continuacion de la tendencia de la accion que expresa el patron 1, y se definen a continuacion:

• Continuation bear: indica que al finalizar el patron, la tendencia es de caıda del mercado, sila tendencia antes de la ocurrencia del patron era tambien caıda.

• Continuation bull: indica que al finalizar el patron, la tendencia es de subida del mercado, sila tendencia antes de la ocurrencia del patron era tambien subida.

• Reversal bear: indica un punto de ruptura de la tendencia del mercado al finalizar el patron,cuya confirmacion se da porque la tendencia pasada era de caıda.

• Reversal bull: indica un punto de ruptura de la tendencia del mercado al finalizar el patron,cuya confirmacion se da porque la tendencia pasada era de subida.

Para generar entonces las expectativas es necesario construir un catalogo de patrones a partir delas series simbolicas, de tal forma que para un conjunto de activos seleccionados en un dia analisisespecıfico, el tomador de decisiones pueda identificar los posibles estados de la naturaleza asociados acada activo, mediante la busqueda en el catalogo. Es decir, para los activos seleccionados, se identificanlas secuencias de formas basicas que terminan en el dıa de analisis y tienen un tamano definido porel usuario. Asumiendo que estas secuencias definen el estado del mercado y por lo tanto pueden serpatrones que ya se presentaron en el pasado, se buscan en el catalogo con el fin de identificar losestados de la naturaleza asociados con cada secuencia y las probabilidades de ocurrencia de estosestados. Estas secuencias y sus estados de la naturaleza representan las expectativas que el tomadorde decisiones usara para reducir el universo disponible de activos que conformaran el portafolio. Porejemplo, para el activo Exxon el dıa 20 de agosto de 2007 se presenta una secuencia de tamano doscon la forma [ L-W , ST-W-AD ] y una tendencia pasada de crecimiento. Al buscar la secuencia en elcatalogo, se encuentra ese patron con los estados continuation bull y reversal bull, con probabilidadesde ocurrencia 60% y 40 % respectivamente.

El proceso de catalogacion de patrones involucra tres elementos que son: la ventana de seleccion otamano del patron, las formas basicas, y la confirmacion a traves de las tendencias pasada y futura delpatron. Si bien la literatura (ver [60]) reporta un conjunto de patrones identificados por observacion,en este modelo se pretende aprovechar el volumen de informacion disponible y explorar el conjuntode patrones que se puedan encontrar en un mercado particular. La estrategia para la construcciondel catalogo de patrones consiste en recorrer el conjunto de datos, para extraer las secuencias decandlesticks en las series mediante ventanas secuenciales. Si la serie tiene 1000 datos y el tamanoseleccionado para los patrones es 2, de la serie se extraeran 999 secuencias de tamano 2. De formageneral, el numero de secuencias de tamano w a extraer de un serie de n datos es igual a n− (w− 1).

Junto con cada secuencia se debe identificar el estado de la naturaleza asociado con ella, el cualse describe por las tendencias pasada y futura de la secuencia (Ver Figura 4.4). El grupo de losdatos seleccionados para estimar la tendencia pasada son los t dias anteriores al dia de inicio de unasecuencia; para el caso de la tendencia futura son los t dias posteriores al dia de finalizacion de lasecuencia.

1Estos estados de la naturaleza se aplican para una accion individual y son el insumo para el proceso de diseno deportafolio.

29

Page 40: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 4.4: Secuencia y estado

Tabla 4.4: Estados de la naturaleza

Estado Pasado Futuro Figura

Continuation bull Bull Bull

Continuation bear Bear Bear

Reversal bull Bull Bear

Reversal Bear Bear Bull

Las tendencias se estiman mediante una regresion lineal de la forma yi = α + βx (donde β rep-resenta la tendencia) que se aplica sobre los datos representativos de cada tendencia. Estos datosrepresentativos son el precio promedio de cada dıa. En el caso que β > 0 se define la tendencia comobull, si β < 0 se define la tendencia como bear, y en caso contrario se define como side o indecision .En esta medida, con la tendencia pasada y futura de cada secuencia se define el estado asociado, deacuerdo con la Tabla 4.4. Cuando ya se tiene el conjunto de patrones con sus respectivos estados dela naturaleza, se construye el catalogo como un diccionario de todas las secuencias encontradas en elconjunto de datos.

El catalogo de patrones se elabora como un arbol de prefijos. Un arbol de prefijos es una estructurade datos que se utiliza como arreglo asociativo, donde las llaves o ındices se representan como cadenas.Un camino particular de la raız hasta un nodo padre de hojas del arbol, es la llave, y las hojas de esecamino representan los valores que se asocian a esa llave. En este tipo de arbol, el nodo raız es vacıo,y cada nodo representa un caracter o una subcadena de la llave. Para el caso particular del catalogode patrones propuesto, cada nodo del arbol representa una forma basica codificada, y las hojas sonlos estados de la naturaleza con el numero de veces que ocurre cada estado, para un camino de nodosque va desde la raiz hasta cada padre de ojas. En la Figura 4.5 se presenta un arbol de prefijos parapatrones de tamano 2 y representacion basica de candlesticks. En esta figura se resalta un camino querepresenta el patron [L, HM], el cual tiene 10 ocurrencias para el estado cont. bull y 50 ocurrenciaspara el estado cont. bear.

El orden de complejidad de los procesos de actualizacion, busqueda e insercion en el arbol tienencomo cota superior O(n) donde n es el numero de llaves y como cota inferior Ω(w) donde w es el

30

Page 41: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 4.5: Arbol de prefijos

tamano del patron. Segun esto, el uso de una tabla hash tendrıa mejor desempeno y realizarıa la mismafuncion. Pero el uso del arbol de prefijos como diccionario de patrones radica en que la estructura dearbol proporciona las siguientes caracterısticas:

• En cada nodo se puede almacenar informacion adicional como el numero de hojas que desciendende cada nodo o valores particulares de la medidas de interes para el camino que llega al nodo.

• Facilita el calculo de medidas de interes como el soporte, la confianza y la entropıa. Si lasexpectativas se van a generar a traves del catalogo, en algunos casos va ser necesario podar opoblar el arbol con reglas (caminos sobre el arbol) con cierto interes definido por esas medidasparticulares.

• Reduce el almacenamiento, en la medida que todos los descendientes de un nodo tienen comoprefijo comun el camino del cual son hijos.

• Como cada nodo tiene un conteo de sus hijos, se puede saber cuantos patrones incluyen lasecuencia o prefijo definido por un camino que va desde la raız hasta el nodo.

4.2.1 Algoritmo generacion de expectativas

Los pasos para la generacion de expectativas son los siguientes:

1. Seleccionar el conjunto de activos a analizar (S)

2. Seleccionar el esquema de codificacion a utilizar (R), el tamano del patron (w) y el tamano dela tendencia (t).

3. Seleccionar el dıa de analisis (d), es decir el dıa para el cual se van a generar las expectativas.

31

Page 42: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

4. Codificar las series del conjunto de activos seleccionado, usando el esquema de codificacion ylos tamanos de ventana y tendencias escogidos. La codificacion se hace con los precios que vanhasta el dia de analisis inclusive.

5. Construir el catalogo de patrones, extrayendo de las series codificadas las secuencias de tamanow y las tendencias asociadas. Con base en las tendencias se determina el estado de la naturalezade cada secuencia. Una secuencia y su estado son un patron.

6. De las series codificadas se extraen los patrones o secuencias que finalizan en el dıa de analisis.

7. Buscar en el catalogo de patrones las secuencias extraidas en el paso anterior y consultar enen el arbol los nodos hojas asociadas con las secuencias, es decir los estados de la naturalezaasociados. Las secuencias extraidas y los estados asociados(con su respectiva probabilidad deocurrencia) son las expectativas generadas.

A continuacion se plantea con base en funciones, el proceso para generacion de expectativas descritoanteriormente:

Dado un conjunto S secuenciado por el tiempo donde cada Si es una tupla de la forma Q =open, close, high, low, w es el tamano del patron, t la longitud de la tendencia (pasado y futuro) yR el esquema de representacion seleccionado, el algoritmo general para construccion del catalogo depatrones es el siguiente:

funcion construirCatalogo(S, w, t, R)

1. S′ = extraerV entanas(S, w)2. P = codificar(S′, R, t)3. T = construirArbolPrefijo(P )4. retornar T

fin-funcion

Teniendo la secuencia S de tuplas Q, el primer paso es construir una coleccion de subsecuenciasde S con tamano w (funcion extraerV entanas). Estas subsecuencias luego son codificadas de acuerdocon el tipo de representacion elegida; este paso incluye identificar las tendencias pasada y futura delpatron para definir el estado de la naturaleza asociado con la secuencia (funcion codificar).

Las expectativas se generan para un dia de analisis, basandose en el catalogo de patrones, construidoa partir del universo de datos seleccionado por el tomador de decisiones. Ese dia de analisis define elfin de un patron y el objetivo es entonces identificar ese patron y buscar los estados de la naturalezaasociados a este, usando el catalogo. Si d es el dıa de analisis, la siguiente funcion describe de formageneral el proceso:

funcion generarExpectativas(S, w, t, R, d)

1. T = construirCatalogo(S, w, t, R)2. q = codificarPatron(S, d, w, R, t)3. E = encontrarHojas(T, q)4. retornar E

fin-funcion

La funcion codificarPatron construye un patron q a partir del conjunto disponible S, el dia deanalisis seleccionado, el tamano de ventana w, el tipo de representacion R y la longitud de la tendenciat. La funcion encontrarHojas retorna el conjunto de hojas (estados de la naturaleza) del arbol T ,que corresponden al patron q y su tendencia.

32

Page 43: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

4.2.2 Extraccion reglas interesantes

Cada regla o expectativa representa un patron o secuencia de formas basicas y su asociacion a uno ovarios estados de la naturaleza. Una regla es valida y proporciona informacion si y solo si esta asociadaen gran parte a un solo estado, es decir una regla que el 50% de las veces que ocurre representa uncontinuation-bear y que el otro 50 % representa un reversal-bear no tiene sentido porque no proporcionainformacion al tomador de decisiones. En esta medida es necesario definir una medida que permitaseleccionar reglas interesantes desde el punto de vista de calidad de informacion.

La entropıa desde el punto de vista de la teorıa de la informacion se define como una medida dela incertidumbre asociada con una variable aleatoria. A mayor incertidumbre menor la informacioncontenida, y a menor incertidumbre mayor la informacion proporcionada por la variable. Si pi es laprobabilidad de ocurrencia de un evento i, y la sumatoria de todos los pi para los eventos posibles esigual a 1, la entropıa se define mediante la siguiente ecuacion:

H(p1, p2, .., pn) =n∑

i=1

pi log(1/pi) = −n∑

i=1

pi log(pi) (4.9)

Para el caso particular de las reglas generadas en el catalogo de patrones, el objetivo es entoncesmarcar como interesantes solo aquellas que proporcionen la mayor informacion es decir aquellas conla menor entropıa, idealmente aquellas con entropıa cero o muy cercana a cero. Si los eventos son cadauno de los estados de la naturaleza a los cuales esta asociada una regla o expectativa, a continuacionse define la entropıa para una regla:

p1 := probabilidad de ocurrencia del estado continuation bearp2 := probabilidad de ocurrencia del estado continuation bullp3 := probabilidad de ocurrencia del estado reversal bearp4 := probabilidad de ocurrencia del estado reversal bullp5 := probabilidad de ocurrencia del estado indecisionH = p1 log5(1/p1) + p2 log5(1/p2) + p3 log5(1/p3) + p4 log5(1/p4) + p5 log5(1/p5) (4.10)

En este caso se utiliza logaritmo en base 5 para que el mınimo sea cero y el maximo sea 1.

4.3 Seleccion de Activos para Diseno de Portafolio

El modelo de diseno propuesto se basa en la generacion de expectativas presentadas en la seccionanterior. Asumiendo el supuesto en el cual no son permitidas las posiciones cortas (es decir porcentajesde inversion menores que cero), el objetivo es tomar del universo de seleccion, aquellos activos queesten asociados con una tendencia futura de crecimiento, es decir, aquellos activos que para el dıade portafolio seleccionado tengan asociados los estados de continuation bull o reversal bear con unaprobabilidad superior a un umbral dado. Por ejemplo si para un activo la tendencia pasada es bear,solo seria seleccionado si cambia su tendencia a bull, o si la tendencia pasada es bull se selecciona solosi su tendencia se va a mantener. Este esquema de seleccion corresponde a un perfil de tomador dedecisiones amante o indiferente al riesgo en el cual los altos retornos son el objetivo sin tomar muyen cuenta el riesgo, y el horizonte de inversion es corto, es decir dıa a dıa, porque los candlesticksproporcionan una vision del comportamiento a corto plazo de los activos.

Los pasos para ejecutar el modelo de diseno de portafolio propuesto son los siguientes:

1. Seleccionar el conjunto de activos a analizar (S)

2. Seleccionar el esquema de codificacion a utilizar (R), el tamano del patron (w) y el tamano dela tendencia (t).

33

Page 44: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

3. Seleccionar el dıa de analisis (d), es decir el dıa para el cual se van a generar las expectativas.

4. Codificar las series del conjunto de activos seleccionado, usando el esquema de codificacion ylos tamanos de ventana y tendencias escogidos. La codificacion se hace con los precios que vanhasta el dia de analisis inclusive.

5. Construir el catalogo de patrones, extrayendo de las series codificadas las secuencias de tamanow y las tendencias asociadas. Con base en las tendencias se determina el estado de la naturalezaasociado.

6. De las series codificadas se extraen los patrones o secuencias que finalizan en el dıa de analisis.

7. Buscar en el catalogo de patrones las secuencias extraidas en el paso anterior y consultar enen el arbol los nodos hojas asociadas con las secuencias, es decir los estados de la naturalezaasociados. Las secuencias extraidas y los estados asociados(con su respectiva probabilidad deocurrencia) son las expectativas generadas.

8. Del conjunto de expectativas generadas, seleccionar aquellas que proporcionen una perspectivade crecimiento del activo. Para esto se debe identificar la tendencia pasada real de cada unade las secuencias extraidas en el paso 6. Si la tendencia pasada es bull se debe seleccionar lasecuencia solo si la expectativa asociada dice que el estado de mayor ocurrencia es Continuationbull. Si la tendencia pasada es bear se debe seleccionar la secuencia si la expectativa asociadadice que el estado de mayor ocurrencia es Reversal bear. El activo se selecciona si la probabilidadde ocurrencia de estado que representa la expectativa creciente, es superior a un umbral definidopor el usuario, el cual debe ser mayor a 0.5.

9. Como para cada activo hay una expectativa, las expectativas seleccionadas en el paso anteriordefinen los activos que seran utilizados en la construccion del portafolio. Con estos activos yale corresponde al tomador de decisiones seleccionar los porcentajes de inversion que mejor seacomodan a su perifil de riesgo.

34

Page 45: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Parte III

Experimentacion y Analisis de Resultados

35

Page 46: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia
Page 47: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

The illusion of randomness graduallydisappears as the skill in chart reading improves.

J Murphy

37

Page 48: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia
Page 49: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Capıtulo 5

Experimentacion

Adicionalmente al proceso de desarrollo, se realizo un proceso de experimentacion orientado a validarel modelo propuesto, en sus fases de identificacion de formas basicas y generacion de expectativas. Acontinuacion se describe el conjunto de datos utilizado, se presenta el diseno experimental propuestoy se analizan los resultados obtenidos.

5.1 Conjunto de Datos

El conjunto de datos se construye con los datos historicos de series de acciones reales, que transan enla bolsa de acciones de Nueva York (NYSE). El periodo de tiempo seleccionado va desde el 2 de enerode 1962 hasta el 20 de septiembre de 2007 y en total se seleccionaron 30 series de forma aleatoria. Cadaserie esta formada por cuatro atributos que son la fecha, el precio de apertura, el precio maximo, elprecio de cierre y el precio mınimo. La Tabla 5.1 presenta las series seleccionadas que en total suman4 series (una serie por precio) con 214781 instancias cada una.

5.2 Diseno Experimental

El diseno experimental se estructura en torno a cuatro fases de experimentacion, que son las siguientes:clasificacion, validacion de candlesticks, catalogo de patrones y seleccion de activos.

5.2.1 Fase 1 - Clasificacion

El objetivo de esta fase es validar el sistema clasificador difuso propuesto en, el proceso de re-conocimiento de formas basicas (candlesticks). Para este caso particular se realizaran dos grupo deexperimentos utilizando el prototipo PDM-Candles:

• Grupo 1: en este grupo se utilizara el clasificador difuso para un conjunto reducido de reglas ypara el conjunto completo de reglas, con el fin de identificar sobre todo el conjunto de datos, elporcentaje de instancias no clasificadas, es decir etiquetadas con la clase undefined. El conjuntoreducido tiene las reglas para clasificar MARUBOZU, LONG, DOJI y SPINNING TOP.

• Grupo 2: utilizar el sistema clasificador difuso para reconocer formas basicas en un subconjuntodel conjunto de datos y luego validar la clasificacion contra las clases reales (etiquetadsa man-ualmente). Para esta caso se selecciona entonces una muestra de 5000 registros de la serie AAPL(Apple), que van desde el 2 de enero de 1962 hasta el 3 de diciembre de 1981.

39

Page 50: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Tabla 5.1: Conjunto de datos

Companıa Sımbolo Inicio(a-m-d) Fin(a-m-d) Instancias3 M. MMM 1970-01-02 2007-09-20 9522

Apple Inc. AAPL 1962-01-02 2007-09-20 11509Abbott Laboratories ABT 1983-04-06 2007-09-20 6172AMR Corporation AMR 1980-01-02 2007-09-20 6990

Alltel Corp. AT 1984-07-19 2007-09-20 5846British Airways ADR BAIRY.PK 1987-08-18 2007-08-14 5035

Continental Airlines, Inc. CAL 1993-07-19 2007-09-20 3571Cott Corp. COT 1992-06-16 2007-09-20 3841

Cadbury Schweppews plc CSG 1984-10-25 2007-09-20 5772Diageo plc DEO 1997-12-17 2007-09-20 2448

Ford Motor Co. F 1977-01-03 2007-09-20 7753General Motors Corporation GM 1993-04-13 2007-09-20 3633

Honda Motor Co. Ltd. HMC 1987-08-11 2007-09-20 5067Honeywell International Inc. HON 1970-01-02 2007-09-20 9522

Hewlett-Packard Co. HPQ 1962-01-02 2007-09-20 11509International Business Machines Corp. IBM 1984-09-07 2007-09-20 5812

Johnson and Johnson JNJ 1970-01-02 2007-09-20 9522Coca-Cola Co. KO 1962-01-02 2007-09-20 11509

Southwest Airlines Co. LUV 1980-01-02 2007-09-20 6996Merck & Co. Inc. MRK 1970-01-02 2007-09-20 9522

Microsoft Corporation MSFT 1986-03-13 2007-09-20 5430Pepsico, Inc. PEP 1977-01-03 2007-09-20 7752Pfizar Inc. PFE 1982-01-04 2007-09-20 6490

Schering-Plough Corp. SGP 1983-04-06 2007-09-20 6172AT&T Inc. T 1984-07-19 2007-09-20 5846

Toyota Motor Corp. TM 1962-01-02 2007-09-20 11509Tyco International Ltd. TYC 1987-12-30 2007-09-20 4975

United Technologies Corp. UTX 1970-01-02 2007-09-20 9522Exxon Mobil Corp. XOM 1970-01-02 2007-09-20 9522

Verizon Communications Inc. VZ 1983-11-21 2007-09-20 6012

5.2.2 Fase 2 - Validacion de candlesticks

Para esta fase el objetivo es validar patrones reportados en la literatura mediante el catalogo de pa-trones generado por el prototipo PDM-Patterns, identificando el patron y los estados de la naturalezaa los cuales se asocia. A continuacion se describen los grupos de experimentos a ejecutar.

• Grupo 1: Validar con el catalogo de patrones generados por el prototipo PDM-Patterns, elsiguiente conjunto de patrones candlesticks para tamano de ventana de tendencia 5, 10 y 15(Ver Figura 5.1):

– Harami Reversal Bear (1)

– Harami Cross Reversal Bear (2)

– Doji Star Reversal Bear (3)

– Kicking Reversal Bear (4)

– Homing Pigeon Reversal Bear (5)

– Harami Reversal Bull (6)

40

Page 51: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 5.1: Patrones tamano 2

– Harami Cross Reversal Bull (7)

– Doji Star Reversal Bull (8)

– Kicking Reversal Bull (9)

• Grupo 2: consiste en validar con el catalogo de patrones generados por el prototipo PDM-Patterns, el siguiente conjunto de patrones candlesticks para tamano de ventana de tendencia5, 10 y 15 (Ver Figura 5.2):

– Abandoned Baby Star Reversal Bear (1)

– Morning Doji Star Reversal Bear (2)

– Morning Star Reversal Bear (3)

– Three Stars in the South Reversal Bear (4)

– Three White Soldiers Reversal Bear (5)

– Abandoned Baby Reversal Bull (6)

– Evening Doji Star Reversal Bull (7)

– Evening Star Rev Reversal (8)

– Three Black Crows Reversal Bull (9)

– Three Inside Down Reversal Bull (10)

5.2.3 Fase 3 - Catalogo de patrones y Expectativas

El proceso de generacion de expectativas tiene sentido en la medida que el proceso sea capaz de generarreglas que proporcionen informacion al cliente. En esta fase se utiliza el prototipo PDM-Prefixtreepara encontrar reglas con baja entropıa utilizando la totalidad del conjunto de datos para construirel catalogo de patrones. Los experimentos a ejecutar se describen en la Tabla 5.2.

41

Page 52: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 5.2: Patrones tamano 3

Tabla 5.2: Experimentos catalogo de patrones y expectativas

No Pattern type Itemset Pattern size Tendence Entropy1 Candle Candle 3 5 0.72 Candle Candle 3 10 0.73 Candle Candle 3 15 0.74 Candle Candle+position 3 5 0.75 Candle Candle+position 3 10 0.76 Candle Candle+position 3 15 0.77 Candle Candle+color 3 5 0.78 Candle Candle+color 3 10 0.79 Candle Candle+color 3 15 0.710 Candle Candle+color+position 3 5 0.711 Candle Candle+color+position 3 10 0.712 Candle Candle+color+position 3 15 0.7

5.2.4 Fase 4 - Expectativas y Seleccion de activos

El objetivo de esta fase es validar el desempeno del proceso de seleccion de activos, visto como unproceso de clasificacion binaria, donde la clase positiva son los activos cuyo precio de cierre aumento deun dia a otro, y la case negativa son aquellos activos cuyo precio disminuyo.

Para efectos de evaluacion del desempeno del proceso de clasificacion, los activos seleccionados porlas expectativas que se obtienen con el modelo propuesto, pertenecen a la clase positiva, y los que noa la clase negativa.

La combinacion de parametros para cada experimento se define en la Tabla 5.3. El conjunto dedatos utilizado para la experimentacion incluye los 30 activos del conjunto de datos, en el rango de

42

Page 53: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Tabla 5.3: Experimentos Expectativas y Seleccion de Activos

No Pattern type Itemset Pattern Size Tendence Size Range Threshold

1 Candle shape Candle 4 5 Si 0.6

2 Candle shape Candle 4 5 Si 0.55

3 Candle shape Candle 4 10 Si 0.6

4 Candle shape Candle 4 10 Si 0.55

5 Candle shape Candle 4 10 No 0.55

6 Candle shape Candle 4 10 No 0.6

7 Candle shape Candle 4 5 No 0.55

8 Candle shape Candle 4 5 No 0.6

9 Candle shape Candle 3 10 No 0.55

10 Candle shape Candle 3 10 No 0.6

11 Candle shape Candle 3 5 No 0.55

12 Candle shape Candle 3 5 No 0.6

13 Candle shape Candle 2 10 No 0.55

14 Candle shape Candle 2 10 No 0.6

15 Candle shape Candle 2 5 No 0.55

16 Candle shape Candle 2 5 No 0.6

17 Candle shape Candle+color 4 10 No 0.55

18 Candle shape Candle+color 4 10 No 0.6

19 Candle shape Candle+color 4 5 No 0.55

20 Candle shape Candle+color 4 5 No 0.6

21 Candle shape Candle+color 3 10 No 0.55

22 Candle shape Candle+color 3 10 No 0.6

23 Candle shape Candle+color 3 5 No 0.55

24 Candle shape Candle+color 3 5 No 0.6

25 Candle shape Candle+color 2 10 No 0.55

26 Candle shape Candle+color 2 10 No 0.6

27 Candle shape Candle+color 2 5 No 0.55

28 Candle shape Candle+color 2 5 No 0.6

29 Candle shape Candle+pos 4 10 No 0.55

30 Candle shape Candle+pos 4 10 No 0.6

31 Candle shape Candle+pos 4 5 No 0.55

32 Candle shape Candle+pos 4 5 No 0.6

33 Candle shape Candle+pos 3 10 No 0.55

34 Candle shape Candle+pos 3 10 No 0.6

35 Candle shape Candle+pos 3 5 No 0.55

36 Candle shape Candle+pos 3 5 No 0.6

37 Candle shape Candle+pos 2 10 No 0.55

38 Candle shape Candle+pos 2 10 No 0.6

39 Candle shape Candle+pos 2 5 No 0.55

40 Candle shape Candle+pos 2 5 No 0.6

41 Candle shape Candle+pos+color 4 10 No 0.55

42 Candle shape Candle+pos+color 4 10 No 0.6

43 Candle shape Candle+pos+color 4 5 No 0.55

44 Candle shape Candle+pos+color 4 5 No 0.6

45 Candle shape Candle+pos+color 3 10 No 0.55

46 Candle shape Candle+pos+color 3 10 No 0.6

47 Candle shape Candle+pos+color 3 5 No 0.55

48 Candle shape Candle+pos+color 3 5 No 0.6

49 Candle shape Candle+pos+color 2 10 No 0.55

50 Candle shape Candle+pos+color 2 10 No 0.6

51 Candle shape Candle+pos+color 2 5 No 0.55

52 Candle shape Candle+pos+color 2 5 No 0.6

43

Page 54: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 5.3: Espacio TPR vs FPR (tomada de http://en.wikipedia.org/wiki/Receiver operating characteristic)

fechas que va del primero de febrero de 2006 hasta el primero de abril de 2006.En la medida que el proceso de clasificacion depende de varios parametros de seleccion, se evaluaran

diferentes combinaciones, para establecer cual combinacion tiene mejor desempeno en la clasificacion.Los siguientes indicadores seran utilizados para la evaluacion: tasa de verdaderos positivos, tasa defalsos positivos y tasa de error de clasificacion. Estos valores se obtienen de la matriz de confusion quese compone de los siguientes valores:

• Verdaderos positivos (TP): numero de instancias correctamente clasificadas en la clase positiva.

• Verdareros negativos (TN): numero de instancias correctamente clasificadas en la clase negativa.

• Falsos positivos (FP): numero de instancias incorrectamente clasificadas en la clase positiva.

• Falsos negativos (FN): numero de instancias incorrectamente clasificadas en la clase negativa.

Con base en los valores de la matriz de confusion se definen las siguientes medidas de desempenodel proceso de clasificacion:

• TPR (tasa de verdaderos positivos): representa el porcentaje de instancias clasificadas en la clasepositiva, del total de instancias del conjunto que pertenecen a la clase positiva

• FPR (tasa de falsos positivos): representa el porcentaje de instancias clasificadas incorrectamenteen la clase negativa, del total de instancias del conjunto que pertenecen a la clase negativa.

• ER (tasa de error): porcentaje de instancias mal clasificadas.

Las formulas de estas medidas se presentan a continuacion:

TPR = TP/(TP + FN) (5.1)FPR = FP/(FP + TN) (5.2)

ER = (FN + FP )/(TP + TN + FP + FN) (5.3)

44

Page 55: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Estas medidas permitiran establecer, que para el conjunto de pruebas utilizado, un algoritmo declasificacion o una combinacion de parametros del algoritmo es mejor que otra, si se obtiene la mayortasa de verdaderos positivos con una tasa baja de falsos positivos. La Figura 5.3 presenta el espacioROC en el cual se grafican los valores TPR vs FPR para un clasificador. Los clasificadores de mejordesempeno son los mas cercanos al punto superior izquierdo de la grafica, que esten por encima de ladiagonal que divide el espacio. Esta diagonal representa el caso donde el clasificador tiene el mismodesempeno que tirar una moneda no sesgada, donde la TPR es igual a la FPR.

5.3 Analisis de Resultados

El proceso de clasificacion presentado, evidencia como el sistema clasificador difuso tiene un buendesempeno cuando se usa el conjunto completo de reglas, reportando solo un 1.58 % de instanciasno clasificadas para el Grupo 1 de experimentos. En la Tabla 5.4 se presentan los resultados de estegrupo de experimentos. En los tabla se presentan el numero de instancias clasificadas en cada tipo deforma basica, utilizando el sistema clasificador difuso presentado en la Seccion 4.1, para los conjuntosde reglas reducido y completo definidos con el diseno experimental.

Tabla 5.4: Resultados Fase 1 - Experimentos Grupo 1

Clase Instancias grupo reducido Instancias grupo completoMARUBOZU 14097 (6.56 %) 13308 (6.20 %)

LONG 38912 (18.12 %) 31252 (14.55%)LONG LOWER SHADOW - 13365 (6.22 %)

SHAVEN HEAD - 32866 (15.30%)HANGING MAN - 7203 (3.35 %)

HAMMER - 5736 (2.67 %)SPINNING TOP 49726 (23.15 %) 36811 (17.14%)

INVERTED HAMMER - 5275 (2.46 %)SHOOTING STAR - 6447 (3.00 %)SHAVEN BOTTOM - 30788 (14.33%)

LONG UPPER SHADOW - 11081 (5.16 %)DOJI 17840 (8.31 %) 17257 (8.03 %)

UNDEFINED 94206 (43.86 %) 3392 (1.58 %)

Para el Grupo 2 de experimentos, en el caso de la clasificacion de la serie AAPL (Apple) el 8% delas instancias fueron mal clasificadas, donde la mayoria de las formas mal clasificadas fueron de tipoLong Upper Shadow y Spinning top, lo cual sugiere que es necesario ajustar o revisar los conjuntosdifusos y las reglas de clasificacion. Pero independiente de eso, un 92 % de clasificacion correcta sugiereque el clasificador difuso, funciona bien en el proceso de reconocimiento de formas basicas que es labase del proceso de generacion de expectativas basadas en candlesticks.

La segunda fase de experimentos se ejecuto con el objetivo de verificar cuales patrones reportadosen la literatura, son encontrados con el catalogo de patrones propuesto (Ver Seccion 4.2). Los resultadosde esta fase son resumidos en la tabla 5.5. En esta tabla se presenta el patron, estado de la naturalezade mayor ocurrencia asociado al patron, y la entropıa del mismo. El nivel de entropıa es una medidade la cantidad de informacion que aporta el patron. Por ejemplo, si el patron tiene una entropıaalta quiere decir que la probabilidad de ocurrencia es muy parecida o igual para cada estado de lanaturaleza asociado; con lo cual el patron no aporta informacion al proceso (Ver seccion 4.9).

De los patrones seleccionados de la literatura solo tres concuerdan con el estado de la naturalezareportado para los tres grupos de tendencias utilizadas. Estos patrones son three white soldiers–>revbear ( Ver Figura 5.2-5 ), abandoned baby–>rev bull ( Ver Figura 5.2-6 ) y doji star–>rev bull ( VerFigura 5.1-8 ). Pero mantienen un valor de entropıa alta a pesar de su coincidencia con la literatura.

45

Page 56: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

En resumen todas las reglas presentan valores altos de entropia pero sugieren una leve orientacion delas reglas hacia un estado de mayor ocurrencia, es decir que la probabilidad de este estado es superiora los otros de no forma contundente.

Tabla 5.5: Resumen Fase 2- Experimentos Grupo 1 y Grupo 2

Patron Tendencia 5 Tendencia 10 Tendencia 15Harami Reversal Bear Rev. bull(e=0.77) Cont. bull(e=0.77) Cont. bull(e=0.81)

Harami Cross Reversal Bear Rev. bull(e=0.77) Cont. bull(e=0.76) Cont. bull(e=0.76)Doji Star Reversal Bear Cont. bull(e=0.77) Cont. bear(e=0.77) Cont. bear(e=0.68)Kicking Reversal Bear Rev. bull(e=0.70) Cont. bull(e=0.75) Cont. bull(e=0.75)

Homing Pigeon Reversal Bear Rev. bull(e=0.77) Cont. bull(e=0.77) Cont. bull(e=0.77)Harami Reversal Bull Cont. bull(e=0.78) Cont. bull(e=0.77) Cont. bull(e-0.77)

Harami Cross Reversal Bull Cont. bull(e=0.8) Cont. bull(e=0.77) Cont. bull(e=0.77)Doji Star Reversal Bull Rev. bull(e=0.77) Rev. bull(e=0.77) Rev. bull(e=0.77)Kicking Reversal Bull Cont. bull(e=0.75) Cont. bull(e=0.72) Cont. bull(e=0.72)

Abandoned Baby Rev Bear - - -Morning Doji Reversal Bear Rev. bear(e=0.76) Cont. bull(e=0.77) Cont. bull(e=0.76)Morning Star Reversal Bear Cont. bull(e=0.77) Cont. bull(e=0.77) Cont. bull(e=0.77)

3 Stars in the South Rev Bear - - -3 White Soldiers Rev Bear Rev. bear(e=0.77) Rev. bear(e=0.77) Cont. bull(e=0.77)Abandoned Baby Rev Bull Rev. bull(e=0.75) Cont. bear/Rev. bull(e=0.77) Rev. bull(e=0.72)Evening Doji Star Rev Bull Rev. bull(e=0.77) Reversal bear(e=0.76) Rev. bear(e=0.77)

Evening Star Rev Bull Rev. bear(e=0.77) Reversal bull(e=0.77) Cont. bull(e=0.77)3 Black Crows Rev Bull Cont. bull(e=0.77) Cont. bull/Rev. bull(e=0.77) Rev. bull(e=0.76)3 Inside Down Rev Bull Cont. bull(e=0.76) Cont. bull(0.76) Cont. bull(e=0.76)

La fase de investigacion asociada con generacion del catalogo de patrones, buscaba encontrarpatrones de alta ocurrencia con bajo nivel de entropia, de tal forma que la entropia baja confirmaraque la probabilidad de asignacion a un estado de la naturaleza fuera alta, dada su alta ocurrencia ybaja asignacion a otras. Pero en este caso los resultados obtenidos, muestran como las reglas con bajaentropia son de baja ocurrencia, y las de mayor ocurrencia tienen una entropia alta.Se obtienen reglascon entropıa cero, estas reglas son de soporte bajo y en su gran mayorıa son reglas individuales, esdecir patrones que solo han ocurrido una vez en todo el conjunto de datos. La posicion relativa y elcolor de las formas basicas contribuyen en el proceso de confirmacion de las tendencias del patron.Si estos dos elementos no fueran importantes la sola notacion candle bastarıa para encontrar reglasde alta ocurrencia, pero no es ası, la notacion candle es la que genera menor numero de reglas conentropia cero. Pero en ultimas no hay reglas de alto soporte que tengan a su vez alta entropıa, lo cualquiere decir que el simple uso de los candlesticks no es suficiente para establecer una tendencia futuradel mercado en la medida que un patron se asocia con multiples estados de la naturaleza.

Los resultados de la Fase de seleccion de activos confirman lo anterior. Para efectos de ver losresultados de esta fase, se presentan las medidas de desempeno de la clasificacion en la Tabla 5.6, elespacio ROC de los experimentos en la Figura 5.4, y la tasa de error de clasificacion obtenida concada combinacion de parametros en la Figura 5.5.

Los experimentos revelan como el crecimiento del umbral aumenta la tasa de falsos positivos. LaFigura 5.4 presenta como las diferentes combinaciones no son lo suficiente buenas como para catalogarbien el clasificador y superar un clasificador binomial aleatorio no sesgado, es decir no superan el hechode tirar una moneda legal y decidir si el activo sube si cae cara. Esto se debe a que son muy pocas lasinstancias de patrones que tienen una amplia diferencia de porcentaje entre las clases. Lo cual revelaque los candlesticks por si solos no pueden ser usados como senal de venta o compra. Es necesarioconfirmar la senal mediante el uso de otros indicadores o el analisis de fundamentales.

46

Page 57: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 5.4: Espacio ROC seleccion de activos

Figura 5.5: Tasa de Error clasificacion

47

Page 58: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Tabla 5.6: Resultados Experimentos Expectativas y Seleccion de Activos

Exp TP TN FP FN TPR FPR ER

1 45 552 39 594 0.07 0.07 0.51

2 116 489 102 523 0.18 0.17 0.51

3 53 528 63 586 0.08 0.11 0.53

4 168 425 166 471 0.26 0.28 0.52

5 259 340 251 380 0.41 0.42 0.51

6 166 416 715 473 0.26 0.63 0.67

7 229 364 227 410 0.36 0.38 0.52

8 157 423 168 482 0.25 0.28 0.53

9 208 378 213 431 0.33 0.36 0.52

10 49 532 59 590 0.08 0.10 0.53

11 184 447 144 455 0.29 0.24 0.49

12 61 543 48 578 0.10 0.08 0.51

13 107 500 91 532 0.17 0.15 0.51

14 2 587 4 637 0.00 0.01 0.52

15 39 562 29 600 0.06 0.05 0.51

16 1 590 1 638 0.00 0.00 0.52

17 167 438 153 472 0.26 0.26 0.51

18 161 440 151 478 0.25 0.26 0.51

19 141 458 133 498 0.22 0.23 0.51

20 140 463 128 499 0.22 0.22 0.51

21 269 348 243 370 0.42 0.41 0.50

22 176 428 163 464 0.28 0.28 0.51

23 220 346 245 419 0.34 0.41 0.54

24 148 437 154 491 0.23 0.26 0.52

25 162 432 159 477 0.25 0.27 0.52

26 23 552 39 616 0.04 0.07 0.53

27 114 507 84 525 0.18 0.14 0.50

28 27 577 14 612 0.04 0.02 0.51

29 14 583 8 625 0.02 0.01 0.51

30 14 583 8 625 0.02 0.01 0.51

31 17 579 12 622 0.03 0.02 0.52

32 17 579 12 622 0.03 0.02 0.52

33 178 403 188 461 0.28 0.32 0.53

34 170 411 180 469 0.27 0.30 0.53

35 183 412 179 456 0.29 0.30 0.52

36 173 426 165 466 0.27 0.28 0.51

37 216 412 179 423 0.34 0.30 0.49

38 88 514 77 551 0.14 0.13 0.51

39 170 454 147 469 0.27 0.24 0.50

40 58 545 46 581 0.09 0.08 0.51

41 14 583 8 625 0.02 0.01 0.51

42 14 583 8 625 0.02 0.01 0.51

43 17 579 12 622 0.03 0.02 0.52

44 17 579 12 622 0.03 0.02 0.52

45 117 492 99 522 0.18 0.17 0.50

46 116 492 99 523 0.18 0.17 0.51

47 102 496 95 537 0.16 0.16 0.51

48 101 498 93 585 0.15 0.16 0.53

49 255 360 231 384 0.40 0.39 0.50

50 158 461 130 481 0.25 0.22 0.50

51 219 394 197 420 0.56 0.59 0.51

52 121 487 104 518 0.19 0.18 0.51

48

Page 59: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Capıtulo 6

Conclusiones y Trabajo Futuro

El proceso de construccion de esta tesis deja como resultados materiales un estado del arte, estedocumento como tal y cuatro prototipos de software. Pero mas alla de esos resultados materialesestan los aportes para el campo financiero y naturalmente para las ciencias de la computacion. Elestado del arte publicado en la Revista Ingenierıa e Investigacion (Ver Apendice A), presenta unaclasificacion de las tecnicas computacionales usadas en la generacion de expectativas para seleccionde portafolio y a su vez presenta el problema de seleccion de portafolio de manera formal y comoun problema de optimizacion multiobjetivo. La importancia de este estado del arte radica en que esapropuesta de clasificacion de las tecnicas, sin un referente similar en la literatura, permitio

• Presentar el problema de seleccion de portafolio como un problema de optimizacion multiobje-tivo, haciendo enfasis en la definicion conceptual y formal de sus fundamentos.

• Identificar los modelos computacionales utilizados hasta el momento.

• Reconocer como la orientacion preponderante de esos modelos es la prediccion de series de tiempobajo la hipotesis debil del mercado eficiente, es decir, bajo la hipotesis que el precio refleja lainformacion historica disponible.

• Identificar como la necesidad de grandes volumenes de informacion hace que los esfuerzos deinvestigacion mas recientes incluyan tecnicas de minerıa de datos.

• Identificar como la tecnica de candlesticks ha sido abordada muy poco en el campo computa-cional.

Con el modelo propuesto se establece un proceso de seleccion de activos basado en la identificacionde patrones candlesticks, lo cual representa para el campo financiero un aporte en la medida que elmodelo computacional permite validar la eficiencia de los candlesticks. Aqui gana vital importanciael modelo difuso de reconocimiento como la base que permite generar todo ese proceso, y representaun aporte desde el punto de vista computacional, en la medida que esta tecnica ha sido utiliza muypoco con esa orientacion financiera.

El modelo adicionalmente se refleja en la implementacion de una herramienta de software com-puesta por cuatro prototipos funcionales, disenados para brindar soporte al proceso de seleccion deportafolio. Los cuatro prototipos, utilizando el fundamento conceptual de la teorıa de portafolio y loscandlesticks del analisis tecnico, cubren los siguientes niveles de funcionalidad asociadas al proceso:

• Administracion de datos del mercado (companıas, acciones, precios).

• Identificacion y codificacion de series de acciones (con sus cuatro precios caracterısticos) en seriesde formas basicas de candlesticks, utilizando un sistema clasificador difuso construido a partirde reglas de lenguaje natural.

49

Page 60: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

• Construccion de catalogos de patrones usando arboles de prefijos.

• Generacion de expectativas individuales de comportamiento de acciones para un dıa de analisisespecıfico, donde esas expectativas se expresan como probabilidades de ocurrencia de los estadosasociados al patron.

• Seleccion de activos para siseno de portafolios para inversionistas con perfil de amantes al riesgocon base en la generacion de expectativas a partir del reconocimiento de candlesticks en seriesde precios de acciones.

El uso de los candlesticks es un modelo reciente que forma parte de un conjunto de tecnicas maselaboradas y maduras que se conocen como analisis tecnico. Dada su poca edad y caracter empırico,pocos esfuerzos se han orientado a comprobar la validez estadıstica de los patrones. Esta tesis nopretendio ser un estudio de este estilo, pero si demostro como el uso de tecnicas computacionalespermitieron simular o ejecutar de forma artificial, el proceso natural de reconocimiento que dıa adıa realizan los traders en busca de esos ”supuestos”patrones de candlesticks. El diseno experimentalpropuesto y los resultados de la ejecucion de este, son un intento para abordar de forma inicial esacomprobacion. Por ejemplo los resultados de la Fase 2 de experimentos muestran como tres de lospatrones seleccionados se encuentran en el catalogo generado, pero sin dar lugar a una confianza totalsobre el estado asociado a la secuencia, dado el nivel de entropıa asociado. Estos tres patrones soncatalogados en la literatura como de alta confianza, pero los resultados de los experimentos sugierenincertidumbre.

Los resultados de la Fase 3 son una clara representacion de la dinamica real del mercado y unmotor generador de ideas para trabajo futuro que permita mejorar la concepcion y explotacion de loscandlesticks en el marco computacional. En la Fase 3 se obtiene una explosion de reglas individualescon entropia alta y reglas de alto soporte con entropia baja, lo cual lleva a la conclusion que elmecanismo de decision no puede estar basado solo en los candlesticks, sino que es necesario encontrarmecanismos de confirmacion de los estados de la naturaleza, como otras herramientas del analisistecnico o modelos basados en fundamentales.

En la Fase 4 de experimentacion, los resultados presentan como la eficiencia de la seleccion deactivos basada en candlesticks es baja, porque requiere de otras medidas o indicadores que confirmenla senal dada por los estados de la naturaleza de los candlesticks. El proceso de seleccion de activoses pobre y presenta igual o peor desempeno que un clasificador binomial aleatorio. Se puede concluirque el modelo de toma de decisiones basado en candlesticks no proporciona informacion de ayudaen el diseno de estrategias de inversion. Pero hay que aclarar que esto se puede dar por dos causas.La primera de ellas es que efectivamente los candlesticks no funcionan; la segunda es que el modelode representacion utilizado no es el mas adecuado, pero probar esto es difıcil, es mas facil probar elenfoque candlestick con otros modelos para comprobar su validez.

Para terminar, y para establecer un camino de investigacion alrededor de esta tesis como unesfuerzo novedoso en el campo de la computacion financiera, se sugieren los siguientes elementos comotrabajo futuro:

• En el caso del modelo clasificador difuso, se podrıa utilizar la generacion de reglas y conjuntosdifusos mediante modelos de coevolucion como el presentado en [34].

• Dada la explosion de reglas generadas, es necesario agruparlas para definir grupos genericosde patrones, lo cual contribuirıa a una redefinicion de los patrones candlesticks en el marcofinanciero. Para esto se propone el uso de tecnicas de clustering y la definicion de medidas desimilaridad para los patrones y las formas basicas.

• Validar el proceso de seleccion de activos con la construccion de portafolios a partir de estos, yevaluar su desempeno en el marco del retorno y riesgo de los portafolios.

50

Page 61: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

• Incluir en el modelo de generacion de expectativas instrumentos financieros de confirmacion detendencia, como los indicadores tecnicos.

• Adicionar al modelo de diseno de portafolio propuesto, una nueva medida del riesgo que tengaen cuenta el valor de la entropıa y la distribucion de probabilidad asociadas con los estados de lanaturaleza de una expectativa. Con esta nueva medida de riesgo, el enfoque clasico de seleccionde activos para portafolios que plantea escoger aquellos con alto retorno y bajo riesgo, podrıaser remplazado por un nuevo enfoque donde el objetivo es ahora seleccionar aquellos activos quepara el dıa de analisis revelen un patron con el estado de la naturaleza mas adecuado (nuevavision del retorno clasico) y cuya probabilidad ocurrencia sea alta manteniendo una entropiabaja (nueva vision del riesgo clasico) .

51

Page 62: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia
Page 63: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Apendices

53

Page 64: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia
Page 65: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Apendice A: Artıculo Estado del Arte

Artıculo publicado en la Revista Ingenierıa e Investigacion de la Facultad de Ingenierıa de la Univer-sidad Nacional.

LINARES Mario, HERNANDEZ Diego, GONZALEZ Fabio. Exploiting stock data: a survey ofstate of the art computational techniques aimed at producing beliefs regarding investment portfolios.Revista Ingenierıa e Investigacion. Volumen 28 No 1, Abril de 2008(105-116). ISSN: 0120-5609

55

Page 66: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

REVISTA INGENIERÍA E INVESTIGACIÓN VOL. 28 No. 1, ABRIL DE 2008 (105-116)

105

Exploiting stock data: a survey of state of the art computational techniques aimed at producing beliefs

regarding investment portfolios

El valor de las series de tiempo de acciones: un estado del arte de técnicas computacionales para la generación de expectativas en

portafolios de inversión

Mario Linares Vásquez1, Diego Fernando Hernández Losada2 y Fabio González Osorio3

ABSTRACT Selecting an investment portfolio has inspired several models aimed at optimising the set of securities which an in-vesttor may select according to a number of specific decision criteria such as risk, expected return and planning hori-zon. The classical approach has been developed for supporting the two stages of portfolio selection and is supported by disciplines such as econometrics, technical analysis and corporative finance. However, with the emerging field of computational finance, new and interesting techniques have arisen in line with the need for the automatic processing of vast volumes of information. This paper surveys such new techniques which belong to the body of knowledge con-cerning computing and systems engineering, focusing on techniques particularly aimed at producing beliefs regar-ding investment portfolios.

Keywords: portfolio, optimisation, stock, securities, return, risk, profile, belief, rules set. RESUMEN El proceso de selección de portafolio ha dado origen a diferentes modelos, orientados a optimizar el conjunto de ti-tulos valor disponibles para un inversionista, con base en diferentes criterios de decisión tales como el riesgo, el re-torno esperado, horizonte de planeación, entre otros. El enfoque clásico de estos modelos cubre las dos fases del proceso de selección de portafolio, y está definido por disciplinas tales como la econometría, el análisis técnico y las finanzas corporativas. Pero el nacimiento de la computación financiera define el uso de nuevas técnicas bajo la necesidad del procesamiento automático de grandes volúmenes de información. Este artículo es un estado del arte de esas nuevas técnicas, desde el punto de vista de la ingeniería de sistemas y sus modelos computacionales, apli-cados particularmente a la generación de expectativas de inversión en portafolios..

Palabras clave: portafolio, optimización, acciones, títulos valor, retorno, riesgo, expectativas, conjunto de reglas. Recibido: octubre 01 de 2007 Aceptado: febrero 21 de 2008

1 Ingeniero de Sistemas, Universidad Nacional de Colombia. Candidato M.Sc., Ingeniería de Sistemas y Computación, Universidad Nacional de Co-lombia. Auxiliar docente, Departamento de Ingeniería de Sistemas e Industrial. [email protected] 2 Ingeniero Industrial. Magíster, en Administración de Empresas. Magíster en Economía. M.Sc., of Science in Finance. Ph.D., en Ciencias Econó-micas. Profesor, Departamento de Ingeniería de Sistemas e Industrial y Decano, Facultad de Ingeniería, Universidad Nacional de Colombia. [email protected] 3 Ingeniero de sistemas. Magíster, en Ciencias Matemáticas, Universidad Nacional de Colombia. M.Sc. in Computer Science, The University of Memphis, USA. Ph.D, in Computer Science, The University of Memphis, USA. Profesor asociado, Departamento de Ingeniería de Sistemas e Industrial y Decano, Facultad de Ingeniería, Universidad Nacional de Colombia. [email protected]

Introduction

The financial market has become one of the main compo-nents of capitalist economies; it is an elementary mechanism for raising capital, transferring risks and international trade. Investment is an activity which is tightly bound to financial markets. It basically consists of buying and selling (stocks, co-mmodities and currency) aimed at making profit. It is a game where all internal and external variables involved in the pro-cess must be correctly interpreted for producing beliefs; such

beliefs are decision-making variables in the decision-making process.

Portfolio selection represents a specialisation of investment in the stock market domain, framed within the conceptual fra-mework of finance; it consists of selecting a set of securities available on the market, according to an investor’s profile and requirements. Decision-making is defined by an invest-tor’s ability to understand stocks’ historical behaviour and the influence of external factors such as micro and macro-eco-nomic environments. Intuition, knowledge and good luck are

Page 67: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

EXPLOITING STOCK DATA: A SURVEY OF STATE OF THE ART COMPUTATIONAL TECHNIQUES AIMED AT PRODUCING BELIEFS REGARDING INVESTMENT PORTFOLIOS

REVISTA INGENIERÍA E INVESTIGACIÓN VOL. 28 No. 1, ABRIL DE 2008 (105-116) 106

examples of components which are generally recognised as being factors in successful portfolio selection.

The classical framework for portfolio selection is defined by the risk/return element of Markowitz’s theory (Markowitz, 1952). This theory states that portfolio selection consists of two stages: creating beliefs and portfolio design; the former concerns how investors define their beliefs about markets’ future performance whilst the latter deals with how investors select investments according to their own beliefs. Several ma-thematical and probabilistic models have been developed from a financial viewpoint for the design stage; however, they have assumed that beliefs are represented as probabi-listic distributions of stock series data. Econometrics provides models for time series analysis (re creating beliefs), including forecasting, regression and function approximators regarding stock series data; technical analysis (Murphy, 1999) provides charts and technical indicators suggesting beliefs about mar-ket trends to the investors. However, beliefs are not only density functions of stock data, nor values con-cerning market trends; beliefs in the real world are rules and patterns repre-senting the investor’s know-ledge and ability to understand market dynamics. Classical financial models thus do not support this type of representation but several computer-based techniques can handle such representations (using rules, patterns, etc.) and are widely used in the aca-demic community.

This survey is thus aimed at presenting several com-putational models found in the literature for solving the pro-blem of creating portfolio beliefs. Initially of this survey pre-sents a conceptual framework for selecting a portfolio as part of a multi-objective optimisation approach, presents classical models for portfolio design (being the second stage of the process), presents models for creating beliefs concerning portfolio performance, focusing on statistical and computa-tional techniques. Finally draws conclusions and proposes further work on computational techniques for creating be-liefs.

The portfolio selection problem

Portfolio selection is described as being the selection of a se-curities set from an available universe; such selection is dri-ven by a decision-maker’s objectives and according to an investor’s knowledge and beliefs about market behaviour. The aim behind this selection is to invest a limited amount of money for a period of time on securities bringing an investor the best expected values concerning the variables involved in decision-making. The aim then (from the viewpoint of eco-nomics) is to maximise investor wealth. The following infor-mation categories are involved:

-Quantitative: indices, technical indicators, security prices (time series); and

-Qualitative: fundamental beliefs, news, speculation.

An investor acting within a classical and rational economics’ environment will thereby wish to invest in stocks producing the highest return; however, the decision concerning which stocks to choose (i.e. those forming the portfolio) is orien-tated by beliefs such as the price of stock “x” is going down because the dollar price is high.. or, I will not invest in stock “y” because its price has gone down since last week[...]. Such rules describe how knowledge about stock performance ari-ses according to factors such as the market, the stocks’ histo-ry, political decisions, the economic environment and specu-lation. An investor’s profile is then defined by the following:

-Position: geographical position, job, sociological and econo-mical conditions;

-Preferences: risk attitude, time conditions, expected return; and

-Predictions: trading rules, beliefs, stock trends and so on.

Figure 1: Portfolio selection

Two stages are involved in portfolio selection (Markowitz, 1952); the first consists of creating beliefs about securities’ performance in horizon planning (the time during which an investor is going to take portfolio decisions). An investor must observe market behaviour and use experience and know-ledge of domain application in creating such beliefs. Output from this stage results in a set of rules subjectively describing securities’ performance (predicted behaviour). The set of ru-les or beliefs generally represent probability distributions for securities, association rules, temporal patterns, trading rules and so on.

The second stage consists of using beliefs about securities for designing a portfolio. This selection is defined by an investor’s objective variables. The set of securities and the vector of money invested in each selected security represent the out-put from this stage. This output is called a portfolio and is a-pplied to an investment period; a sequence of portfolios must be built (one for each period) when an investor is wor-king with multiple periods. This sequence is called a portfolio selection algorithm (El-Yaniv, 1998) and specifies how an in-vestor must reinvest wealth from period to period (Figure 1).

Several approaches have been found in the literature for pro-viding a solution for the portfolio selection problem. Ho-wever, these approaches do not cover the whole process; they have been developed for a specific stage of the process

Page 68: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

LINARES, HERNÁNDEZ, GONZÁLEZ

REVISTA INGENIERÍA E INVESTIGACIÓN VOL. 28 No. 1, ABRIL DE 2008 (105-116) 107

(Figure 2). The models are organised in document according to the stages and notation defined below.

Portfolio selection may be generally defined as being multi-objective optimisation. The investor’s profile directs the pro-cess and is defined by multiple objective variables and cons-traints such as the expected stock yield, the decision-maker’s risk profile, horizon planning and the amount of money a-vailable for the investment. Portfolio selection is formally de-fined in a multi-objective approach as follows:

With Sm a set of available securities on the market, and a ho-rizon planning H with L time periods, then the portfolio sele-ction problem consists of finding a portfolio P of N securities for each period of H, with *, xSP P= where SSP ⊆ is the

portfolio securities set, and [ ]Tnxxxx **2

*1

* ,....,,= is the vector

of wealth proportions invested in each security of PS . The

portfolio must satisfy the investor profile, so *x will satisfy:

( )( ) )2(,...,2,1;0

)1(,...,2,1;0*

*

qixh

mixg

i

i

==

=≥

and optimise

( ) ( ) ( ) ( )[ ] )3(,...,, 21T

k xfxfxfxf =

The investor profile is represented by equations (1), (2) and (3). So (1) and (2) define the feasible region and represent the constraints imposed on the process; the k components of (3) represent the main criteria for portfolio selection. For example, a classical investor would prefer

)max(1 returnf = while an investor adopting a return-risk approach would prefer )max(1 returnf = and )min(1 riskf = .

Return and risk concepts

Return (yield) and risk represent the main concepts in port-folio selection, these being the main objective variables dri-ving the whole process. Return is the profit or yield obtained as a result of investment; it is a security or portfolio’s gain or loss during a particular period, consisting of income plus ca-pital gains relative to investment. Return is usually quoted as a percentage.

Risk is commonly defined as being the chance or possibility that a real investment return will be different from what was expected; it is also referred to as being the uncertainty in-volved in an investment in a security or portfolio. In econo-mics, risk measures the expected loss for an investment in monetary units. Risk is defined by the factors influencing any securities’ performance. Risk is generally classified as follows:

-Systematic risk (pervasive risk), affecting a large number of securities. For example, the effect of political news on stock prices is a kind of systematic risk. Systematic risk is a product of the financial market’s dynamics. It is thus impossible to protect an investor against this or try to predict it; and

-Specific risk (unsystematic risk), influencing individual assets or a specific set. Such influence on portfolio selection can be reduced through diversification. This principle is bas-ed on the fact that specific risk influences tend to become cancelled out in large and well-diversified portfolios.

Both types of risk compound a security’s total risk, so a secu-rity risk consists of adding systematic risk to specific risk.

The implicit relationship between risk and return defines the conceptual framework for a decision-makers’ interaction with the market. This trade-off between return and risk is repress-ented by the decision-maker’s profile or risk tolerance (ad-verse to risk, risk-lover) and is expressed on the market by the fact that higher-risk investments have higher expected return. Expected return may involve a loss proportional to risk with higher-risk values (Figure 3). The investment game is thus pla-yed with risk/return trade-off investor management.

Figure 2. Portfolio selection approaches

Figure 3: Risk/Return trade-off

Measuring return

Portfolio selection includes evaluating stock series performan-ce; these series are considered to be random variables. A decision-maker has thus to rely on a toolbox of measure-ments and indicators describing stock behaviour. Stock series are described in terms of portfolio selection by measuring central tendency and return dispersion. Risk is thus repre-sented by returns’ variance and return on the expected value of the returns’ series. These measurements are used on the assumption than stock returns follow normal distribution.

The return is obtained from the stock series prices4 as a ran-dom variable transformation so return also becomes a ran-

4 A stock series has four prices: close, open, high and low.

Page 69: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

EXPLOITING STOCK DATA: A SURVEY OF STATE OF THE ART COMPUTATIONAL TECHNIQUES AIMED AT PRODUCING BELIEFS REGARDING INVESTMENT PORTFOLIOS

REVISTA INGENIERÍA E INVESTIGACIÓN VOL. 28 No. 1, ABRIL DE 2008 (105-116) 108

dom variable. This transformation is defined as a real function:

( ) ( ) )4();(, ktYfktRY =

with ( )tY a time series of security prices and k is the regre-ssion time window. Simple return and log return are two ins-tances of (4) which are widely used in finance.

Simple return

This is also called an arithmetic return and is defined with k=1 as follows:

( ) ( ) ( )( )

( )( ) )5(1

111

−−

=−

−−=

tYtY

tYtYtYtRY

A simple return with k window size is called k-step:

( ) ( ) ( )( )

( )( ) )6(1, −−

=−

−−=

ktYtY

ktYktYtYktRY

This return has some features:

( ) ( ) ( )( )( )( ) ( )

( )( ) ( )

( )tYtYktY

ktYktYtYiv

tR(iii)tRii

ktYtYtRi

Y

Y

Y

−−−≠

−−−

>>

−==

)(

loss. a defines 0gain. a defines 0)(

.*2 when 1)(

Log return

A simple return is an asymmetric function regarding positive and negative changes of the same magnitude. For example, if Y(t) = 13 and Y(t−1) = 8, then simple return RY (t) = 0.625, but if Y(t) = 8 and Y(t − 1) = 13, RY (t) = −0.3846. Log (lo-garithmic) return fixes simple return asymmetry and is de-fined as follows:

( ) ( )( ) ( )( ) ( )( ) )7(1lnln

1lnlog −−=⎟⎟

⎞⎜⎜⎝

⎛−

= tYtYtYtYtR Y

and with k-step:

( ) ( )( ) ( )( ) ( )( ) )8(lnlnln,log ktYtYktYtYktR Y −−=⎟⎟

⎞⎜⎜⎝

⎛−

=

This return has some features:

( )( )

( )( ) ( ) ( )

( )( )

( )( ) ⎟⎟

⎞⎜⎜⎝

⎛ −−=⎟⎟

⎞⎜⎜⎝

⎛−

===−

>>

tYktY

ktYtYiv

tRktYtY(iii)

tRiitRi

Y

Y

Y

lnln)(

%3.692lnlog then 2 If

.loss. a defines 0)(.gain a defines 0)(

Risk measurement

Multiple measurements allow an investor to estimate an in-vestment’s financial risk (Giorgi, 2002; Galvan, 2004; Naw-rocki). These kinds of measurements are functions g of the securities’ return (range nℜ and domainℜ ):

( ) ( )( ) )9(tRgRRisk YY =

Equation (9) represents the set of functions which can be considered as a risk measurement. Artzner et al., (1999), re-duced the functions set g to ρ , with risk measurement a-xiomatisation and coherent risk measurement definition:

( ) ( )( ) )10(tRRRisk YY ρ=

with ρ a coherent risk measurement is defined as follows:

A function ℜ→X:ρ is a coherent risk measurement if it ful-fils the following axioms:

(i) Subadditivity (axiom S): ( ) ( )YXYX ρρρ +≤+ )( ;

(ii) Positive homogeneity (axiom PH): if 0≥λ , then ( )XX λρλρ =)( ;

(iii) Monotony (Axiom M): if YX ≤ , then ( )YX ρρ ≥)( ; and

(iv) Translation invariance (axiom T): if ℜ∈m then ( ) mXmX −=+ ρρ )(

-Axiom S is related to the diversification theorem. If portfolio risk is not less than the sum of individual risks, then an invest-tor would prefer to invest in securities individually and not on a portfolio.

-Axiom PH. The risk of λ units of X is equal to λ times the risk of X; it is a consequence of axiom S.

-Axiom M. If return X is less than return Y, then risk ok X will be higher.

-Axiom T. Risk decreases if the portfolio has a risk-free security.

Coherent risk evaluates the risk associated with future states while classical risk measurement assesses risk with return historical data.

Convex risk measurement is an extension of coherent ones. Convex measurement is a weak form of coherent measu-rement. Convex measurement includes situations in which risk position5 does not increase lineally with position size:

A function ℜ→X:ρ is called convex measurement if it fulfils the conditions of convexity6, mononotony and translation in-variance.

5 A position represents an investment decision : buy, sell, hold. 6 Convexity: ( )( ) ( ) ( ) ( ) [ ]1,0,11 ∈∀−+≤−+ λρλλρλλρ YXYX

Page 70: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

LINARES, HERNÁNDEZ, GONZÁLEZ

REVISTA INGENIERÍA E INVESTIGACIÓN VOL. 28 No. 1, ABRIL DE 2008 (105-116) 109

Variance and semi-variance are classic risk measurements and belong to a group called deviation measurement:

A function ℜ→X:ρ is called deviation measurement if it fulfils the following conditions (in addition to subadditivity and positive homogeneity):

(i) Shift invariance: ( ) ℜ∈∀=+ mXmX ρρ )( ;

(ii) Non-negativity: if XX ∀≥ 0)(ρ , with X being a random variable representing return.

A set of risk measurements widely used in portfolio selection are presented below.

Variance

Risk is associated with the volatility of securities’ prices and securities returns in a classic conception. Assuming that re-turns’ data has symmetrical and normal distribution, then expected return represents central tendency and variance is average variation with mean:

( ) [ ][ ] )11(22 RERERVAR R −== σ

Semi-variance

This is based on the observation that decision-makers do not worry about the risk of securities having prices below a threshold. Semi-variance is an answer for handling securities having asymmetric distributions and is defined as follows (Deng et al., 2000):

( ) [ ] )12(,..,2,10, 2 niRMinERSemiVAR i ∈∀−= γ

with iR being the time series data and γ the threshold. A

particular instance of semi-variance occurs when the thres-hold is the expected value:

( ) [ ] [ ] )13(0, 2RERMinERSemiVAR i −=

Semi-variance defines risk as being the volatility below the threshold and is a particular case of a set of measurements called K-th order lower partial moments (LPMk)7.

VaR: value at risk

VaR involves the concept of providing a simple number en-capsulating all available risk portfolio information (Rom-bouts and Rengifo, 2004). This number must be understood by people lacking financial skills and the operations involved in calculating it must be fast. VaR is based on two aspects of the financial market:

-Managers measure risk as loss in monetary units; and

-Portfolio deviations less than expected return do not have the same probability as deviations exceeding expected return

7 ( ) ( )[ ] ( )[ ] )2(,0,min0,max;

11≥−=−= kcXEXcEcXLPM kkk

(i.e. distribution of returns is not symmetric concerning cen-tral tendency).

VaR thus measures the dispersion of loss associated with a fixed occurrence probability (α level). Higher risk means higher loss with a fixed probability. For a level [ ]1,0∈α , VaR is defined as follows:

( ) [ ] )14(inf αα >≤−= xXPxXVaR

VaR is not a coherent risk measurement because it does not fulfil the subadditivity axiom.

Figure 4: Min-Max model efficient set

ES: expected shortfall

Expected shortfall is a solution for VaR weakness (i.e. expec-ted shortfall fulfils the subadditivity axiom). Expected shortfall with an α level is average loss in the worst 100 · α %:

( )∫−−=α

α α0

1 )15(duXVaRES u

Portfolio design

The following notation will be used in this section:

- ix : proportion invested in security i

- iR : return for i-th security; random variable with [ ]ii RE=μ

- [ ]TNRRRR ,....,, 21=

- [ ]TNμμμμ ,....,, 21=

- ( )RCOV : variance-covariance matrix of random vector R

- W(t): the investor’s wealth for period t

The purpose of this stage is to build optimal portfolio P. This is based on Markowitz’s Modern Portfolio Theory (MPT) (Markowitz, 1952 and 1999) which has inspired a lot of work on the nature of portfolio selection. Two approaches in the literature cover portfolio design: MPT and investment strate-

Page 71: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

EXPLOITING STOCK DATA: A SURVEY OF STATE OF THE ART COMPUTATIONAL TECHNIQUES AIMED AT PRODUCING BELIEFS REGARDING INVESTMENT PORTFOLIOS

REVISTA INGENIERÍA E INVESTIGACIÓN VOL. 28 No. 1, ABRIL DE 2008 (105-116) 110

gies (Van der Hart et al., 2001; Amir et al., 2002); this survey focuses on the former.

The purpose of the MPT approach is to build a portfolio a-ccording to return and risk decision criteria. Models arising from such dual decision criterion have been developed according to the measurement used for evaluating risk (i.e. risk interpretation is the main element of MPT models). De-cision criteria in earlier models (before MPT) only consisted of maximising return but, with the introduction of the con-cept of portfolio diversification, risk became an important element in new models of portfolio selection.

Mean and variance models

This kind of model assumes normal securities’ probability dis-tribution and represents beliefs about securities’ future per-formance. Mean distribution is considered as return while variance is the measurement used for risk. Mean-variance models have assumed that an investor is averse to risk. The a-

vailable wealth for an investor is 1, so ∑=

=N

iii Wwx

1

. The

model presents the following variations according to the constraints and objective functions which are used in the process:

-Min-Max: This is the general case for the mean-variance model. Return maximisation and risk minimisation are the decision criteria applied in this mathematical model. The problem thus becomes multi-objective optimisation. The so-lution set is thus a Pareto front or efficient set (Figure 4 is an example of Pareto front for a Min-Max model). An investor must look at non-dominated solutions when selecting a portfolio and pick one of them according to his particular re-quirements. The model may be formally presented as fo-llows:

( ) ( ) ( )[ ]( )( ) [ ]( )( )( ) ( )( )

)20(0,

)19(1

)18(minmin

)17(maxmaxmax

)16(,

1

2

11

21

>∀

=

⋅⋅=

⎟⎠

⎞⎜⎝

⎛==

=

=

=

ii

N

ii

T

N

iii

T

T

x

x

xRCOVxxf

xxRExf

xfxfxf

μ

-Max-return: The decision criterion was return maximisation with maximum value γ for risk:

( ) ( )[ ]( )( ) [ ]( )

( )( )

)25(0,

)24(1

)23(

)22(maxmaxmax

)21(

1

21

11

1

>∀

=

≤⋅⋅

⎟⎠

⎞⎜⎝

⎛==

=

=

=

ii

N

ii

T

N

iii

T

T

x

x

xRCOVx

xxRExf

xfxf

γ

μ

-Min risk: The decision criterion was variance minimisation with a minimum value α for return:

( ) ( )[ ]( )( ) ( )( )

[ ]

)30(0,

)29(1

)28()27(minmin)26(

1

2

1

>∀

=

≥⋅⋅=

=

∑=

ii

N

ii

T

T

T

x

x

xRExRCOVxxf

xfxf

α

Index models

Portfolio diversification reduces securities’ specific risk but systematic risk is a market feature so it cannot be minimised with portfolios. Systematic risk affects securities’ return and establishes a relationship between market and security per-formance. This relationship is security β and is defined as fo-llows:

( ) )31(),(

m

mXX RVar

RRCov=β

with XR being the return for security X and mR the market

return.

Sharpe proposed the CAPM model in 1963 (Sharpe, 1964), assuming that most stock prices increase when the market goes up and decrease when it goes down. A market factor is then introduced to describe such type of security move-ments. This market factor represents securityβ . Differences between individual securities’ returns are assumed to be the result of additional independent random disturbances speci-fic to each security. A security’s return has two parts, the first depending on the market and the second being a random variable independent of other securities. The CAPM ex-pression is defined as follows:

( ) )32(fmifi rRrR −+= β

with fr being the risk free rate on the market. Sharpe’s single

index model states that a security’s return is a linear function of market return where the market is typically represented by one of the broad equity indices. Other factors different to market movement are observed to have an influence on se-curity prices, such as the effects of industry and interest rates. Multi-index models have thus been proposed as a measu-rement involving several betas for systematic risk. The general form for multi-index models (with error ie ) is:

)33(1

, ij

k

jijii eRR ++= ∑

=

βα

Mean-semi variance models (E-S)

Semi-variance measures risk in this model; it is proposed fo-llowing the observation that investors may only be concerned with the risk of securities’ return being lower than the mean.

Page 72: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

LINARES, HERNÁNDEZ, GONZÁLEZ

REVISTA INGENIERÍA E INVESTIGACIÓN VOL. 28 No. 1, ABRIL DE 2008 (105-116) 111

It is not widely used in spite of its being intuitively closer to reality than the mean-variance model.

Mean absolute deviation model (MAD)

Mean-absolute deviation measures risk in this model (Kommo, 1991):

)34()(1 ⎥

⎥⎦

⎢⎢⎣

⎡⎥⎦

⎤⎢⎣

⎡−= ∑ ∑

= =

N

i

N

ijjjii xRExRExw

Mean-variance-skewness model (MVS)

Skewness is the third momentum of a probability distribution measuring distribution asymmetry. This model is a natural ex-tension of the mean-variance model which adds skewness as another criterion for portfolio selection (Deng et al., 2000) A third decision criterion is thus introduced: maximise expec-ted skewness value. The MVS optimisation model has two forms:

-Max-Min-Max : if iτ is the third momentum for the i-th se-

curity

( ) ( ) ( ) ( )[ ]( )( ) [ ]( )( )( ) ( )( )( )( )

)40(0,

)39(1

)38(maxmax

)37(minmin

)36(maxmaxmax

)35(,,

1

13

2

11

321

>∀

=

⎟⎠

⎞⎜⎝

⎛=

⋅⋅=

⎟⎠

⎞⎜⎝

⎛==

=

=

=

=

ii

N

ii

N

iii

T

N

iii

T

T

x

x

xxf

xRCOVxxf

xxRExf

xfxfxfxf

τ

μ

-Max-skewness: if γ and α are the target values for risk and return, respectively:

( ) ( )[ ]( )( )

[ ]

)46(0,

)45(1

)44()()43(

)42(maxmax

)41(

1

11

1

>∀

=

==

⎟⎠

⎞⎜⎝

⎛=

=

=

=

ii

N

ii

T

T

N

iii

T

x

x

xRCOVxxRE

xxf

xfxf

γα

τ

Creating beliefs making

Belief-making consists of producing a set of rules defining se-curities’ future performance. Many concepts, models and theories concerning which factors are involved in the securi-ties’ temporal behaviour can be found in the literature (Chen et al., 1986; Burmesteir et al., 2003; Ekern, 1971). These fac-tors or economic forces influencing all stock returns are known as systematic or pervasive risk and are the compo-nents making belief-making so interesting.

The beliefs are represented as rules. These rules are conside-rations about securities’ performance; the rules are also the knowledge hidden in the historical data. Three approaches for creating beliefs are presented below. Each has its own set of rules. Several computing and systems engineering tech-niques applied to belief-making are presented in this section. These techniques are classified into three groups:

-Time series forecasting;

-Association rules; and

-Interesting patterns and trends.

Figure 5: Time series forecasting models

The first is the most widely used while the rest are attracting new followers within the computational finance community.

Time series forecasting

Securities forecasting is recognised in the community as being a very difficult task insofar as financial time series have special features (Hellstrom and Holmstrom, 1998; Rydberg, 2000). Two ways of modelling the problem from the point of view of data involved in prediction are commonly found in the literature: technical and fundamental analysis. Fore-casting is only based on securities’ historical data in the for-

Page 73: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

EXPLOITING STOCK DATA: A SURVEY OF STATE OF THE ART COMPUTATIONAL TECHNIQUES AIMED AT PRODUCING BELIEFS REGARDING INVESTMENT PORTFOLIOS

REVISTA INGENIERÍA E INVESTIGACIÓN VOL. 28 No. 1, ABRIL DE 2008 (105-116) 112

mer while fundamental analysis also includes data related to the market situation and other parameters. Technical analysis is based on the assumption that a particular stock’s historical performance is a strong indication of future performance. Formally, if )(tsi is the predicted value for the i-th security for

time t, )(tsi is defined for technical and fundamental analysis

in (47) and (48), respectively, as follows:

( ) ( ) ( )( )( ) ( ) ( )( ) )48(,,..,2,1)(

)47(,..,2,1)(Intststsfts

ntststsfts

iiii

iiii

−−−=−−−=

In (48), I is a vector having the factors representing risk and other fundamental parameters which influence securities’ behaviour. The list below is an example of these factors:

-Inflation;

-Interest rates;

-Trade balance;

-Stock indices: Dow Jones, DAX, Swedish General Index; and

-Commodity prices: coffee, oil, currency.

Forecasting is formally defined as follows:

If )(tsi is a time series for the i-th security, w is the window’s

autoregressive size, H is portfolio horizon planning and g(t) is a function of the factors involved in the process. Securities’ prediction thus consists of finding the values for )(tsi in the

following way:

( )( ) )49(),(),..,2(),1()(, tgwtststsftsHt iiii −−−=∈∀

In the case of technical analysis g(t)= 0.

Prediction is formulated and solved according to two pers-pectives. The former assumes that the prediction model is li-near; the second perspective is more general and defines the model as being non-linear. Figure 5 gives graphical examples of how data is represented by linear and non-linear models. The linear approach generally uses statistical techniques while the contemporary nonlinear approach is based on ma-chine learning and evolutionary computation models. Pre-dicting financial time series has therefore been solved in many ways, as follows:

-Linear autoregressive models (AR, ARMA, ARIMA Models), also called scoring models:

)()()()(1

tejtgbjtsatsd

jmimi +−+−= ∑

=

-Classical nonlinear models (Clements, 2003);

-Nonlinear models implemented with artificial neural networks;

-Evolutionary computation;

-Support vector machines; and

-Bayesian networks.

Neural networks

An artificial neural network is used as a universal approxi-mator able to approximate any continuous function without a priori assumptions about the data. The aim of a neural net-work is to build an internal model (topology and connection values) for forecasting the desired values. The inputs are the

)(tsi available values and these are used for training and

testing network sets. May strategies have been used for fore-casting securities’ prices according to neural input and out-put:

-Input: individual prices, price combination, prices and technical indicator combinations; and

-Output: price forecasting, reversal point forecasting, index forecasting, candlestick forecasting8.

The literature presents models ranging from neural networks to time series forecasting (Kodogiannis y Lolis, 2002; Dunis y Jalilov, 2001; Lendasse et al., 2000; Lendasse et al., 1998; Chan et al.), such as recurrent neural networks, feed-forward networks with FIR filters and multilayer perceptrons; Hut-chinson’s work (Hutchinson, 1999) using radial basis functions networks is a good example of this. Table 1 summarises the neural network approaches used in the liter-ature for financial series forecasting.

Evolutionary computation

Evolutionary computation (EC) integrates evolutionary con-cepts with programming for solving hard optimisation pro-blems. EC is implemented for stock forecasting via two a-pproaches:

-Genetic algorithms (Koza, 1989).

Table 1. Artificial neural networks and financial forecasting Neural network approach Reference

Multilayer perceptron Kodogiannis and Lolis, 2002 Radial basis functions Kodogiannis and Lolis, 2002

Autoregressive recurrent neural network

Kodogiannis and Lolis, 2002

Elman network Kodogiannis and Lolis, 2002 Neuro-fuzzy inference system Kodogiannis and Lolis, 2002

Multilayer perceptron Dunis and Jalilov, 2001 Multilayer perceptron Jao et al., 1999 Radial basis functions Lendasse et al., 2000 Kohonnen network Lendasse et al., 1998

Backpropagation-conjugate gradient

Chan et al.

Radial basis functions Hutchinson, 1993 Dual coupled network Hernandez et al., 2007

8 Candlestick forecasting is the most recent approach. An example of this is given in (Hernandez et al., 2007) where multiple candlestick re-presentations were used.

Page 74: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

LINARES, HERNÁNDEZ, GONZÁLEZ

REVISTA INGENIERÍA E INVESTIGACIÓN VOL. 28 No. 1, ABRIL DE 2008 (105-116) 113

Figure 6. Bayesian Network (Shenoy and Shenoy, 2000)

-Genetic programming (Koza, 1992)

Genetic algorithms and genetic programming are used for finding non-linear models; in the genetic programming case, this process is called symbolic regression. For example, Ka-boudan (Kaboudan, 2000) used symbolic regression with ge-netic programming for predicting stock prices.

Support vector machines (SVMs)

Applying SVMs to time series forecasting has become a subject of intense study from the perspective of non-linear regression stimation problems (Muller et al., Tay and Cao, 2001, Cao and Tay, 2001). SVMs estimate the regression function using linear functions which are defined in a high di-mensional space. Given a set of nii dxG ,= ( ix is the input

vector, id is the desired value and n is the space dimension)

data points, the approximation function is:

Figure 7: A Bayesian network portfolio model (Shenoy and Shenoy, 2000)

)50()()( bxwxfy +== φ

where )(xφ is the high dimensional space and w and b are estimated by minimising

)52(0

),(

)51(21),(1)( 2

11

⎩⎨⎧ ≥−−−

=

+= ∑=

otherwiseydyd

ydL

wydLn

CCRn

iiSVMs

εεε

ε

Bayesian networks (Heckerman, 1997)

A Bayesian network is a graphical model representing probabilistic relationships amongst variables of inte-rest. Bayesian networks combine traditional quantita-tive analysis (historical data) with decision-maker judgment concerning qualitative information display-

yed in a directed acyclic graph. The model’s output is a port-folio return distribution according to a Bayesian inference model (Shenoy and Shenoy, 2000). The network nodes re-present the quantitative information while the edges repre-sent the qualitative information. The nodes are thus the va-riables (stocks, indices) and the edges define variable depen-dencies (conditional probabilities between variables). Each variable has a set of mutually exclusive values called its state space (e.g. dollar price varies and its states are high or low). The model graphically represents the relationship between the factors affecting portfolio return, according to the net-work designer (Figures 6 and 7 are examples of Bayesian network portfolio models). The model depends on any com-bination of empirical data, investor expectations, judgment or forecast.

Association rules

An association rule defines a unidirectional relationship between two sets of attributes. It is an expression of the form if x then y which is supported by data, where x and y are predicates about problem attributes. So a predicate x is a logic expression with connectors ∧ and ∨ (i.e.

1998332 2211 =∧=∧=∨≤ AAAA ). An example of an asso-ciation rule in the financial field is something like if dollar in-crease = 0.1 and euro increase = 0.5, then x stock increase = 0.2. Association rules are also expressed as grammars and deterministic finite state automata when the rule has an asso-ciated output. Association rules state the interaction between securities, indexes series and market tendencies in portfolio selection.

The aim of data mining process is to automatically extract informative rules from the series. In most cases this means that the rules should have some level of precision, be repress-entative of the data, easy to interpret and interesting for a human expert (i.e. novel, surprising or useful). Association rules describe knowledge regarding an application domain. In the case of portfolio selection, the rules describes the knowledge implicit in the market behaviour or the beliefs which decision-makers (such as investors, experts and tra-

Page 75: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

EXPLOITING STOCK DATA: A SURVEY OF STATE OF THE ART COMPUTATIONAL TECHNIQUES AIMED AT PRODUCING BELIEFS REGARDING INVESTMENT PORTFOLIOS

REVISTA INGENIERÍA E INVESTIGACIÓN VOL. 28 No. 1, ABRIL DE 2008 (105-116) 114

ders) have about market behaviour and securities’ perfor-mance.

Extracting rules can be applied to target securities and factors set SST ⊆ . A set of time series is analysed to find patterns or relationships between recurrent sets in the selected data. Da-ta mining techniques, such as a priori algorithm and multi-dimensional association rules (Han and Kamber, 2001), are commonly used for rules extraction.

Shen has used an interesting rough sets (Pawlak, 1982) and SOM hybrid model for generating rules forming the input for a trading system. Rough sets is a mathematical tool for dea-ling with uncertainty (Shen and Loh, 2004). Rough sets have the following advantages in financial prediction:

-Integrated analysis of quantitative and qualitative attributes;

-Expressing knowledge in terms of natural language rules;

-Discovering knowledge in terms of data set key concepts; and

-Rough sets do not need any preliminary information about data, such as securities’ distribution probabilities or risk beliefs.

Shen used a rough SOM algorithm for transforming financial data into rough objects which are used to generate decision rules stating that if x then y, where x is a predicate of technical indicators and y is an investment strategy action.

Interesting patterns and trends

Discovering typical or frequents patterns is one of the current great challenges of mining databases containing time series data. An interesting pattern is a sequence of values which are common (or unusual) when collecting data, given a particular consideration. Temporal patterns occur frequently from the point of view of trends and seasonal effects in securities time series and in general financial series (Hellstrom and Holms-trom, 1998a and 1998b). The concept of seasonal effects states a relationship between series’ behaviour and calendar days; the calendar thus influences market and securities’ performance. The day-of-the week and month effect are e-xamples of how the academic community approaches finan-cial series prediction.

Stock trends are also an interesting field in portfolio theory. This type of pattern has been widely studied, both theoretical and experimentally, for the followers of technical analysis.

Several models have been used for finding interesting patterns in securities’ series:

1. Prediction rules for data mining with genetic programming (Hetland and Saetrom, 2005);

2. Entropy and statistical dependency analysis (Darbellay and Wuertz, 2000; Cheng, 1999);

3. Temporal rules inference with SOM and recurrent neural networks (Giles et al., 1997); and

4. Clustering techniques.

The purpose of clustering is to group unsupervised objects into classes or clusters according to similarity measurement (Berkhin, 2002). Two rules govern the process:

-Minimise the distance between same cluster members; and

-Maximise the distance between clusters

Clustering techniques are classified into hierarchical, partitio-ning relocation and density-based partitioning. Hierarchical clustering groups the data into a tree of clusters and is cate-gorised into being agglomerative and/or divisive, according to the strategy used for building the tree (bottom-up, top-down). Partitioning clustering algorithms divide data into se-veral sets in an iterative relocation process driven by greedy heuristics. Density-based methods group data according to concepts of density, connectivity and boundary. For more details about clustering techniques see Berkhin, 2002. Hie-rarchical and partitioning techniques have been used for universe reduction and stock indexing in portfolio selection in Craighead and Klemesrud, Dose and Silvano Cincoti, Ga-vrilov et al., Micciche and Fabd, 1995 and Chung et al. Table 2 summarises such techniques.

Conclusions and further work

The list of financial and computational models presented in this survey is a representative list of academic and scientific efforts aimed at solving the automatic portfolio selection pro-blem. Each model presented here addresses one of the portfolio selection stages.

There is a financial and mathematical framework through which an investor can tackle the decision-making process in the case of optimal portfolio design. However, MPT models involve strong assumptions which (in most cases) are not a-ppropriate for the several approaches which have been developed for creating beliefs. The survey presented several computational techniques applied to belief-making but also revealed how techniques such as fuzzy logic have not been explored. The reasoning involved in fuzzy logic may be considered as a strategy for modelling investor beliefs and may be mixed with data mining models for discovering mar-ket performance rules. Another interesting still to be explored area is the representation of time series as candlesticks; candlestick representation is a tool for technical analysis ai-med at forecasting tendencies through visual chart analysis9. For example, Hernandez et al., (2007) used candlestick as a data representation scheme for stock forecasting with neural networks. This kind of representation may be useful for dis-covering interesting patterns using data mining and linguistic rules. 9 Murphy (1999) is a good reference for understanding the candlesticks technique.

Page 76: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

LINARES, HERNÁNDEZ, GONZÁLEZ

REVISTA INGENIERÍA E INVESTIGACIÓN VOL. 28 No. 1, ABRIL DE 2008 (105-116) 115

Table 2: Clustering techniques for financial time series

Further work in the field must be orientated towards integra-ting good practice and models for each stage in the process in a computer-assisted model helping an investor to build scenarios and portfolio efficient sets having the following fea-tures:

The model must involve quantitative and qualitative infor-mation in the belief building process;

Clustering and classification techniques must be used for ex-tracting patterns and trends from historical data to support series forecasting and data mining for investment rules;

Correlation series analysis and data mining techniques must support knowledge extraction aimed at building portfolio de-sign models and defining risk measurement;

Modern portfolio models must be applied to multi-period portfolio selection; and

Belief-building approaches (time series forecasting, extracting rules, pattern extraction, candlesticks) must support new portfolio design models.

Bibliography

Amir, R., Evstigneev, I. V., Hens, T., ReinerSchenk-Hopp, K., Market selection and survival of investment strategies., Tech. Rep. 02-16, University of Copenhagen. Institute of Economics, Oct. 2002, available at http://ideas.repec. org/p/kud/kuiedp/0216.html.

Artzner, P., Delbaen, F., Eber, J., Heath, D., Coherent measures of risk., Mathema-tical Finance, Vol. 9, 1999, pp. 203–228. Berkhin, P., Survey of clustering data mi-ning techniques., technical report, Accrue Software, San Jose, CA, 2002. Burmesteir, E., Roll, R., Ross, S., Using ma-croeconomic factors to control portfolio risk., tech. rep., Insightful, 2003. Cao, L., Tay, F., Financial forecasting u-sing support vector machines., Neural and Computing Applications, Vol. 10, 2001, pp. 184–192. Chan, M.-C., Wong, C.-C., Lam, C.-C., Financial time series forecasting by neural network using conjugate gradient learning algorithm and multiple linear regression weight initialization., Department of Com-puting, The Hong Kong Polytechnic Uni-versity. Chen, N.-F., Roll, R., Ross, S. A., Econo-mic forces and the stock market., Journal of Business, Vol. 59, No. 3, pp. 383–403, 1986. available at http://ideas.repec.org/ a/ucp/jnlbus/v59y1986i3p383-403.html. Cheng, C.-H., Entropy-based subspace clustering for mining numerical data., Mas-ter’s thesis, Department of Computer Science & Engineering, Chinese University

of Hong Kong, 1999. Chung Fu, T., Lai Ching, F., Luk, R., man Ng, C., Financial

time series indexing based on low resolution clustering. Clements, M. P., Forecasting economic and financial time-

series with non-linear models., Department of Economics University of Warwick, October 2003.

Craighead, S., Klemesrud, B., Stock selection based on cluster and outlier analysis. Nationwide Financial.

Darbellay, G. A., Wuertz, D., The entropy as a tool for ana-lysing statistical dependences in financial time series., Physica A, D. Vol. 287, No. 3-4, 2000, pp. 429–439.

Deng, X.-T., Wang, S.-Y., Xia, Y.-S., Criteria, models and strategies in portfolio selection,” AMO — Advanced Mo-deling and Optimisation., Vol. 2, No. 2, 2000, pp. 79– 103.

Dose, C., Cincoti, S., Clustering of financial time series with application to index and enhanced-index tracking portfolio., tech. rep., Universit di Genova.

Dunis, C., Jalilov, J., Neural network regression and alter-native forecasting techniques for predicting financial variables., tech. rep., Liverpool Business School, 2001, pp. 15

Ekern, S., Taxation, political risk and portfolio selection., Economica, Vol. 38, No. 152, 1971, pp. 421–30, available at http://ideas.repec.org/a/bla/econom/v38y19 71i152p421-30.html.

Technique Category Description

PAM Partitioning

PAM (partitioning amongst methods (Berkhin, 2002)]) is used for stock selection, reducing the stock’s initial universe,

according to k representative clusters defined by the user and using L1 (Manhattan) as distance measurement (Craghead and

Klemesrud)

Linkage

Hierarchical

Agglomerative complete link clustering is used for indexing tracking and enhanced index tracking for stocks. It uses two

distance measurements (Dose and Silvano):

period time theis return,index theis

1min),(

1min),(

,min),()(tcoefficienn correlatio :;)1(2),()(

1

2

2

1

2

1

21

TRayayx

Tyxd

xayx

Tyxd

ddyxdiiccyxdi

T

t t

ttRa

T

t t

ttRa

xyxy

⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

⎟⎟⎠

⎞⎜⎜⎝

⎛ −=

⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

⎟⎟⎠

⎞⎜⎜⎝

⎛ −=

==−=

=∈

=∈

Linkage Hierarchical Agglomerative complete link clustering with Euclidean distance

measurement is used for S&P 500 index tracking (Gavrilov etal.).

Linkage Hierarchical

This technique is used for finding a cross-correlationhip between the 500 highly capitalised stocks traded on the New York Stock Exchange from 1987-1998. Data is clustered on a

minimum spanning tree by means of single linkage with correlation distance on log returns (Micciche and Fabd,

1995).

K-Means Partitioning Financial time series indexing by means of K-means algorithm with Euclidean distance (Chung et al.).

Page 77: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

EXPLOITING STOCK DATA: A SURVEY OF STATE OF THE ART COMPUTATIONAL TECHNIQUES AIMED AT PRODUCING BELIEFS REGARDING INVESTMENT PORTFOLIOS

REVISTA INGENIERÍA E INVESTIGACIÓN VOL. 28 No. 1, ABRIL DE 2008 (105-116) 116

El-Yaniv, R., Competitive solutions for online financial pro-blems., ACM Computing Surveys, Vol. 30, pp. 28–69, Mar. 1998.

Gavrilov, M., Anguelov, D., Indyl, P., Motwani, R., Mining the stock market: Which measure is best?., tech. rep., De-partment of Computer Science- Stanford University.

Giles, C. L., Lawrence, S., Tsoi, A. C., Rule inference for fi-nancial prediction using recurrent neural networks., in Pro-ceedings of IEEE/IAFE Conference on Computational Intelligence for Financial Engineering (CIFEr), (Piscataway, NJ), IEEE, 1997, pp. 253–259.

Giorgi, E. D., A note on portfolio selection under various risk measures., Tech. Rep. iewwp122, Institute for Em-pirical Research in Economics - IEW, 2002. available at http://ideas.repec.org/p/zur/iewwpx/122.html.

Glavan, C. An application of alternative risk measures to trading portfolios., Master’s thesis, Finance School, Zurich University, 2004.

Goldberg, D., Genetic algorithms in search, optimisation and machine learning., Addison-Wesley Professional, 1989.

Han, J., Kamber, M., Data Mining: Concepts and Tech-niques., San Francisco: Morgan Kaufmann Publishers, 2001.

Heckerman, D., Bayesian networks for data mining., Data Mining and Knowledge Discovery, Vol. 1, No. 1, 1997, pp. 79–119.

Hellstrom, T., Holmstrom, K., Predicting the stock market., Tech. Rep. IMa-TOM-1997-07, Center of Mathematical Modelling - Malardalen University, August 1998a.

Hellstrom, T., Holmstrom, K., Predictable patterns in stock returns., Tech. Rep. HEV-BIB-OP-30-SE, Center of Mathematical Modelling - Malarden University, 1998b.

Hernandez, G., Linares, M., Rojas, S., On candlestick forecasting with an adaptive coupled dual neural network., in Memorias Congreso Internacional de Inteligencia Computacional CIIC 2007, 2007.

Hetland, M. L., Saetrom, P., Evolutionary rule mining in time series databases., Machine Learning, Vol. 58, Feb 2005, pp. 107–125.

Hutchinson, J. M., A radial basis function approach to financial time series analysis. Tech. Rep. AITR-1457, Massachusetts Institute of Technology, 1993.

Kaboudan, M., Genetic programming prediction of stock prices,” Computational Economics., M. ol. 16, 2000, pp. 207– 136.

Kodogiannis, V., Lolis, A., Forecasting financial time series using neural networks and fuzzy system-based techniques., Neural Computing and Applications, Vol. 11, 2002, pp. 90–102.

Kommo, Y. H., Mean-absolute deviation model for portfolio optimisation and its application to Tokyo stock market., Management Science, Vol. 37, 1991, pp. 519–531.

Koza, J., ed., Genetic Programming: On the Programming of Computers by Means of Natural Selectio., The MIT Press, 1992.

Markowitz, H., Portfolio selection., Journal of Finance, Vol. 7, 1952, pp. 77–91.

Lendasse, A., Bodt, E. D., Wertz, V., Verleysen, M., Non-liner financial time series forecasting-application to the bel 20 stock market index., European Journal of Economic and Social Systems, Vol. 14, 2000, pp. 81–91.

Lendasse, A., Verleysen, M., de Bodt, E., Forecasting time-series by kohonnen classification., in European Symposium on Artificial Neural Networks 1998 proceedings, 1998.

Markowitz, H., The early history of portfolio theory: 1600-1960., Financial Analyst Journal, 1999.

Micciche, S., Abd, F., Mantegna, R. N., Correlation-based hierarchical clustering in financial time series., 1995.

Muller, K., Smola, A., Vapnik, V., Using support vector ma-chines for time series prediction., tech. rep., Image Processing Services Research Lab.

Murphy, J., Technical analysis of the financial markets., New York Institute of Finance, 1999.

Nawrocki, D., A brief history of downside risk measures. Villanova University.

Pawlak, Z., Rough sets., International Journal of Information and Computer Sciences, Vol. 11, 1982, pp. 341–356.

Rombouts, J., Rengifo, E., Dynamic optimal portfolio se-lection in a var framework., Tech. Rep. 04-05, HEC Mon-treal, Institut d’conomie applique, July 2004, available at http://ideas.repec.org/p/iea/carech/0405.html.

Rydberg, T. H., Realistic statistical modelling of financial data., Internat. Statist. Rev., Vol. 68, 2000, pp. 233–258.

Sharpe, W., Capital asset prices: A theory of market equilibrium under conditions of risk., Journal of Finance, Vol. 19, 1964, pp. 425–442.

Shen, L., Loh, H. T., Applying rough sets to market timing decisions., Decis. Support Syst., Vol. 37, No. 4, 2004, pp. 583–597.

Shenoy, C., Shenoy, P. P., Bayesian network models of portfolio risk and return., The MIT Press, 2000.

Tay, F., Cao, L., Application of support vector machines in financial time series forecasting., The International Journal of Management Science, vol. 29, 2001, pp. 309–317.

Van der Hart, J., Slagter, E., Van Dijk, D., Stock selection strategies in emerging markets., Tech. Rep. 01-009/4, Tinbergen Institute, Jan, 2001, available at http://ideas.repec.org/p/dgr/uvatin/20010009.html.

William, J. B., Theory of investment value. Harvard Univer-sity, 1938.

Yao, J., Tan, C. L., Poh, H.-L., Neural networks for technical analysis: A study on KLCI., International Journal of Theoretical and Applied Finance, Vol. 2, 1999, pp. 221– 241.

Page 78: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia
Page 79: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Apendice B: Glosario de TerminosFinancieros

Accion

Las acciones son tıtulos nominativos de caracter negociable que representan un porcentaje de par-ticipacion en la propiedad emisora del tıtulo. Solo pueden ser negociadas las emitidas por sociedadesanonimas. La rentabilidad de la inversion esta ligada a las utilidades obtenidas por la empresa en laque invirtio a traves del pago de dividendos, ası como la valorizacion del precio de la accion en bolsa.

Accion Ordinaria

Accion que tiene la caracterıstica de conceder a su titular derechos economicos y no economicosprovenientes de la participacion en capital de la entidad emisora. Los economicos estan relacionadoscon la posibilidad de percibir dividendos y los no economicos con el derecho a voto en la asamblea.

Accion Preferencial

Accion que da a su poseedor prioridad en el pago de dividendos y/o en caso de disolucion de laempresa, el reembolso de capital. No da derecho a voto en las asambleas, excepto cuando se especificaeste derecho.

Accion Privilegiada

Clase de accion que otorga al titular, ademas de los derechos consagrados para las acciones ordinarias,los siguientes privilegios:

• Derecho preferencial para su reembolso en caso de liquidacion hasta la concurrencia de su valornominal.

• Derecho a que de las utilidades se les destine, en primer termino una cuota determinable, acu-mulable o no. La acumulacion no podra extenderse a un perıodo superior a 5 anos y cualquierotra prerrogativa de caracter exclusivamente economico.

• En ningun caso podra otorgarse privilegios que consistan en voto muliple, o que priven de susderechos de modo permanente a los propietarios de acciones comunes.

Autocorrelacion

Ver Correlacion serial

69

Page 80: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Agente

Rol o individuo que toma parte dentro de la dinamica de un sistema financiero.

Arbitraje

Compra de un activo en un mercado a un precio menor, y venta simultanea de un activo identico enotro mercado a un precio mayor. Esto es hecho sin costo o riesgo.

APT

Arbitrage Pricing Theory. Teorıa de precios de activos en equilibrio, que se deriva de un modelo defactores usando diversificacion y arbitraje. Esta teorıa muestra que el retorno esperado de un activoriesgoso es una combinacion lineal de varios factores.

Beta

Coeficiente beta. Medida de la sensibilidad del retorno de un activo a los movimientos en un factorcaracterıstico, como por ejemplo el retorno del mercado o la tasas de interes. Es tambien una medidadel riesgo sistematico.

Bolsa de Valores

Mercado en el cual compradores y vendedores negocian instrumentos de inversion a traves de loscomisionistas de bolsa.

Las Bolsas de Valores son mercados organizados y especializados, en los que se realizan transac-ciones con tıtulos valores por medio de intermediarios autorizados, conocidos como Casas de Bolsao Comisionistas de Bolsa. Las Bolsas ofrecen al publico y a sus miembros las facilidades, mecanismose instrumentos tecnicos que facilitan la negociacion de t’itulos valores susceptibles de oferta publica,a precios determinados mediante subasta.

Bono

Son valores o tıtulos de deuda de largo plazo, que representan una parte de un credito constituidoa cago de una entidad emisora. Su plazo mınimo es de un ano. Se caracterizan porque el emisorse compromete como retorno de la inversion a entregar una tasa de interes fijada de acuerdo a lascondiciones del mercado y se representa en pagos anuales denominados cupones, y un valor finaldenominado valor facial. Por sus caracterısticas son considerados como tıtulos de renta fija.

Bursatil

Concerniente a la bolsa, a las operaciones que en ella se hacen y a los valores cotizables.

CAPM

Capital Asset Pricing Model. Es una teorıa de valoracion de activos que muestra que las tasas deequilibrio de los retornos esperados sobre todos los activos riesgosos, son una funcion de su covarianzacon el portafolio del mercado.

70

Page 81: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Conjunto Eficiente

Grafica que representa un conjunto de portafolios que maximizan el retorno esperado para cada nivelde riesgo.

Comisionista de Bolsa

El comisionista de bolsa es un profesional especializado en proporcionar asesorıa financiera. Dadas lascondiciones de honorabilidad e idoneidad que involucra su labor,debe ofrecer multiples alternativas denegociacion a los inversionista, respaldadas por su conocimiento sobre el comportamiento del mercadoy la informacion de los tıtulos y de las entidades emisoras.

La funcion basica del comisionista es la intermediacion en la compra y venta de tıtulos. Por susservicios cobra una comision que debe es previamente acordada con el inversionista y se registra en elcomprobante de liquidacion que expide la bolsa.

Las funciones y alcance de los comisionistas de bolsa, definidos bajo autorizacion de la Superin-tendencia de Valores y sujetas a las condiciones que fije la Sala General son:

• Intermediacion en la colcocaion de tıtulos.

• Adquisicion de valores por cuenta propia.

• Realizar operaciones por cuenta propia con el fin de dar mayor estabilidad a los precios y liquidezdel mercado.

• Constituir y administrar Fondos de Valores.

• Administrar valores de sus comitentes con el proposito de realizar cobro del capital y susrendimientos y reinvertirlo de acuerdo con las instrucciones del cliente.

• Administrar portafolios de valores de terceros.

• Otorgar prestamos con sus propios recursos para financiar la adquisicion de valores.

• Celebrar compraventas con pacto de recompra sobre valores.

Correlacion Serial

La correlacion de una variable consigo misma, a traves de intervalos de tiempo sucesivos.

Dividendo

Pago hecho por una firma a sus accionistas, representado en dinero o en acciones. Tambien se denominacomo el componente de ingreso del retorno sobre la inversion en acciones.

EMH

Efficient Market Hypothesis.

Entidad Emisora

Ver Emisores de Valores.

71

Page 82: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Emisores de Valores

Son entidades que emiten tıtulos valores de participacion o de contenido crediticio para colocarlos enel mercado, directamente o a traves de Sociedades Comisionistas de Bolsa y obtener recursos. Lascompanıas emisoras pueden ser Sociedades Privadas Anonimas o Limitadas y Publicas (municipios,departamentos, etc.). Una persona natural no puede ser emisora de tıtulos valores.

Indice General de la Bolsa de Valores de Colombia (IGBC)

Se define como el indicador bursatil del mercado accionaria de la Bosa de Valores de Colmbia. Reflejalas fluctuaciones (comportamiento promedio) que por efectos de oferta y demanda o por factoresexternos del mercado,sufren los precios de las acciones. Es el instrumento mas representativo, agil yoportuno para evaluar la evolucion y tendencia del mercado accionario. El IGBC mide de maneraagregada la evolucion de los precios de las acciones mas representativas del mercado. El objetivoprincipal es reflejar la variacion en el tiempo del precio de tal forma que cumpla el requisito dereplciabilidad, es decir, que a partir del mismo se pueda conformar un portafolio con las acciones delındice y ası tener una base fundamental para la construccion de productos derivados.

Lınea de Mercado de Capitales

Conjunto eficiente de todos los activos, tanto riesgosos como libres de riesgo, que proporciona al inver-sionista el mejor conjunto de oportunidades posibles de inversion para conformacion de un portafolio.

Liquidez

Facilidad y rapidez de conversion de activos en efectivo.

Mercado Bursatil

Se refiere a aquel escenario o sistema de transaccion especialmente organizado para negociar valorespor intermedio de sociedades comisionistas de bolsa u otros agentes especialmente autorizados, encondiciones de transparencia, equidad, igualdad, oportunidad y seguridad de cumplimiento, previstasen las normas legales, y por cuya estricta aplicacion velan las bolsas de valores.

Mercado de Capitales

El mercado de capitales es una herramienta basica para el desarrollo economico de una sociedad,en la medida que a traves de este se hace la transicion del ahorro a la inversion. Este movilizarecursos principalmente de mediano y largo plazo, desde aquellos sectores que tienen dinero en exceso(ahorradores o inversionistas) hacia las actividades productivas (empresas, sector financiero, gobierno)mediante la compraventa de tıtulos valores.

Mercado de Dinero

Mercado financiero para para deuda de corto plazo.

Mercado Eficiente

Mercado en el cual los precios revelan totalmente la informacion disponible.

72

Page 83: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Mercado de Intercambio

Un mercado de intercambio es un sistema financiero en el cual se transan activos que generalmenteson acciones o tıtulos (Ejemplo: bolsas de valores, mercados electronicos, subastas)

Mercados Financieros

Mercados que negocian con flujos de efectivo en el tiempo, donde el dinero de los ahorradores es puestopara cubrir las necesidades financieras de las personas que requieren de efectivo.

Mercado Perfecto

Mercado financiero perfectamente competitivo. Mercado en el cual ningun negociador tiene el poderde intervenir en el precio de los bienes o los servicios. Los mercados perfectos se caracterizan por lassiguientes condiciones:

• No hay costos de transaccion, ni costos de acceso a la inforamcion del mercado.

• La informacion acerca de oportunidades para prestar o pedir prestado es disponible.

• Hay muchos neociadores y ninguno tiene un impacto significativo sobre los precios del mercado.

Mercado de Renta Variable

Es aquel en donde la rentabilidad de la inversion, esta ligada a las utilidades obtenidas por la empresaen la cual se invirtio y por las ganancias de capital obtenidas por la diferencia entre el precio decompra y venta. Este mercado esta compuesto por acciones, bonos convertibles en acciones (Boceas),derechos de suscripcion y tıtulos provenientes de procesos de titularizacion donde la rentabilidad noesta asociada a una tasa de interes especıfica.

Mercado de Valores

Es el conjunto de agentes, instituciones, instrumentos y formas de negociacion que interactuan facili-tando la transferencia de capitales para la inversion a traves de la negociacion de valores. El mercadode valores es un componente del mercado financiero que abarca tanto al mercado de dinero como alde capitales.

Modelo de Factores

Modelo en el cual el retorno de las acciones es generado a partir de factores comunes, que se denominanfuentes del riesgo sistematico.

Nemotecnico

Es el codigo de identificacion de las acciones en el mercado. Para el caso colombiano se utilizan lassiguentes reglas para definicion de nemotecnicos:

• Para las acciones ordinarias se utiliza el nombre abreviado de la companıa inscrita o un nombrecon que el mercado lo identifica facilmente.

73

Page 84: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

• Para las acciones preferenciales, en los dos primeros campos del nemotecnico se utiliza la abre-viatura PF seguida del nombre abreviado, o nombre con que el mercado identifica facilmente ala companıa inscrita.

• Para los Bonos convertibles en acciones, en los dos primeros campos del nemotecnico, se utiliza laabreviatura BC seguida del nombre abreviado o nombre que el mercado identifica a la companıainscrita.

Opcion

Derecho, pero no obligacion, para la compra o venta de un activo a un precio establecido, durante unperıodo de tiempo especıfico.

Posicion Corta(Short position)

Representa la venta de un tıtulo o activo, mediante la asignacion de una proporcion o negativa dentrode un portafolio de inversion.

Principio de Diversificacion

Los portafolios altamente diversificados tendran un riesgo no sistematico(diversificable) insignificante,es decir, el riesgo no sistematico desaparece en los portafolios; solo el riesgo sistematico sobrevive.

Principio de Separacion

Establece que la seleccion de un portafolio puede separarse en dos tareas independientes:

• Determinacion del portafolio riesgoso optimo

• Seleccion personal de la mejor mezcla del portafolio riesgoso con un activo libre de riesgo.

Portafolio de Mercado

De forma conceptual, es un indice ponderado de los valores del universo de activos disponible. En lapractica es un ındice como el S&P500, que describe el retorno de invertir en toda las acciones delmercado, o por lo menos en las acciones que conforman el ındice. Un portafolio de mercado representael retorno promedio de los inversionistas.

Retorno

Ganacia o perdida sobre inversiones de capital o activos.

Retorno Esperado

Promedio ponderado de todos los posibles retornos, donde el factor de ponderacion es la probabilidadde ocurrencia de cada uno.

74

Page 85: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Riesgo

Probabilidad de obtener un resultado diferente el esperado. El riesgo puede ser riesgo de credito(quecorresponde al emisor de valor) o de mercado(que se deriva de las fluctuaciones en los precios o tasasde negociacion).

S&P 500

El ındice Standard & Poor 500, representa la evolucion del mercado americano. El S&P 500 esta com-puesto por 500 de las companıas mas importantes de las que cotizan en el mercado estadounidense.Para elegir sus componentes se tienen en cuenta criterios como capitalizacion de la accion en el mer-cado, liquidez y representacion sectorial de cada companıa.

El S&P 500 es un ındice ponderado por capitalizacion bursatil. Para su calculo se utiliza unaformula en la que se atiende al valor de mercado de cada componente y se aplica un divisor, que esun coeficiente de ajuste para evitar que ciertos hechos corporativos que se produzcan en sus inte-grantes(por ejemplo ampliaciones de capital), alteren el valor del ındice.

Tipos de Valores

Los tipos de valores son los siguentes:

• Acciones.

• Bonos.

• Papeles comerciales.

• Certificados de deposito de mercancıas.

• Cualquier tıtulo o derecho resultante de un proceso de titularizaci’on.

• Certificados de deposito a termino (CDT).

• Aceptaciones bancarias.

• Cedulas hipotecarias.

• Tıtulos de deuda publica.

Terorıa de la Agencia

Es la teorıa de la relacion entre principales y agentes. Esta envuelve la naturaleza de los costos deresolucion de conflictos de interes entre los principales y los agentes.

Tıtulo Valor

Es un instrumento negociable en el cual una persona invierte dinero con la esperanza de obtener unaganancia o rendimiento, que esta relacionado con el riesgo, y que debe ser pagado por el emisor delinstrumento. De acuerdo con los derecho senalados por el tıtulo, estos pueden ser de participacion, decredito o representativos de mercancias, o tıtulos mixtos.

75

Page 86: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia
Page 87: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Apendice C: Resumen de Probabilidad yEstadıstica

Experimento aleatorio

Un experimento aleatorio ε es aquel que proporciona diferentes resultados aun cuando se repita siemprede la misma manera. Es un procedimiento que tiene la propiedad que al ser ejecutado bajo las mismascondiciones puede arrojar diferentes resultados.

Variable aleatoria

Se define como el resultado de un experimento aleatorio ε , y matematicamente se expresa como unafuncion

X : Ω → <

que asigna un valor numerico real a cada uno de los elementos del espacio muestral del experimentoaleatorio (ver Figura 1). De forma general las variables aleatorias se denotan con letras mayusculas,mientras que un valor particular se representa con la respectiva letra minuscula indexada. Ejemplo siX es una variable aleatoria que representa el precio de cierre de una accion en el tiempo, entonces xi

es el precio para el instante de tiempo i-esimo.

Figura 1: Variable Aleatoria

77

Page 88: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Media

La media aritmetica o promedio x, de una cantidad finita de numeros, es igual a la suma de todos ellosdividida entre el numero de sumandos. Expresada de forma mas intuitiva, podemos decir que la media(aritmetica) es la cantidad total de la variable distribuida a partes iguales entre cada observacion.Por ejemplo, si en una habitacion hay tres personas, la media de dinero que tienen en sus bolsillosserıa el resultado de tomar todo el dinero de los tres y dividirlo a partes iguales entre cada uno deellos. Es decir, la media es una medida central de tendencia de una distribucion suponiendo que cadaobservacion tiene el mismo peso o importancia en el calculo.

Ası, dados los valores x1,xn, ... , xn, la media aritmetica es igual a:

x = 1n

∑ni=1 xi

Valor Esperado

La esperanza o valor esperado de una variable Aleatoria X, se denota E[X] o µX . De acuerdo conla informacion disponible, el valor esperado se define como la media aritmetica en la medida quese dispoga de los valores representados como una serie de datos; si la informacion disponible es ladistribucion de probabilidad fX(x) de la variable aleatoria X, el valor esperado se expresa entoncesası :

• Caso discreto: E[X] =∑n

i=1 xifX(xi)

• Caso continuo: E[X] =∫∞−∞ xfX(x)dx

Varianza

Es un estimador de la divergencia o dispersion de una variable aleatoria X con respecto a su valoresperado E[X] o medida de tendencia central. En el caso de la Teorıa Moderna de Portafolio, lavarianza es la medida utilizada para cuantificar el riesgo, entendida como la volatilidad asociada conel retorno de los tıtulos.

La varianza de una variable aleatoria E[X] se define de la siguiente forma:

V AR(X) = σ2X

=1

n− 1

n∑i=1

(xi − E[X])2 (6.1)

= E[X − E[X]]2 (6.2)

=n∑

i=1

(xi − E[X])2fX(x) (6.3)

Nota: la varianza muestral se utiliza cuando se dispone de la informacion en formato de series dedatos; de lo contrario se usa la forma basada en la distribucion de los datos, como en el caso de variosescenarios posibles de retorno esperado.

Desviacion Estandar

Es la raız cuadrada positiva de la varianza y se denota con la letra σ.

78

Page 89: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Covarianza

Es una medida de la relacion que existe entre 2 variables aleatorias (X,Y) en un espacio de probabilidad,y se denota σXY o COV (X, Y ):

COV (X, Y ) =1n

n∑i=1

(xi − E[X])(yi − E[Y ]) (6.4)

= E[(Xi − E[X])(Yi − E[Y ])] (6.5)

La covarianza es una medida de de asociacion lineal entre las variables aleatorias (ver Figura 2):

• Si σXY > 0: existe una relacion lineal entre las variables; las dos variables crecen o decrecen ala vez.

• Si σXY = 0: no hay relacion lineal.

• Si σXY < 0: hay relacion lineal negativa; cuando una variable crece la otra tiende a decrecer.

Correlacion

Es una cantidad sin dimensiones que puede emplearse para comparar las relaciones lineales entre paresde variables que tienen unidades distintas. La correlacion entre 2 variables aleatorias X,Y ,se denotaρXY o CORR(X, Y ):

ρXY =COV (X, Y )

σXσY(6.6)

=σXY

σXσY(6.7)

La correlacion escala la covarianza por la desviacion estandar de cada variable (ver Figura 3). Enesta medida

−1 ≤ ρXY ≤ 1

79

Page 90: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 2: Covarianza

Figura 3: Correlacion

80

Page 91: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Apendice D: Desarrollo de la HerramientaComputacional

Vision

El ojetivo del proceso de desarrollo es implementar una herramienta para soporte a la toma de deci-siones en el proceso de Seleccion de Portafolio. Esta herramienta no tendra las funcionalidades propiasde un sistema automatico de trading que se encarga de fijar posiciones de compra de tıtulos y toma deutilidades de forma automatica. Como es una herramienta de soporte a la toma de decisiones, permi-tira al agente identificar expectativas en forma de reglas que se construyen identificando candlesticksen las series de acciones.

La herramienta proporcionara funcionalidad de soporte al proceso de seleccion de portafolio atraves de dos componentes arquitectonicos de software que son:

• Adquisicion de datos (PDM-Data Manager): este prototipo proporcionara al usuario la fun-cionalidad para carga y gestion de los datos que seran usados en los procesos de identificacionde formas basicas y generacion de expectativas. Estos datos son los precios de las acciones mod-elados como series de tiempo. Los precios de las acciones se pueden obtener via internet en laspaginas de los mercados bursatiles o en paginas de terceros que prestan el servicio de descargacomo en el caso de http://finance.yahoo.com. Como dentro de los alcances del proyecto no seencuentra la conexion directa contra un servicio que proporcione los datos de las acciones, laestrategia a seguir es descargarlos manualmente y luego introducirlos a la base de datos de laaplicacion mediante una interfaz grafica que facilite el proceso. La Figura 4 presenta el modelode datos para persistencia en la base de datos.

Para efectos de modelado de los precios de las acciones es necesario modelar todas las entidadesde datos asociadas con estos. Estas entidades son: mercados, companias, tıtulos(acciones) yprecios.

• Generacion de expectativas (PDM-Patterns): este componente consume los datos de las seriesfinancieras, con el objetivo de detectar patrones de tendencia del mercado basados en el modelode candlesticks del analisis tecnico. De forma general el modelo de generacion de expectativas aimplementar es incluye las siguientes fases:

(i) Preprocesamiento - Identificacion formas basicas: consiste en convertir los datos de lasseries financieras en patrones candlestick simples a traves de logica difusa. El prototipoasociado con este modulo se llama PDM-Candles y su objetivo es proporcionar al usuario lafuncionalidad de transformar una serie de precios de acciones en su representacion de formasbasicas de candlesticks. Los candlestick individuales (formas basicas), que se utilizaran parael preprocesamiento son (ver Figura 5): Marubozu (1), Long days (2), Long lower shadow(3), Shaven Head (4), Hanging Man (5), Hammer (6), Spinning Top (7), Inverted Hammer(8), Shooting Star (9), Shaven Bottom (10), Long upper shadow (11), Dojis (12).

(ii) Construccion de catalogo: utilizando arboles de prefijos se construye un catalogos de re-glas contenidas en el conjunto de datos. El prototipo asociado con este modulo se llama

81

Page 92: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 4: Modelo de datos - PDM Data Manager

PDM-Prefixtree. El objetivo de este prototipo es la construccion de un catalogo de pa-trones candlesticks, basandose en el proceso de reconocimiento de formas basicas y en laorganizacion de secuencias de estas mediante arboles de prefijos. El prototipo debe propor-cionar al usuario una interfaz a traves de la cual podra seleccionar varias series de accionessobre las cuales se hara el analisis, y un periodo de analisis que aplicara para las seriesseleccionadas.

(iii) Generacion de expectativas: proporciona al usuario horizontes posibles de reglas, con baseen un dia de seleccion definido por el tomador de decisiones. El prototipo asociado coneste modulo se llama PDM-Patterns y su objetivo es proporcionar al usuario, un ambientede soporte a la toma de decisiones en el proceso de diseno de portafolio, basandose enexpectativas de comportamiento individual de acciones, que son construidas utilizando elmodelo de reconocimiento de candlesticks y construccion de catalogo de patrones.

82

Page 93: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 5: Formas basicas

La arquitectura utilizada es un modelo de cuatro capas general: presentacion, negocio, accesoa datos y datos (ver Figura 6). La presentacion se implementa como vistas independientesimplementadas en formularios swing con lenguaje Java. La capa de negocio se implementa conun proyecto de servicios(Services) y uno de clases utilitarias(Helpers). La capa de serviciosimplementa la logica de negocio de la aplicacion y su objetivo es proporcionar a la capa depresentacion servicios que ejecuten la funcionalidad para cada uno de los modulos. La capa deacceso a datos se implementa en un proyecto llamado Data Model. Esta ultima capa utiliza lospatrones DAO y VO para el acceso a datos y representacion del modelo relacional.

Plan de Iteraciones

Para efecto del desarrollo del proyecto, se utiliza un proceso iterativo organizado por fases: Fase deinicio, Fase de construccion, Fase de experimentacion. Cada fase tiene un conjunto de resultadosmateriales asociados a cada, de tal forma que se tengan mecanismos de control y visualizacion de losalcances obtenidos; estos resultados son documentos respectivos de cada fase y cuatro prototipos desoftware. La descripcion de cada una de las fases es la siguiente:

1. Fase de Inicio: consiste en la recopilacion de toda la informacion necesaria para la definicion delos requerimientos propios del modelo a desarrollar. El resultado de esta fase es un documentode estado del arte y un documento de vision sobre el modelo propuesto. Esta fase tiene unaiteracion.

2. Fase de Construccion: consiste en el desarrollo de los cuatro prototipos que formaran el sistemade soporte. Por cada prototipo a implementar se define una iteracion completa de desarollo.Estas iteraciones se describen a continuacion:

a) Primera iteracion: el objetivo de esta es implementar el prototito de adquisicion y admin-istracion de datos PDM-DataManager.

b) Segunda iteracion: el objetivo de esta es implementar el prototipo para reconocimiento deformas basicas utilizando un sistema clasificador difuso.

c) Tercera iteracion: el ojetivo de esta es implementar el prototipo generador del catalogo depatrones PDM-Prefixtree, utilizando el prototipo anterior.

d) Cuarta iteracion: el objetivo de esta es implementar el prototipo para generacion de expec-tativas de diseno de portafolio.

83

Page 94: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 6: Arquitectura general

3. Fase de Experimentacion: consiste en la ejecucion de experimentos utilizando los prototiposgenerados. El detalle de esta fase se presenta en el Capıtulo 5.

Modelo de uso

El modelo de uso describe las funcionalidades que proporciona el sistema, desde el punto de vista delusuario y a manera de requerimientos. Las Figuras 7, 8, 9 y 10 presentan los diagramos de casos deuso de los prototipos.A continuacion se detallan los requerimientos de cada uno de los prototipos delsistema:

PDM-Data Manager

La Figura 7 muestra el diagrama de casos de uso del sistema. Estos casos de uso describen los requer-imientos del prototipo desde el punto de vista de la funcionalidad que proporciona al usuario. Estosrequerimientos se detallan a continuacion por modulo:

Administracion de mercados

• REQ-M-01: El usuario podra ver el listado de todos los mercados registrados en el sistema.

• REQ-M-02: El usuario podra adicionar y modificar mercados con la siguiente informacion: nom-bre, nemotecnico y descripcion.

84

Page 95: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 7: Diagrama casos de uso PDM-Data Manager

• REQ-M-03: El usuario podra eliminar mercados, solo si el mercado a eliminar no tiene companıasasociadas.

Administracion de companıas

• REQ-C-01: El usuario podra ver el listado de todas las companıas que estan asociadas a unmercado particular.

• REQ-C-02: El usuario podra adicionar companıas a un mercado y modificarlas luego de lacreacion. La informacion de una companıa es : nombre, sımbolo, descripcion.

85

Page 96: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 8: Casos de uso PDM-Candles

• REQ-C-03: El usuario podra eliminar companıas del sistema, solo si la companıa a eliminar notiene tıtulos asociados.

Administracion de tıtulos

• REQ-T-01: El usuario podra ver el listado de todos los tıtulos registrados en el sistema porcompanıa.

• REQ-T-02: El usuario podra adicionar tıtulos a las companıas y modificarlos luego de creados.La informacion de un tıtulo es: nombre, nemotecnico y descripcion.

• REQ-T-03: El usuario podra eliminar tıtulos del sistema, solo si este no tiene precios asociados.

Administracion de precios

• REQ-P-01: El usuario podra ver el listado de precios por fecha, asociados a un tıtulo.

• REQ-P-02: El usuario podra adicionar registros de precios de tıtulos de una companıa parafechas individuales. La informacion del registro de precios es : fecha (dıa, mes, ano), precio decierre, precio de apertura, precio maximo, precio mınimo.

• REQ-P-03: El usuario podra modificar registros de precios de tıtulos de una companıa parafechas individuales. La informacion del registro que se puede modificar es: precio de cierre,precio de apertura, precio maximo, precio mınimo.

• REQ-P-04: El usuario podra eliminar registros de precios de un tıtulo.

• REQ-P-05: El usuario podra ingresar varios registros de precios de un tıtulo, a traves de la cargade un archivo de texto.

86

Page 97: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 9: Casos de uso PDM-Prefixtree

• REQ-P-05: El usuario podra visualizar la grafica de candlesticks de los precios de un tıtulo.

PDM-Candles

La Figura 8 muestra el diagrama de casos de uso del prototipo. Los requerimientos que describen loscasos de uso son los siguientes:

• REQ-CAN-01: El sistema debe proporcionar al usuario la funcionalidad de identificar los pa-trones basicos de candlestick sobre una serie de precios.

• REQ-CAN-02: Para efectos de la identificacion de los candlesticks basicos mencionados en lavision, el usuario debe seleccionar un rango de tiempo para la serie seleccionada.

• REQ-CAN-03:Para el proceso de generacion de resultados el usuario podra seleccionar si la seriede datos con sus respectivas formas basicas sera generada en un archivo csv.

• REQ-CAN-04: El usuario podra seleccionar dos conjuntos de reglas para efectos de identifi-cacion de las formas basicas. El conjunto reducido tiene las reglas para las formas Marubozu,Long,Spinning top y Doji. El conjunto completo tiene las reglas para todas las formas presen-tadas en la Figura 5.

87

Page 98: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 10: Casos de uso PDM-Patterns

• REQ-CAN-05: El prototipo desplegara a manera de listado los precios de la serie y el nombre dela figura asociada. Adicionalmente al seleccionar un conjunto de precios en el listado resultado,se visualizara graficamente la imagen de la figura asociada.

• REQ-CAN-06: El prototipo desplegara en un area de texto, un conteo de las instacias asociadasa cada forma basica.

PDM-Prefixtree

La Figura 9 muestra el diagrama de casos de uso del prototipo. Los requerimientos que describen loscasos de uso son los siguientes:

• REQ-PRE-01: El sistema debe proporcionar al usuario la funcionalidad de generar un catalogode patrones candlestick a manera de arbol de prefijos.

88

Page 99: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

• REQ-PRE-02: El sistema debe permitir al usuario seleccionar varias series de tiempo sobre lascuales se realizara el analisis, y un periodo de analisis que aplicara para las series seleccionadas.

• REQ-PRE-03: El catalogo de patrones se debe presentar en dos vistas a manera de arbol deprefijos: una vista donde las secuencias de formas basicas se organizan por estados de la natu-raleza, y otra donde el arbol se organiza por secuencias y las hojas del arbol son los estados dela naturaleza asociados con una secuencia particular.

• REQ-PRE-04: Cada nodo del catalogo (en las dos vistas) debe desplegar el numero de nodoshijo y el nivel de entropıa asociada con el nodo.

• REQ-PRE-05: Para efectos de generacion del catalogo, el usuario podra seleccionar los siguientesparametros: tamano del patron (2,3,4,5,6), periodo de las tendencias (5,10,15,20,50), tipo de pa-tron (body, body+shadows, candle shape), esquema de representacion (candle, candle+relativeposition, candle+color, candle+relative pos+color), medidas de interes de las reglas (confianza,suporte, entropıa).

PDM-Patterns

La Figura 10 muestra el diagrama de casos de uso del prototipo. Los requerimientos que describen loscasos de uso son los siguientes:

• REQ-PA-01: el sistema debe proporcionar al usuario un listado describiendo las expectativas decomportamiento futuro de las acciones seleccionadas, para un dıa particular de analisis. Estasexpectativas se expresan como porcentajes de ocurrencia de los posibles estados de la naturaleza,que estan asociados con la secuencia de candlesticks que finaliza el dıa de analisis seleccionado.

• REQ-PA-02: el sistema permitira seleccionar al usuario el esquema de codificacion de los pa-trones. Para efectos de seleccion de ese esquema se tienen los siguientes parametros: tamanodel patron (2,3,4,5,6,7,8,9,10), periodo de las tendencias (5,10,15,20,50), tipo de patron (body,body+shadows, candle shape), esquema de representacion (candle, candle+relative position,candle+color, candle+relative pos+color).

• REQ-PA-03: el usuario en el sistema, podra seleccionar de forma individual, las series a las cualesdesea hacer el analisis.

• REQ-PA-04: el usuario en el sistema podra visualizar, por serie seleccionada, la secuencia decandlesticks sobre la cual se generan las expectativas.

• REQ-PA-05: el usuario podra visualizar el catalogo de patrones, sobre el cual se genero el procesode extraccion de expectativas.

• REQ-PA-06: el usuario podra simular portafolios de inversion y comparar mediante una graficaretorno vs varianza, el desempeno de los portafolios generados con todo el universo de selecciony los generados con el subconjunto de activos obtenido por las expectativas.

Manual de usuario PDM-Data Manager

PDM-Data Manager es una aplicacion desarrollada en lenguaje Java 5. Proporciona la funcionalidadde administracion de datos de las series de tiempo de acciones que son utilizadas por los otros modulosdel sistema PDM. La estructura de datos para organizacion de la informacion es Market I CompanyI Stock I Quotes (Esta estructura se presenta en la Figura 4). Los mercados representan entornosfinancieros a traves de los cuales los agentes transan tıtulos. Los tıtulos o acciones (Stocks) pertenecena companıas que como agentes financieros ingresan al mercado ofertando acciones. Los precios (quotes)

89

Page 100: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

de estas acciones se definen por la dinamica del mercado que incluye la ley de oferta y demanda. Parauna accion en particular se definen 4 precios que son cierre, apertura, mınimo y maximo. Un ejemplode estructura es:

• Market: New York Stock Exchange.

• Company: Google.

• Stock: Google.

• Quotes: close = US 98.2, open: US 97.3, low= US 96.8, high= US 97.6

La Figura 11 muestra la ventana principal del PDM-Data Manager. En el panel izquierdo de laventana principal se pueden ver cuatro botones que permiten administrar los datos asociados con elmodelo:

• Manage markets (Administracion de mercados).

• Manage companies (Administracion de companıas).

• Manage stocks (Administracion de tıtulos ).

• Manage quotes (Administracion de precios)

Figura 11: Ventana principal -PDM Data Manager

Administracion de mercados

Permite crear, editar y eliminar mercados. La ventana principal del modulo, en la cual se despliega ellistado y los botones de funciones se presenta en la Figura 12. Las funciones de este modulo son:

1. Add market: permite agregar nuevos mercados . La informacion requerida se describe a contin-uacion:

a) Name: Se refiere al nombre del mercado.

b) Nemo(Nemotecnico): Se refiere a la abreviatura utilizada para identificacion del mercado .

90

Page 101: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

c) Description: Campo opcional. Se refiere a cualquier tipo de informacion relevante acercadel mercado.

2. Edit market: permite editar todos los campos del registro seleccionado.

3. Delete: permite eliminar el registro seleccionado. Un mercado solo podra ser eliminado cuandono haya companıas que pertenezcan a este.

Figura 12: Manage Markets

Administracion de companıas

Este modulo permite crear, editar y eliminar companıas. La ventana principal del modulo, en la cualse despliega el listado y los botones de funciones se presenta en la Figura 13. Las funciones de estemodulo son:

1. Add: permite agregar nuevas companıas. Para adicionar una compania esta debe pertenecer aun muercado, en esta medida en el formulario de creacion aparece un combo de seleccion conlos mercados disponibles. La informacion para la creacion de una companıa es:

• Name : Se refiere al nombre de la companıa.• Market : Se refiere al mercado al cual pertenece la companıa. Debe seleccionarse de la lista

desplegable.• Symbol: abreviatura para identificacion de la companıa.• Description: Campo opcional. Se refiere a cualquier tipo de informacion relevante acerca

de la companıa.

2. Edit: permite editar todos los campos del registro seleccionado.

3. Delete: permite eliminar el registro seleccionado. Una companıa solo podra ser eliminada cuandono haya tıtulos que pertenezcan a esta.

91

Page 102: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 13: Manage Companies

Administracion de tıtulos

Este modulo permite crear, editar y eliminar tıtulos. La ventana principal del modulo, en la cualse despliega el listado y los botones de funciones se presenta en la Figura 14. Las funciones son lassiguientes:

1. Add: permite agregar nuevos tıtulos. Para adicionar un tıtulo este debe pertenecer a una com-panıa. La informacion requerida para la creacion de un tıtulo se describe a continuacion:

• Name: nombre del tıtulo.• Market: mercado al que pertenece la companıa que emite el• Company: companıa a la cual pertenece el tıtulo.• Symbol: abreviatura o sımbolo que se utiliza para referenciar el tıtulo.• Description: Descripcion del tıtulo.

2. Edit: permite editar todos los campos del registro seleccionado.

3. Delete: permite eliminar el registro seleccionado. Al eliminar un tıtulo se eliminaran todos losprecios pertenecientes a dicho tıtulo.

Administracion de precios

Este modulo permite crear, cargar precios de un archivo, editar y eliminar precios (Figura 15). Pararealizar cualquiera de las acciones mencionadas anteriormente se debe seleccionar el tıtulo respectivo.Para ver en la ventana todos los precios disponibles de un tıtulo, se debe ubicar este a traves de loscombos de seleccion Mercado-Companıa-Tıtulo. Los opciones que proporciona este modulo son:

1. Add: permite agregar nuevas precios, de forma individual. El formulario para adicion de preciostiene los siguientes campos:

92

Page 103: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 14: Manage Stocks

• Date: Se refiere al dıa en el cual se tomaron los precios.

• Open: precio de apertura del tıtulo.

• High: precio maximo.

• Low : precio mınimo.

• Close: precio de cierre.

2. Edit: permite editar todos los campos del registro seleccionado.

3. Delete: permite eliminar el registro seleccionado.

4. Load File: permite cargar varios precios simultaneamente a partir de un archivos de texto (Figura17). Este archivo debe estar organizado por filas y columnas, donde cada fila es un registrohistorico del precio. El orden de las columnas debe ser: dıa, mes, ano, precio de apertura, preciomaximo, precio mınimo y precio de cierre, y el archivo puede utilizar como separador ,(coma)o punto y coma(;). Para seleccionar el archivo a cargar se debe hacer click en el boton Browse,que abrira una ventana en la que se puede buscar el archivo. Para cargar los datos en la Basede Datos se hace click en Load file; esta operacion lee el archivo seleccionado y fila por fila vainsertando los precios en la base de datos. Solo los precios nuevos (es decir los precios de lasfechas que aun no estan en la base de datos son insertados). Si se requieren actualizar los datosexistentes se debera seleccionar la opcion Replace quotes.

5. View Chart: permite ver la grafica de velas o candlestick para toda la serie (Figura 18).Sobre lagrafica se pueden realizar acercamientos(Figura 19) para ver el detalle de las velas en un rangode fechas particular; para esto solo es necesario seleccionar con el raton el area que se deseaampliar. El acercamiento sobre la grafica puede hacerse tantas veces como sea necesario paralograr el detalle deseado. Para volver al tamano original es suficiente con seleccionar un area conel raton seleccionando primero el punto inferior derecho.

93

Page 104: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 15: Manage Quotes

Figura 16: Ventanas para creacion

94

Page 105: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Manual de usuario PDM- Candles

PDM-Data Manager es una aplicacion desarrollada en lenguaje Java 5. Proporciona la funcionalidadde identificacion de formas basicas de candlesticks a partir de series de tiempo de acciones con suscuatro precios caracterısticos. En la Figura 20 se presenta la ventana principal del prototipo que secompone de los siguientes elementos graficos:

• Panel stock selection: tiene combos para seleccionar la serie de tiempo a convertir.

• Analysis period panel: tiene combos de seleccion para definir el rango temporal de datos autilizar.

• Results panel: en el se encuentran los elementos para visualizacion de resultados y seleccion delconjunto de reglas a utilizar. Adicionalmente tiene un campo de verificacion para indicar si losresultados se deben generar tambien en un archivo de texto plano.

A continuacion se presenta a manera de tutorial el proceso de identificacion de formas basicasutilizando PDM-Candles. El primer paso es seleccionar la serie objetivo en los combos Market ICompany I Stock. Al seleccionar una accion disponible se despliega el rango temporal de datos de laserie. Si el usuario quiere seleccionar un rango diferente al del conjunto, puede hacerlo en los camposespecıficos para seleccion de la fecha de inicio y finalizacion del rango.

El proceso se inicia cuando el usuario da clic en el boton Start. Antes de inciar el proceso, el usuariodebe seleccionar el conjunto de reglas a utilizar (reducido o completo). Por omision se usa el conjuntocompleto.

Cuando se ha ejecutado la identificacion de formas basicas se genera en el panel Results un listadoordenado por fecha, con los precios caracterısticos y la forma basica asociada. Al seleccionar cualquierfila del listado de resultados, se depliega la figura asociada con la forma identificada. Adicionalmenteen el panel Patterns count aparecen las formas basicas identificadas y un conteo de cuantas instanciasen la serie corresponden a cada forma.

Si el usuario desea generar un archivo de texto con los resultados del proceso, antes de dar clicen el boton Start, debe seleccionar el campo Generate file, el cual activara el campo para seleccionde la carpeta en la cual se generara el archivo. Para seleccionar la carpeta destino, haga clic en elboton Browse. La Figura 22 presenta un ejemplo del archivo csv generado. Las columnas generadasen el archivo son: fecha, precio de cierre, precio maximo, precio mınimo, precio de cierre, forma basicaasociada.

Manual de usuario PDM- Prefixtree

PMD-Prefixtree es una herramienta de software cuya funcionalidad es construir arboles de prefijos, consecuencias de formas basicas candlesticks, denominadas patrones. Estos arboles se pueden considerarcomo catalogos de patrones en la medida que cada nodo incluye una medida que dice el numero dehijos asociados con un nodo particular.

PDM- Prefixtree tiene dos ventanas que se presentan en las Figuras 23 y 24. La ventana principalpermite seleccionar las series objetivo, y el periodo de analisis para la generacion del catalogo. Lasegunda ventana es la de construccion del catalogo, que permite seleccionar los parametros de con-struccion, ver los arboles generados y extraer las reglas del arbol de prefijos con varias medidas deinteres como el soporte, la confianza y la entropıa.

Para efectos de generacion de los catalogos, en la ventana principal primero se deben seleccionarlas series objetivo y el periodo de analisis. Luego se debe hacer click en el boton Start para iniciarel proceso de transformacion e identificacion de formas basicas. Al finalizar esto se activara el botonBuild prefix tree, el cual debe ser presionado para desplegar la ventana de construccion de catalogos(Ver Figura 24).

95

Page 106: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 17: Ventana para carga de precios mediante archivo

Figura 18: Grafica Candlesticks 1

96

Page 107: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 19: Grafica Candlesticks 2

Figura 20: PDM Candles - Ventana Principal

97

Page 108: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 21: PDM Candles - Resultados

Figura 22: PDM Candles - Archivo CSV generado

98

Page 109: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 23: PDM Prefixtree - Ventana Principal

En la ventana de generacion de catalogos se pueden seleccionar los siguientes parametros:

• Pattern size: numero de formas basicas que construyen el patron. Los valores disponibles son 2,3, 4, 5, 6.

• Tendence period: numero de datos a ser tomados en cuenta para identificar la tendencia pasaday la confirmacion del patron (tendencia futura). Los valores disponibles son 5, 10, 15, 20 y 50.

• Pattern type: tipo de patron a generar. Los valores disponibles son body, body+shadows, candleshape.

• Itemset type: formato de generacion del patron. Los calores disponibles son Candle, Can-dle+relative position, Candle+color, Candle+relative pos+color.

• Confidence: nivel mınimo de confianza de los patrones en el arbol.

• Support: nivel mınimo de soporte de los patrones en el arbol.

• Entropy: nivel maximo de entropia de los patrones del arbol.

Adicionalmente presenta tres paneles en los cuales se visualizan los resultados:

• Prefix tree: despliega el catalogo de patrones organizado de forma natural, es decir, los nodosrepresentan una forma basica de los patrones y las hojas son los estados de la naturaleza asociados(Ver Figura 25).

• Patterns tree: despliega el catalogo de patrones organizado por estados de la naturaleza. (VerFigura 26).

• Rules: despliega por demanda (cuando se hace clic en el boton View rules) a manera de listadolos patrones en el arbol de prefijos, en la forma patron–>estado donde estado es el estado dela naturaleza con mayores ocurrencia para el patron. Adicionalmente despliega las siguientes

99

Page 110: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 24: PDM Prefixtree - Ventana construccion catalogo

medidas: ocurrencias del estado de la naturaleza, soporte, confianza y entropıa de la regla (VerFigura 27).

Manual de usuario PDM-Patterns

PDM-Patterns es una herramienta de software, cuya finalidad es brindar al usuario, soporte al procesode diseno de portafolio, basado en expectativas de comportamiento futuro de las acciones, presentadascomo un patron de candlesticks y los posibles estados de la naturaleza asociados( continuation bear,continuation bull, reversal bear, reversal bull).

La Figura 28 presenta la ventana principal de la aplicacion, la cual tiene cuatro paneles que sedescriben a continuacion:

• Parametros de codificacion de patron: este panel tiene los parametros asociados con el esquemade codificacion a usar para los patrones.

• Parametros de analisis: este panel tiene los combos de seleccion para el mercado y las companiasasociadas. Adicionalmente, los campos para seleccion del dıa de analisis, y los botones parageneracion de reporte y despliegue de informacion adicional. El boton Start inicia el proceso degeneracion de expectativas; los botones Show tree y Show candles despliegan respectivamente elcatalogo de patrones (ver Figura 33) y el visor de candlesticks respectivamente (ver Figura 34);el boton Portfolios despliega el modulo simulador de portafolios (ver Figura 35).

• Acciones: el panel de seleccion de acciones despliega las series disponibles, con base en la seleccionhecha en los combos del panel de parametros de analisis.

100

Page 111: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 25: PDM Prefixtree - Panel arbol de prefijos

Figura 26: PDM Prefixtree - Panel arbol de patrones

• Reporte: en este panel se despliegan las expectativas generadas con base en los parametrosseleccionados por el usuario. Estas expectativas se generan por accion, y se presentan como losposibles estados de la naturaleza que pueden ocurrir a partir del dıa de analisis seleccionado, ylas probabilidades de ocurrencia para cada estado.

El modulo para simulacion de portafolios le permite al tomador de decisiones generar escenarios deinversion para el conjunto de activos seleccionado y para el subconjunto generado por las expectativas.Estos escenarios que se generan como vectores aleatorios de porcentajes de inversion en activos. Conestos escenarios se calcula el retorno esperado y varianza de ese portafolio particular (ver Seccion ??y se grafica ese punto en un grafica Retorno esperado vs Varianza. con el fin de visualizar la fronteraeficiente para ese conjunto de activos. El hecho de graficar los portafolios de los activos seleccionadosversus los portafolio de los activos de las expectativas, permite visualizar en que condiciones los

101

Page 112: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 27: PDM Prefixtree - Reglas

Figura 28: PDM Patterns - Ventana Principal

portafolios son dominantes sobre otros.

102

Page 113: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 29: PDM Patterns - Panel parametros de codificacion

Figura 30: PDM Patterns - Panel parametros de analisis

Figura 31: PDM Patterns - Panel seleccion de acciones

103

Page 114: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 32: PDM Patterns - Reporte

Figura 33: PDM Patterns - Visor arboles de patrones

104

Page 115: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Figura 34: PDM Patterns - Visor secuencia de candlesticks

Figura 35: PDM Patterns - Simulador portafolios

105

Page 116: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia
Page 117: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

Bibliografıa

[1] S. Achelis. Technical Analysis from A to Z. McGraw-Hill, second edition, 2001.

[2] J. Arlow and I.Neustadt. UML 2 and the Unified Process. Adisson Wesley, 2005.

[3] P. Artzner, F. Delbaen, J. Eber, and D. Heath. Coherent measures of risk. Mathematical Finance,9:203–228, 1999.

[4] P. Berkhin. Survey of clustering data mining techniques. Technical report, Accrue Software, SanJose, CA, 2002.

[5] W. D. Bondt and R. Thaler. Does the stocks market overreact? Journal of Finance, July, 1985.

[6] A. Borodin, R. El-Yaniv, and V. Gogan. Can we learn to beat the best stock. Journal of ArtificialIntelligence Research, 21:579–594, May 2004.

[7] P. Brockwell and R. Davis. Introduction to Time Series and Forecasting. Springer, 2000.

[8] L. Cao and F. Tay. Financial forecasting using support vector machines. Neural and ComputingApplications, 10:184–192, 2001.

[9] L. K. Chan, J. Karceski, and J. Lakonishok. On portfolio optimization: Forecasting covariancesand choosing therisk model. Technical Report 7039, National Bureau of Economic Research, Inc,Mar. 1999. available at http://ideas.repec.org/p/nbr/nberwo/7039.html.

[10] M.-C. Chan, C.-C. Wong, and C.-C. Lam. Financial time series forecasting by neural networkusing conjugate gradient learning algorithm and multiple linear regression weight initialization.Department of Computing , The Hong Kong Polytechnic University.

[11] T. Chande. Beyond Technical Analysis. John Wiley & sons, 1997.

[12] N.-F. Chen, R. Roll, and S. A. Ross. Economic forces and the stock market. Journal of Business,59(3):383–403, 1986. available at http://ideas.repec.org/a/ucp/jnlbus/v59y1986i3p383-403.html.

[13] S. Chen, P. Wang, and P. P. Wnag. Computational Intelligence in Economics and Finance.Springer, 2004.

[14] S.-N. Chen and S. J. Brown. Estimation risk and simple rules for opti-mal portfolio selection. Journal of Finance, 38(4):1087–93, 1983. available athttp://ideas.repec.org/a/bla/jfinan/v38y1983i4p1087-93.html.

[15] C.-H. Cheng. Entropy-based subspace clustering for mining numerical data. Master’s thesis,Department of Computer Science & Engineering - Chinese University of Hong Kong, 1999.

[16] T. chung Fu, F. lai Ching, R. Luk, and C. man Ng. Financial time series indexing based on lowresolution clustering.

107

Page 118: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

[17] M. P. Clements. Forecasting economic and financial time-series with non-linear models. Depart-ment of Economics University of Warwick, October 2003.

[18] R. Colby. The encyclopedia of technical market indicators. MGrah-Hill, second edition, 2002.

[19] S. Craighead and B. Klemesrud. Stock Selection Based on Cluster and Outlier Analysis. Nation-wide Financial.

[20] G. A. Darbellay and D. Wuertz. The entropy as a tool for analysing statisticaldependences infinancial time series. Physica A, 287(3-4):429–439, 2000.

[21] G. Das, K. Lin, H. Mannila, G. Renganathan, and P. Smith. Rule discovery from time series. InProceedings of the 4th international conference of knowledge discovery and data mining. AAAIPress, pages 16–22.

[22] G. Deboeck. Visual explorations in Finance with Self-organizing maps. Springer, 1998.

[23] G. Deboeck. Self-organizing maps facilitate knowledge discovery infinance. Financial EngineeringNews, 1:1–6, 1999.

[24] X.-T. Deng, S.-Y. Wang, and Y.-S. Xia. Criteria, models and strategies in portfolio selection.AMO — Advanced Modeling and Optimization, 2(2), 2000.

[25] C. Dose and silvano Cincoti. Clustering of financial time series with application to index andenhanced-index tracking portfolio. Technical report, Universita di GEnova.

[26] C. Dunis and J. Jalilov. Neural network regression and alternative forecsting techniques forpredicting financial variables. Technical report, Liverpool Business School, 2001.

[27] S. Ekern. Taxation, political risk and portfolio selection. Economica, 38(152):421–30, 1971.available at http://ideas.repec.org/a/bla/econom/v38y1971i152p421-30.html.

[28] E. Famma. Efficient capital markets: A review of theory and empirical work. Journal of Finance,25(2):383–417, 1969.

[29] M. Gavrilov, D. Anguelov, P. Indyl, and R. Motwani. Mining the stock market: Which measureis best ? Technical report, Department of Computer Science- Stanford University.

[30] X. Ge. Pattern matching in financial time series data. Department of Information and ComputerScience University of California, 1998.

[31] C. L. Giles, S. Lawrence, and A. C. Tsoi. Rule inference for financial prediction usingrecurrentneural networks. In Proceedings of IEEE/IAFE Conference on ComputationalIntelligence forFinancial Engineering (CIFEr), pages 253–259, Piscataway, NJ, 1997. IEEE.

[32] E. D. Giorgi. A note on portfolio selection under various risk measures. Technical Re-port iewwp122, Institute for Empirical Research in Economics - IEW, 2002. available athttp://ideas.repec.org/p/zur/iewwpx/122.html.

[33] C. Glavan. An application of alternative risk measures to trading portfolios. Master’s thesis,Finance School- Zurich University, 2004.

[34] J. Gomez, A. Garcia, C. Silva. COFRE: A Fuzzy Rule Coevolutionary Approach for MulticlassClassification Problems. In Proceedings of the IEEE Congress on Evolutionary Computation,September 2005.

[35] W. G. Hallerbach. Decomposing portfolio value-at-risk: A general analy-sis. Technical Report 99-034/2, Tinbergen Institute, May 1999. available athttp://ideas.repec.org/p/dgr/uvatin/19990034.html.

108

Page 119: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

[36] J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers,San Francisco, 2001.

[37] R. Haugen. Modern Investment Theory. Prentice Hall, 2005.

[38] D. Heckerman. Bayesian networks for data mining. Data Mining and Knowledge Discovery,1(1):79–119, 1997.

[39] T. Hellstrom and K. Holmstrom. Predictable patterns in stock returns. Technical Report HEV-BIBOP-30-SE, Center of Mathematical Modelling - Malarden University, 1998.

[40] T. Hellstrom and K. Holmstrom. Predicting the stock market, 1998.

[41] G. Hernandez, M. Linares, and S. Rojas. On candlestick forecasting with and adaptive coupleddual neural network. In Memorias Congreso Internacional de Inteligencia Computacional CIIC2007, 2007.

[42] M. L. Hetland and P. Saetrom. Evolutionary rule mining in time series databases. MachineLearning, 58(2-3):107–125, Feb. 2005.

[43] J. M. Hutchinson. A radial basis function approach to financial time series analysis. TechnicalReport AITR-1457, 1993.

[44] J. Ingersoll. Theory of Financial Decision Making. Rowman & Littlefield Publishers, 2000.

[45] M. Kaboudan. Genetic programming prediction of stock prices. Computational Economics,16:136–207, 2000.

[46] E. Keogh and M. Pazzani. Scaling up dynamic time warping to massive datasets. Technical report,Department of Information and Computer Science University of California, 1999. Department ofInformation and Computer Science University of California.

[47] E. Keogh and M. Pazzani. Derivative dynamical time warping. Technical report, Department ofInformation and Computer Science University of California, 2001.

[48] V. Kodogiannis and A. Lolis. Forecasting financial time series using neural networks and fuzzysystem-bassed techniques. Neural Computing and Applications, 11:90–102, 2002.

[49] P. Kruchten. The Rational Unified Process: An Introduction. Addison Wesley, third edition, 2003.

[50] A. Lendasse, E. D. Bodt, V. Wertz, and M. Verleysen. Non-liner financial time series forecsting-application to the bel 20 stock market index. European Journal of Economic and Social Systems,14:81–91, 2000.

[51] A. Lendasse, M. Verleysen, and E. de Bodt. Forecasting time-series by kohonnen classification.In European Symposium on Articial Neural Networks 1998 proceedings, 1998.

[52] J. Lin, E. Keogh, and W. Truppel. Clustering of streaming time series is meaningless. In DMKD’03: Proceedings of the 8th ACM SIGMOD workshop on Researchissues in data mining and knowl-edge discovery, pages 56–65, New York, NY, USA, 2003. ACM Press.

[53] M. Linares, D. Hernandez, and F. Gonzalez. Exploiting stock data: a survey of state of the artcomputational techniques aimed at producing beliefs regarding investment portfolios. In RevistaIngenierıa e Investigacion, Vol 28 No 1, Abril 2008 (105-116).

[54] H. Markowitz. Portfolio selection. Journal of Finance, 7:77–91, 1952.

[55] S. Micciche and F. abd R.N. Mantegna. Correlation based hierarchical clustering in financialtime series. 1995.

109

Page 120: DESARROLLO DE UN MODELO COMPUTACIONAL, PARA LA ... · desarrollo de un modelo computacional, para la identificacion de patrones´ candlesticks utilizando tecnicas de miner´ ´ia

[56] R. Miner. Dynamic Trading. Dynamic Traders Group, 1997.

[57] J. H. Mora. Introduccion a la Teorıa del Consumidor. Universidad ICESI, 2002.

[58] E. C. Moreno. Series de Tiempo: Conceptos Basicos. Universidad Nacional de Colombia -Medellın, 2000.

[59] K. Muller, A. Smola, and V. Vapnik. Using support vector machines for time series prediction.Technical report, Image Processing Services Research Lab.

[60] J. Murphy. Technical Analysis of the Financial Markets. New York Institute of Finance, 1999.

[61] D.Nawrocki. A Brief History of Downside Risk Measures. Villanova University.

[62] Z. Pawlak. Rough sets. International Journal of Information and Computer Sciences, 11:341–356,1982.

[63] R. Pindyck and D. Rubinfeld. Microeconomics. Prentice Hall, fourth edition, 1998.

[64] F. Reilly and K. Brown. Investment Analysis and Portfolio Management. South-Western CollegePub, seventh edition, 2002.

[65] J. Rombouts and E. Rengifo. Dynamic optimal portfolio selection in a var framework. Tech-nical Report 04-05, HEC Montreal, Institut d’economie appliquee, July 2004. available athttp://ideas.repec.org/p/iea/carech/0405.html.

[66] S. Ross. The arbitrage theory of capital asset pricing. Journal of Economic Theory, 1976.

[67] S. Ross, R. Westerfield, and J. Jaffe. Corporate Finance. McGraw Hill-Irwin, sixth edition, 2002.

[68] T. H. Rydberg. Realistic statistical modelling of financial data. Internat. Statist. Rev., 68:233–258, 2000.

[69] W. Sharpe. Capital asset prices: A theory of market equillibrium under conditions of risk. Journalof finance, 19:425–442, 1964.

[70] W. Sharpe. Efficient capital markets: Ii. Journal of Finance, 46(5):1575–1617, 1991.

[71] L. Shen and H. T. Loh. Applying rough sets to market timing decisions. Decision SupportSystems, 37(4):583–597, 2004.

[72] C. Shenoy and P. P. Shenoy. Bayesian Network Models of Portfolio Risk and Return. The MITPress, 2000.

[73] L. Stevens. Essential Technical Analysis. John Wiley & Sons, 2002.

[74] F. Tay and L. Cao. Application of support vector machines in financial time series forecasting.The International Journal of Management Science, 29:309–317, 2001.

[75] R. Tsay. Analysis of Financial Time Series. Wiley Interscience, second edition, 2005.

[76] R. Voget and A. Tinnirello. Time series analysis and forecasting techniques. Miami, Florida,USA, 2004. WSEAS.

[77] R. Weissman. Mechanical Trading Systems. John Wiley & Sons, 2006.

[78] C. L. Wilson. Self organizing neural networks for trading common stocks. In IEEE WorldCongress Neural Networks, 1994.

110