introducción al procesamiento digital de señales€¦ · web view2007-06-08 · juan carlos...

Procesamiento Digital de Señales aplicado a Redes Neuronales

PROCESAMIENTO DIGITAL DE SEÑALES Y REDES NEURONALES

Juan Carlos Morales RamosArturo Rocha Miranda

Mayo 2004

1


INDICE

1. Introducción al procesamiento digital de señales...................................................... 4 1.1 Conceptos básicos sobre sistemas discretos...................................................... 7 1.1.1 Estabilidad de un sistema discreto.......................................................13 1.1.2 Respuesta en frecuencia de un sistema discreto..................................13

1.1.2.1 Propiedades de periodicidad de exponenciales discretas................. 13 1.1.2.2 Respuesta de un sistema discreto ante una exponencial periódica...14 1.1.3 Transformada de Fourier de una secuencia...................................................18 1.1.4 Transformada z..............................................................................................20 1.1.4.1 Función de transferencia en z...........................................................22 1.1.4.2 Transformada inversa.......................................................................23 1.1.5 Muestreo de señales...................................................................................... 252. Filtros digitales.............................................................................................................. 34 2.1 Clases de filtros digitales................................................................................. 35 2.2 Filtros de fase lineal o no dispersivos.............................................................. 37 2.3 Causalidad y sus implicaciones....................................................................... 38 2.4 Diseño de filtros no recursivos (FIR)............................................................... 44

2.4.1 Filtros FIR simétricos y antisimétricos................................................45 2.4.2 Diseño de filtros FIR de fase lineal usando ventanas..........................46 2.4.3 El método de diseño de filtros mediante la ventana de Káiser............51 2.4.4 Transformaciones sobre los filtros.......................................................49

2.5 Diseño de filtros recursivos (IIR)......................................................................54 2.5.1 Diseño de filtros IIR mediante transformadas bilineales.....................60

2.5.2 Implementación de los filtros digitales.................................................67 2.6 Efectos de la cuantificación en los filtros.........................................................71 2.6.1 Efectos de truncamiento y redondeo....................................................71

2.6.2 Cuantificación de señales.....................................................................73 2.6.3 Cuantificación de los coeficientes........................................................75

2.6.4 Cuantificación de resultados de operaciones........................................763. Las redes

neuronales. .................................................................................................. 77 3.1 Historia de las redes

neuronales. ......................................................................733.2 Generalidades....................................................................................................79

3.2.1 Definiciones de una red neuronal. ........................................................75 3.2.2 Ventajas que ofrecen las redes

neuronales. ..........................................81 3.2.2.1 Aprendizaje

adaptativo. .....................................................................82 3.2.2.2 Auto-

organización..............................................................................82 3.2.2.3 Tolerancia a

fallos. ...........................................................................83 3.2.2.4 Operación en tiempo

real. .................................................................83

2


3.2.2.5 Fácil inserción dentro de la tecnología existente. .............................83

3.3 Redes neuronales y computadoras digitales......................................................84

3.3.1 Conceptos Básicos................................................................................85 3.3.2 Elementos básicos que componen una red

neuronal….........................85 3.3.3 Función de entrada (input function). ....................................................86

3.3.4 Función de activación (activation function). .......................................87 3.3.5 Función de salida (output function). .....................................................89

4 Aprendizaje, Validación y Codificación.....................................................................90 4.1 Niveles o capas de una red

neuronal. ...............................................................91 4.2 Tipos de neuronas

artificiales. .........................................................................91 4.3 Técnicas de

decisión. .......................................................................................92 4.4 Mecanismos de

aprendizaje..............................................................................93 4.4.1 Aprendizaje

supervisado.......................................................................95 4.4.1.1 Aprendizaje por corrección de

error. ................................................95 4.4.1.2 Aprendizaje por

refuerzo...................................................................96 4.4.1.3 Aprendizaje

estocástico. ...................................................................96 4.4.2 Aprendizaje no

supervisado..................................................................97 4.4.2.1 Aprendizaje

hebbiano. ......................................................................97 4.4.2.2 Aprendizaje competitivo y

comparativo. .........................................97 4.5 Elección del conjunto inicial de

pesos. ............................................................98 4.5.1 Detención del proceso de

aprendizaje. ................................................98 4.5.2 Codificación de los datos de entrada....................................................98

4.5.2.1 Codificación de los atributos numéricos. ..........................................99

4.5.2.2 Codificación de los atributos simbólicos. .......................................100 4.5.2.3 Resumen de los procedimientos de

codificación.............................101 4.6 Validación de la red

neuronal. .......................................................................101

3


4.7 Cuestiones a resolver al trabajar con una red neuronal..................................101

4.8 Principales Topologías....................................................................................102 4.8.1 Topología de las redes

neuronales. .....................................................102 4.8.2 Redes monocapa. ................................................................................102 4.8.3 Redes multicapa.......................................................... ........................102

4.8.4 Conexión entre neuronas......................................................................103 4.9 Redes de propagación hacia atrás

(backpropagation)...................................103 4.9.1 Ejemplo.……………………………………..……………………...104 4.9.2 Estructura de la Red Hopfield. ..........................................................105

4.9.3 Simulated Annealing aplicada a una Red Hopfield...........................106

4.9.4 Asociaciones entre la información de entrada y salida. ..........……..107

4.9.4.1 Redes heteroasociativas. .......................................................…….108

4.9.4.2 Redes autoasociativas. ..........................................................…….108

5 Aplicaciones........................................................ ........................................................... 102 5.1 Aplicaciones de las redes

neuronales. ...........................................................111 5.1.1 Asociación y

clasificación. ................................................................112 5.1.2 Regeneración de

patrones. .................................................................113 5.1.3 Regeneración y generalización.

.........................................................113 5.1.4 Optimización. ....................................................................................113

5.2 Casos concretos de aplicación. .....................................................................113

5.2.1 Planificación del staff (cuerpo) de empleados. .................................114

5.2.2 Planificación de la demanda de materiales. ......................................115

5.2.3 Puntuación para la solicitud de un crédito. .......................................117

6 Software Comerciales................................................................................................... 120 6.1 Aplicaciones del NeurOn-Line……………………………….….......122

Conclusiones...................................................................................................................... 132Bibliografía........................................................................................................................ 133

4


IntroducciónEl siglo XX se ha caracterizado por un notable desarrollo en la tecnología del manejo de información, esto es, recolección procesamiento y distribución de información. Se han instalado grandes redes telefónicas, se inventaron la radio y la televisión, se pusieron en órbita satélites de comunicación y el crecimiento sin precedentes de la industria de comunicación y procesamiento de señales por diferentes medios.

Conforme el tiempo y la tecnología avanzan, observamos una mejor relación entre estas áreas, tan es así, que en la actualidad no es posible hablar por separado de una o de otra.

Hoy en día grandes Organizaciones, con cientos de oficinas distribuidas en todo el mundo tienen la necesidad de examinar de manera cotidiana el estado actual de las tecnologías de procesamiento de datos con tan solo oprimir una tecla. Pero esto no termina aquí, cada vez se requieren de sistemas cada vez más sofisticados en el procesamiento de las señales digitales, así como su interpretación y manipulación, todo esto con el fin de hacer la vida un tanto mas sencilla y la fácil resolución de problemas de manera inmediata.

Si bien es cierto que la industria de las computadoras es creciente, pero si la comparamos con otras industrias como la automotriz o con la del transporte aéreo, esta ha mostrado ha demostrado un crecimiento verdaderamente grandioso. En poco tiempo la industria ha avanzado de tal manera que para la realización de tareas como el procesamiento de señales digitales ha implementado desde los mas rústicos instrumentos mecánicos hasta las grandes redes de transmisión, interpretación y manipulación de las señales. Para esto el Hombre ha creado entre otras, redes que cuyo objetivo no es otro que realizar las funciones mas avanzadas de la inteligencia humana como son la de realizar la interpretación de los sucesos cotidianos de la vida que para tomar una resolución para resolver un problema es necesario tomar una decisión inmediata partiendo del hecho que dicha decisión deba de ser lo mas exacta y acertada posible.

Las computadoras y las redes informáticas han producido un gran impacto en nuestra sociedad un impacto de enormes consecuencias, estas herramientas revolucionarias han multiplicado la productividad y eficiencia del trabajo, tanto como para las empresas y usuarios independientes. Ahora las redes neuronales son la propuesta de una solución a los problemas de gran complejidad, los cuales requieren de una gran implementación ya sea de soluciones a gran escala o dificultad.

El propósito de esta tesis es el mostrar un estudio sobre la aplicación y procesamiento de las señales digitales en las redes neuronales. Esta tesis esta estructurada en seis capítulos. En el primer capítulo se presentan los conceptos básicos sobre los sistemas discretos como Estabilidad, Respuesta en frecuencia así como la aplicación de las propiedades de la función de transferencia en Z y transformada Z, la aplicación de la transformada de Fourier en las señales digitales. Así también el muestreo de señales. En el capítulo dos se analizarán los tipos, diseño e implementación de filtros digitales En el capitulo 3 se introducirá al mundo de las redes neuronales su historia así como la definición generalidades y conceptos básicos de las mismas. En el capítulo cuatro se darán a conocer las capacidades de las redes neuronales y sus topologías. En el capítulo cinco se dará a conocer la aplicación del

5


procesamiento de señales digitales usando las redes neuronales así como las aplicaciones generales de las mismas. En el capitulo seis se hablara del software empleado por las redes neuronales.

6


CAPITULO I

ANTECEDENTES

7


1. Introducción al Procesamiento digital de Señales.

El Procesamiento de Señales posee una larga y rica historia. Es una tecnología que se entronca con un inmenso conjunto de disciplinas entre las que se encuentran las telecomunicaciones, el control, la exploración del espacio, la medicina y la arqueología, por nombrar solo unas pocas. Hoy en día, esta afirmación es incluso más cierta con la televisión digital, los sistema de información y el entretenimiento multimedia. Es más, a medida que los sistemas de comunicación se van convirtiendo cada vez más en sistemas sin hilos, móviles y multifunción, la importancia de un procesamiento de señales sofisticado en dichos equipos se hace cada vez más relevante.

El Procesamiento de señales trata de la representación, transformación y manipulación de señales y de la importancia que contienen. Cuando se refiere al procesado digital de señales, se refiere a la representación mediante secuencias de números de precisión finita y el procesado se realiza utilizando un computador digital.

A menudo es deseable que estos sistemas funcionen en tiempo real, lo que significa que el sistema en tiempo discreto se implementa de forma que las muestras de salida se calculan a la misma velocidad a la que se muestrea la señal en tiempo continuo. Son muchas las aplicaciones que requieren esta especificación. El tratamiento en tiempo discreto y en tiempo real de señales en tiempo continuo es práctica común en sistema de control, comunicaciones, radar, sonar, codificación y realce de voz y vídeo, ingeniería biomédica y un largo etcétera.

Otro tipo de problemas del tratamiento de señales al que se enfrenta es la interpretación de señales. Por ejemplo, en un sistema de reconocimiento de voz el objetivo es comprender la señal de entrada. Típicamente, un sistema como éste aplicará un procesado digital previo (filtrado, estimación de parámetros, etc.) seguido por un sistema de reconocimiento de patrones que produzca una representación simbólica.

Los problemas de tratamiento de señales no están confinados, por supuesto, a señales unidimensionales. Aunque hay algunas diferencias fundamentales entre las teorías del tratamiento de señales unidimensionales y multidimensionales, una buena parte del material que se presenta aquí tiene su contrapartida en sistemas multidimensionales. Entre ellas destaca las aplicadas al procesamiento de imágenes digitales.

El tratamiento de señales en tiempo discreto ha avanzado con pasos desiguales durante un largo periodo de tiempo. Hasta principios de los años cincuenta el tratamiento de señales se realizaban con circuitos electrónicos o incluso con dispositivos mecánicos. Aunque los computadores digitales ya estaban disponibles en entornos de negocios y en laboratorios científicos, éstos eran caros y de capacidad relativamente limitada. Uno de los primeros usos de los computadores digitales en el tratamiento de señales fue en la prospección petrolífera. Se grababan los datos sísmicos en cintas magnéticas para su procesamiento posterior. Este tipo de tratamiento de señales no se podía realizar generalmente en tiempo real. Aunque el procesamiento de señales mediante computadoresdigitales ofrecía tremendas ventajas de flexibilidad, sin embargo, el procesado no se podía realizar en tiempo real. Las aportaciones de Cooley y Tukey (1965) de un algoritmo

8


eficiente para el cálculo de las transformadas de Fourier aceleró el uso del computador digital. Muchas aplicaciones desarrolladas requerían del análisis espectral de la señal y con las nuevas transformadas rápidas se redujo en varios órdenes de magnitud el tiempo de cómputo. Además, se dieron cuenta de que el nuevo algoritmo se podría implementar en hardware digital específico, por lo que muchos algoritmos de tratamiento digital de señalesque previamente eran impracticables comenzaron a verse como posibles.

Otro desarrollo importante en la historia del Procesamiento de Señales ocurrió en el terreno de la Microelectrónica. Aunque los primeros microprocesadores eran demasiado lentos para implementar en tiempo real la mayoría de los sistemas en tiempo discreto, a mediados de los ochenta la tecnología de los circuitos integrados había avanzado hasta el nivel de permitir la realización de microcomputadores en coma fijo y coma flotante con arquitecturas especialmente diseñadas para realizar algoritmos de procesamiento de señales en tiempo discreto. A estos procesadores se les conoce por el acrónimo de DSP (Digital Signal Processor). Con esta tecnología llegó, por primera vez, la posibilidad de una amplia aplicación de las técnicas de tratamiento de señales en tiempo discreto. Aun más, hoy en día los diseños de los microprocesadores genéricos son ampliados en registros e instrucciones para poder destinarlos a tareas de procesamiento de señales, sea el caso más llamativo el conjunto de instrucciones MMX insertdas en la familia INTEL a partir del mítico PENTIUM.

De las diferentes materias que involucra el tratamiento digital de señales, en este tema sólo se va a versar sobre los filtros digitales lineales e invariantes en el tiempo, abreviados por la sigla LTI (Linear Time Invariant). La elección por estos filtros viene dada por su gran difusión actual, por ser un capítulo iniciático al procesado digital de señales y por corresponder con la evolución natural del temario de Electrónica Industrial. No obstante, el Procesamiento Digital es por si misma una propia asignatura, lo que indica el carácter básico de este capítulo. Para profundizar más sobre los filtros digitales y conocer en amplitud esta disciplina,se puede empezar por elegir alguno de los libros recomendados en el apartado de bibliografía.

Los filtros digitales LTI son, por ejemplo, usuales en el procesamiento del audio. Los equipos de música vienen dotados con filtros que le permite al oyente modificar las cantidades relativas de energía de baja frecuencia (graves) y la energía de alta frecuencia (agudos). Estos filtros varían sus respuestas en frecuencias mediante la manipulación de los controles de tono.

Otra clase común de filtros LTI son aquellos en los que la salida del filtro es una aproximación de la derivada de su entrada. Los filtros diferenciadores son útiles para acentuar las transiciones rápidas de una señal, y una aplicación en la que se emplea a menudo es en la intensificación de los bordes. La figura 1.1 ilustra el efecto de un filtro diferenciador en una imagen. La figura muestra dos imágenes, la original y el resultado del procesamiento con un filtro que tiene una respuesta en frecuencia lineal. Como la derivada en los bordes de la imagen es mayor que en las regiones donde la intensidad varía con lentitud en el espacio, el efecto de los filtros diferenciadores es resaltar los bordes.

9


Figura 1. 1. Procesamiento de un filtro diferencial sobre una señal bidimensional

Los filtros selectivos en frecuencia que permiten el paso de señales sin distorsión en una o en un conjunto de bandas de frecuencia, y atenúan o eliminan totalmente las señales en el resto de las bandas son otra clase importante de filtros LTI. Una importante aplicación de los filtros selectivos están en los sistemas de comunicaciones. Son la base para los sistemas de modulación en amplitud (AM), en la cual la información de cada canal se pone en una frecuencia separada y luego en el receptor se extrae los canales mediante filtros selectivos en frecuencia.

Es común emplear filtros de tiempo discreto en el análisis de secuencias de datos económicos tales como el índice del mercado de valores. A menudo las variaciones de largo plazo (las cuales corresponden a bajas frecuencias) tienen un significado diferente al de variaciones de corto plazo (las cuales corresponden a altas frecuencias), y es útil analizar estos componentes por separado. La separación de estos componentes casi siempre se lleva a cabo mediante filtros selectivos en frecuencia. El filtrado de secuencias de datos económicos también se usa para suavizar los datos y eliminar las fluctuaciones aleatorias (que son por lo general de alta frecuencia) sobrepuestas a los datos significativos.

Se acaban de citar algunas de las muchas aplicaciones del filtrado digital LTI que en este capítulo serán tratados. En detalle, el tema del filtrado abarca muchos problemas, tales como los que involucran su diseño y su implementación. El principal objetivo de este capítulo es introducir el concepto básico del filtrado de tiempo discreto. Los conceptos primarios provienen directamente de las nociones básicas de los sistemas discretos y de las propiedades de las transformadas de Fourier. Entonces, además de la introducción de una importante área de aplicación, la discusión servirá, también, para una mejor comprensión de las propiedades y de la importancia de los sistemas discretos y de la transformada de Fourier. El capítulo se inicia con un repaso a la naturaleza de los sistemas discretos, analizando detenidamente las transformadas de Fourier de las secuencias y el proceso de muestreo de las señales continuas. En el apartado 1.2 las diferencias entre filtros analógicos y digitales serán tratadas y posteriormente se procederá a la clasificación de los filtros de tiempo discreto. Antes de entrar en el diseño se analizará las implicaciones de la causalidad. Las secciones 1.3 y 1.4 presentarán las técnicas de diseño de los filtros no recursivos y recursivos respectivamente. Mientras que 1.5 y 1.6 tratarán sobre las problemáticas de la

10


implementación de estos filtros y de los efectos producidos de la cuantificación de la señal. Por último, señalar que para una mejor comprensión de la unidad temática se han elaborado algunos ficheros en MATLAB. Éstos serán presentados a lo largo del capítulo, el alumno puede adquirirlos en el servidor WEB de departamento.

1.1 Conceptos básicos sobre sistemas discretos

Posiblemente lo primero en preguntarse sería ¿ qué es un filtro digital ?, pues bien, según se estudió en el anterior capítulo sobre Tratamiento Analógico de la Señal, los filtros tratan de extraer alguna característica de la señal de entrada; en términos frecuenciales, se hablaba del paso de una determinada banda del espectro de la señal de entrada. Por lo tanto, los filtros digitales son sistemas discretos que tratan de extraer alguna característica frecuencial de una señal muestreada.

Pero ante esta definición, aparecen los vocablos típicos del Procesamiento Digital, tales como señal muestreada o sistema discreto. Por lo que se va a proceder a describir los conceptos básicos sobre los sistemas discretos. Las señales en tiempo discreto surgen si el sistema involucra la operación de muestreo de señales en tiempo continuo. La señal muestreada es donde T es el periodo de muestreo. Dicha secuencia de valores.que aparecen de la operación de muestreo normalmente se escribe como . Si el sistema incluye un proceso iterativo realizado por una computadora digital, la señal involucrada es una secuencia de números La secuencia de números normalmente se escribe como {xk} en donde k, entero asociado al elemento, es el índice del mismo. Este índice podrá ser positivo o negativo.

( 1.1 )

El índice 0 es el origen de la secuencia. Aunque {xk} es una secuencia de números, ésta se puede considerar como una señal muestreada de x(t) cuando el periodo de muestreo T es de 1 segundo.

11


Ejemplo 1.1

Obtener la secuencia discreta de un armónico de 100 Hz, de amplitud 0.5 V que ha sido muestreado con una frecuencia de 1kHz, sabiendo que el desfase en la adquisición es de 30º y el tiempo total de muestreo ha sido de 20 ms. No considere los efectos de cuantificación de la señal.

Una sinusoide de tiempo continuo viene dada por la fórmula matemática siguiente:

( 1.2 )

Si se obtiene una señal de tiempo discreto tomando regularmente muestras {xk} a la frecuencia de muestreo , se obtendrá:

(1.3 )

Para los valores indicados del ejercicio, la secuencia muestreada tendrá como resultado:

A continuación se presenta la resolución mediante MATLAB.

12


Habiendo definido el concepto de secuencia, al que se ha asociado con el resultado del muestreo, el término de sistema discreto puede ser entendido. Un sistema discreto es un algoritmo que permite transformar una secuencia en otra.

(1.4 )

Como ejemplo de sistema discreto se podría considerar cualquier programa de computador que transforme una tabla de valores en otra, por ejemplo, la obtención de cuadrados, la suma de los k primeros números, la media de una serie de muestras, etc. Los sistemas discretos pueden clasificarse en estáticos o dinámicos. Un sistema discreto es estático cuando el elemento de la secuencia de salida de un cierto índice depende únicamente del elemento de la secuencia de entrada del mismo índice. Por ejemplo, el sistema que genera una secuencia cuyos elementos son los cuadrados de los correspondientes elementos de una secuencia de entrada. En caso contrario, el sistema se denomina dinámico, esto es, la secuencia de salida de un cierto índice depende de las secuencias de entrada y de salida de órdenes distintos al suyo. En la figura 1.2 el sistema discreto es dinámico, ya que ante una entrada en escalón unitario la secuencia de salida no sólo depende del índice de la secuencia de entrada sino también de los estados anteriores.

Figura 1. 2 Sistema discreto dinámico

Un sistema discreto es causal si el valor de un elemento de la secuencia de salida depende únicamente de la secuencia de entrada y de salida de menor o igual índice.

(1.5 )

Los sistemas discretos que no verifiquen esta propiedad se denominan no causales. Si la función que relaciona cada elemento de la secuencia de salida es lineal, el sistema se denomina asimismo lineal. Centrados en los sistemas dinámicos causales, un sistema será lineal, si la función expresada en (1. 5) es lineal, es decir, de la forma:

13


( 1.6 ) Cuando ai y bi son constantes se dice que el sistema lineal es invariante en el tiempo. A éstos se les conoce por el acrónimo de LTI (Linear Time Invariant). Un sistema lineal invariante verifica el principio de linealidad, es decir, que, en idénticas condiciones iniciales, a entradas suma de entradas o producto por una constante, le corresponden salidas sumas o productos de la misma constante. La figura 1.2 ilustra este principio.

Figura 1. 3 Linealidad de los sistemas discretos dinámicos lineales eInvariantes.

En el presente tema sólo van a ser considerados los filtros digitales que sean sistemas discretos dinámicos lineales e invariantes por lo que normalmente se omitirán los adjetivos para su definición. Las ecuaciones usadas para definir estos sistemas se denominan "ecuaciones en diferencias" y juegan un papel similar al de las ecuaciones diferenciales lineales en los sistemas continuos.

Se denomina secuencia de ponderación a la que se obtiene en la salida del sistema cuando se aplica a la entrada una secuencia tipo impulso.

( 1.7 ) Si el sistema es causal es igual a cero para k < 0.

Para obtener la secuencia de salida sobre un sistema lineal ante una secuencia deentrada dada habrá de aplicar el operador convolución discreta; este operador se definecomo:

14


( 1.8 )

donde {gk} representa la secuencia de ponderación. En ellas cada elemento de la secuencia de salida es calculada por la expresión:

Ejemplo 1.2

Dada la ecuación en diferencia:

( 1.10 )

Obtener la secuencia de ponderación y determinar la salida ante una entrada en escalón.

Para obtener la secuencia de ponderación habrá de aplicarle una entrada impulsional, de forma que la entrada será del tipo . La evolución de la salida puede ser realizada a través de una tabla, en las que se van obtenido los resultados temporales al aplicar la ecuación en diferencias:

Luego la secuencia de ponderación del sistema LTI es:

15


Para calcular la respuesta en {escalón} se aplicará el operador convolución, (1. 9),donde la señal de entrada será .La secuencia de salida corresponderá a:

16


1.1.1 Estabilidad de un sistema discreto

Se dice que un sistema discreto es estable si, ante cualquier secuencia de entrada acotada la secuencia de salida es también acotada.

Para sistemas lineales, la condición de suficiencia de estabilidad debe cumplir que la secuencia de ponderación sea absolutamente sumable:

( 1.11 )

1.1.2 Respuesta en frecuencia de un sistema discreto

Al excitar un sistema continuo LTI con señales sinusoidales, este experimento permite desarrollar el análisis en el dominio de la frecuencia para dichos sistemas. De manera paralela, en los sistemas discretos se va a ver como se puede obtener una representación frecuencial de los mismos que sirvan para caracterizarlos.

Antes de entrar en la obtención de la respuesta en frecuencias se requiere analizar las propiedades de las señales exponenciales discretas. Tras su estudio se estará en condiciones de comprender mejor los mecanismos inherentes a la respuesta en frecuencia de los sistemas discretos.

1.1.2.1 Propiedades de periodicidad de exponenciales discretas

Así como existen muchas similitudes entre las señales continuas y las discretas, también hay importantes diferencias. Una de éstas concierne a la señal exponencial discreta

. En señales continuas, , mientras más grande sea la magnitud de , mayor será la

velocidad de oscilación de la señal, en cambio, las señales discretas son periódicas cada 2 :

( 1.12 )

Se observa que la exponencial de frecuencia es la misma que aquella con . Por tanto, al considerar las exponenciales complejas, se tomará en cuenta un intervalo de frecuencia 2w. Aunque de acuerdo con la anterior expresión, cualquier rango de longitud 2

sería adecuado, en la mayoría de las ocasiones se suele usar el intervalo

17


Debido a la periodicidad que implica la ecuación (1.12) , la señal no tiene un incremento continuo en la velocidad de oscilación. Por el contrario, conforme se incrementa a partir de 0, se obtiene que la señal oscila más rápido hasta que se alcanza

. Conforme aumente la frecuencia a partir de este punto disminuirá la velocidad de oscilación hasta llegar a 2 /T, la cual produce la misma secuencia constante que

1.1.2.2 Respuesta de un sistema discreto ante una exponencial periódica

Para facilitar el estudio se considerará que el periodo de muestreo es 1, T = 1. Sólo se considerará el carácter de la secuencia, independizándolo de T. Sea un sistema de secuencia de ponderación {gk} y considérese que su entrada es excitada por una secuencia exponencial periódica:

( 1.13 )

Cuyos elementos son función de un parámetro de . La secuencia de salida según la aplicación de la convolución discreta, (1.9) será:

( 1.14 )

El índice de la secuencia es k, con lo que el sumatorio es un factor independiente de este índice, por tanto:

( 1.15 )

Si se define la función

( 1.16 )

18


La expresión queda:

( 1.17 )

Esta expresión permite ver como, cuando el sistema es excitado ante la secuencia de una exponencial discreta de frecuencia angular , (1. 13), los elementos de la secuencia de salida son calculados multiplicando el valor de la entrada por el operador G(

Este operador G( , se denomina respuesta en frecuencia del sistema discreto considerado. Es una función del parámetro real y periódica respecto a él, como puede apreciarse observando 1.16 . Su periodo es 2. La respuesta en frecuencia es así mismo una función compleja, la cual requiere cualquier representación gráfica de la misma en dos curvas, por ejemplo, haciendo uso del diagrama de Bode.

Ejemplo 1.3

Determinar la respuesta frecuencia de un filtro binomial cuya secuencia de ponderación es {1/4, 1/2, 1/4}.

Al aplicar (1.16) sobre la secuencia de ponderación dada:

dando valores de 0 hasta se conseguirá la respuesta. Aunque G( , es una función continua, con el propósito de representarla en el diagrama de Bode se hacen, por ejemplo, 64 intervalos entre 0 y , confeccionándose la tabla siguiente:

19


Imponiendo las condiciones adecuadas a la función de periódica G(W), continuidad a trazos con derivadas de variación acotada en los intervalos de continuidad, entonces la expresión (1. 16) es el desarrollo en series de Fourier de G(W), siendo los elementos de la secuencia de ponderación, {gk}, los coeficientes de dicho desarrollo. Este hecho permite utilizar la expresión del cálculo de los coeficientes del desarrollo para obtener el valor de la secuencia de ponderación a partir de la respuesta frecuencial. Se tiene así que:

( 1.18 )

Esta expresión (1.18) permite realizar la operación inversa a la efectuada en (1.16). Antes, de la secuencia de ponderación, {gk}, se obtenía la respuesta en frecuencia G(W), mientras que ahora, con (1.18), de esta función G(W) se obtiene la secuencia de ponderación.

De igual forma que se vio en el diseño de filtros analógicos, se puede establecer una estrategia de definición del filtro digital mediante la respuesta frecuencial deseada. De manera que se puede plantear la determinación de su secuencia de ponderación a partir del conocimiento de su respuesta frecuencial y mediante el uso de (1. 18) obtener los coeficientes del filtro.

20


Ejemplo 1.4

En la figura 1.4 se representa la respuesta en frecuencia de un filtro paso bajo normalizado, cuya frecuencia de corte es c con valor de 2. Determinar la secuencia de ponderación del filtro.

Figura 1. 4 Respuesta frecuencia de un filtro paso bajo discreto.

Usando la expresión (1.18) y extendiéndola entre ± c c quedará con:

Cuyos valores serán:

Nótese que el filtro es no causal.

21


1.1.3 Transformada de Fourier de una secuencia

La forma de asociar la secuencia de ponderación {gk} a la función G(W), puede ser extendida a cualquier secuencia que cumpla determinadas propiedades. Así se construye lo que se denomina la transformada discreta de Fourier de una secuencia, a ésta se la conoce por las siglas DFT (Discrete Fourier Transform). De este modo, dada una secuencia, {xk}, se define su transformada de Fourier como la función:

( 1.19 )

Ésta es igualmente periódica, de ciclo 2, y en las condiciones antes indicadas es undesarrollo en serie de Fourier, lo que permite definir la transformada inversa:

( 1.20 )

La transformada de Fourier de una secuencia es una función compleja, siendo usualmente representada gráficamente por sus curvas de módulo y de argumento. Al igual que ya se vio en los sistemas continuos, la utilidad más importante que se va a hacer de la transformación de Fourier es la que se deriva de la relación existente entre las transformadas de Fourier de las secuencias de entrada y de salida de un sistema LTI y su respuesta en frecuencia, de manera que:

( 1.21 )

22


Esta relación permite tratar a los sistemas discretos de una manera similar con lo que se procedía con los continuos; dando un procedimiento para determinar la secuencia de salida a partir de la respuesta en frecuencia, ver figura 1.5. Conocida la respuesta en frecuencia del sistema y la transformada discreta de la secuencia de entrada, se determinará la transformada de la secuencia de salida según (1. 21), y posteriormente se aplicará la transformada inversa, obteniendo la secuencia de la salida.

Figura 1. 5 Relación fundamental de los sistemas discretos

Ejemplo 1.5

Dado la respuesta en frecuencia de un filtro binomial de orden 2 (ver ejemplo 1.3):

y siendo {xk }= {1,1,0,0,0,...} la excitación al sistema, calcular la secuencia de salida. En primer lugar se procederá a calcular la DFT de la secuencia de entrada:

23


Aplicando la relación fundamental visto en (1. 21) se tendrá que:

Por tanto, la secuencia de salida valdrá:

1.1.4 Transformada z

La variable compleja z es una transformación no lineal de la variable de Fourier, con el propósito de que la función de transferencia del sistema discreto obtenida de esta transformación sea racional. Dada una secuencia real {xk} se define su transformada en z como una función compleja:

( 1.22 )

En estas expresiones se pueden observar las ventajas de, por una parte, no ser funciones periódicas, y por otra, de ser racionales. Además, es fácil ver que la definición de transformada de Fourier a z, se consigue haciendo:

( 1.23 )

24


Así, por ejemplo, la transformada en z de una secuencia impulso será:

( 1.24 )

La transformada de la secuencia en escalón resultará:

( 1.25 )

Otro ejemplo típico, generalización del anterior, es la secuencia exponencial:

( 1.26 )

que, por ser una serie geométrica, será convergente para , es decir |z|>|a|, y su suma valdrá:

( 1.27 )

Por último, la transformada del desplazamiento será:

( 1.28 )

25


1.1.4.1 Función de transferencia en z

Dado un sistema discreto definido por su secuencia de ponderación {gk}, cabe considerar, si existe, su transformación z, G(z). Teniendo en cuenta la relación de la convolución entre entrada, ponderación y salida y la relación entre la convolución de dos secuencias y sus transformadas, un sistema como el de la figura 1.5, verifica que:

( 1.29 )

El operador G(z), transformada z de la secuencia de ponderación del sistema se denomina función de transferencia en z del sistema considerado.

Figura 1. 6 Condición de relación de transformadas.

Esta función de transferencia del sistema puede ser calculada a partir de la ecuación en diferencias que lo determina. Partiendo de la ecuación que define el comportamiento de un sistema dinámico lineal:

( 1.30 )

Y calculando ahora la transformada z de las dos partes de la igualdad y teniendo en cuenta las propiedades de linealidad y desplazamiento, se obtiene:

( 1.31 )

26


Entonces la relación entrada/salida del sistema será:

( 1.32 ) Y por tanto la función de transferencia del sistema será:

( 1.33 )

1.1.4.2 Transformada inversa

Se plantea el problema inverso, obtener la secuencia {xk} a partir de su transformada en z, X(z). Para el caso de tener X(z) en forma de función racional, se puede calcular de forma sencilla a partir del teorema de los residuos, estableciendo que:

( 1.34 )

siendo C una curva cerrada que envuelve el origen.

En el caso de secuencias con términos únicamente de índice positivo, o únicamente negativo, se puede utilizar el cálculo de los coeficientes mediante el método de la división larga. Una posibilidad más de cálculo de la transformada inversa es por descomposición en fracciones simples. Si X(z) es racional, con todos sus polos simples y el grado del numerador inferior al del denominador, entonces:

( 1.35 )

27


y la transformada inversa será la suma de las transformaciones inversas, que, en el caso de secuencias de índice positivo, será transformada en una suma de secuencias exponenciales y por tanto en este caso:

( 1.36 )

Ejemplo 1.6

Un sistema discreto está definido por la siguiente ecuación en diferencias:

Calcular la FDT en transformadas en z y calcular la respuesta del sistema ante una entrada en escalón. Utilícese el método de fracciones simples. Al aplicar las transformadas en z sobre la ecuación en diferencias quedará:

. Para calcular la secuencia de salida se aplicará (1. 29):

Es fácil de obtener los dos polos de G(z), uno en z = 1/3 y otro en z = 1/4. La descomposición en fracciones simples de Y(z) resultará a :

28


La antitransformada será inmediata (ver (1. 35) y (1. 36) ):

y los valores de la secuencia serán:

1.1.5 Muestreo de señales

La idea de muestras referidas a un sistema basado en un computador digital, se concreta en la toma de valores de una señal continua en sucesivos instantes de tiempo. El muestreo de señales consiste en la construcción de secuencias a partir de señales continuas. Un problema que salta a la vista es la pérdida de información.En este punto se analizará fundamentalmente este problema, dándose las condiciones en las que el proceso de muestreo/reconstrucción, (CAD/CDA), no signifique perdida de información.

El caso más interesante de muestreo es el periódico, que se caracteriza por que los instantes de toma de las muestras están regularmente espaciados en el tiempo y a éste se le llama periodo de muestreo, T, y a su inversa, frecuencia de muestreo, fs. El elemento que realiza este proceso se denomina "muestreador", siendo la forma usual de representarlo en los diagrama de bloques la indicada en la figura 1.7. En este bloque la salida está relacionada con la entrada por la expresión:

29


( 1.37 )

Figura 1.7 Símbolo del muestreador

Intuitivamente se puede apreciar que el periodo de muestreo va a jugar un papel fundamental en este proceso. La elección de la frecuencia de muestro es un problema fundamental en el sistema de datos muestrados. Conviene muestrear los datos con la menor frecuencia posible, pero que sea lo suficientemente grande como para poder evitar la pérdida de información y que sea posible reconstruir la función continua a través de las muestras. Justamente, el teorema del muestreo es el que puede ayudar a determinar la frecuencia óptima del convertidor analógico/digital.

Para poder establecer las conclusiones del teorema del muestreo, se va a recurrir al estudio frecuencial. Si una señal continua, x(t), con transformada de Fourier continua, Xc(w), entonces las relaciones señal/transformada serán del tipo:

( 1.38 )

La relación existente entre la señal continua y la secuencia procedente del muestreo estará dada por (1. 37), por lo tanto, el ligazón entre la transformada de Fourier continua y la secuencia será del tipo:

( 1.39 )

Si la secuencia {xk} tiene asimismo transformada discreta de Fourier Xd(w), entonces estará relacionada con su transformada por medio de:

( 1.40 )30


El problema es estudiar si existe alguna relación entre estas dos transformadas, la de la señal continua Xc(w) y la de la secuencia Xd(w). Se puede demostrar que la relación existente es:

( 1.41 )

Por tanto, si la señal continua tiene una transformada de Fourier, cuya curva de módulos, por ejemplo, se representa en la figura 1.8.

Figura 1. 8 Transformada de Fourier de una señal continua determinada

Entonces la curva de módulos de la transformada de la secuencia obtenida por muestreo, será periódica 2 T tal como queda reflejado en la figura 1.9

Figura 1. 9 Transformada discreta de Fourier de la señal continua con un muestreadorde periodo T

31


Llegando así a las condiciones que se deben de cumplir en el proceso de muestreo para que se pueda realizar sin pérdida de información. Suponiendo que la señal continua x(t) con transformada de Fourier Xc(w) sea nula a partir de una determinada frecuencia 0.

( 1.42 )

Las señales que cumplen esta condición se denominan de banda limitada. Si una señal de este tipo se muestrea con un periodo que verifique:

( 1.43 ) Es decir:

( 1.44 )

La transformada de Fourier será, siguiendo el ejemplo, de la forma indicada en la figura 1.9. A/T se la l ama frecuencia angular de Nyquist.

Si por el contrario, el periodo de muestreo es superior a este valor, T > / 0 , la transformada de la secuencia del ejemplo será de la forma indicada en la figura 1.10, donde se puede apreciar que Xc(w) y Xd(w) no coinciden, y por lo tanto el conocimiento de la transformada de la secuencia no permite obtener la transformada de la señal continua. A este fenómeno se llama solapamiento en frecuencias o aliasing.

32


Figura 1. 10 Efecto de solapamiento en frecuencia o aliasing

Recuérdese cómo en el capítulo anterior se mencionaba el diseño de filtros antialiasing en la propagación de la señal continua al convertidor A/D, con el objeto de tener señales de banda limitada y que cumplan con (1. 42) y (1. 43).

Por acabar con este resumen, hay que citar que además del problema del muestreo, habría de estudiar el efecto tanto de la cuantificación como el de reconstrucción. El primero analiza cómo afecta el problema del convertidor A/D en la transformación de una señal analógica de infinitos valores a otra de valores finitos; mientras el segundo estudia los problemas de la reconstrucción debido a los convertidores D/A. Éstos serán analizados en el último punto del capítulo.

Ejemplo 1.7

Una señal continua está constituido por la siguiente expresión:

Determinar la serie de Fourier de la señal. Esta señal posteriormente es muestreada a 10 kHz y a 6 kHz durante 2 ms con desfase nulo, obtener las DFT de las secuencias obtenidas.

Al ser dos armónicos puros la serie de Fourier continua estará constituida por dos componentes, una a 2 kHz y la otra a 4 kHz, con amplitudes de 1 y 1.5 respectivamente. En la figura adjunta se representa la señal continua durante 2 ms y el módulo de su serie de Fourier.

33


Las muestras obtenidas dependerán de la frecuencia de muestro y sus valores estarán relacionados con las siguientes expresiones:

Los valores de las secuencias corresponden a una frecuencia de 10kHz y xk2 de 6kHz. Ambas son representadas en la figura de abajo.

Resalta a la vista la pérdida de información en el segundo muestreo, compare estas gráficas con la forma de la señal continua. Aplicando a estas secuencias la transformada de Fourier, el resultado es el esperado. En el primer caso no hay solapamiento en frecuencias, mientras en el segundo el espectro de la secuencia ha perdido la información de la señal continua.

34


Para ejercitarse y experimentar con el teorema del muestreo se propone variar la frecuencia de muestreo de ficheros WAV. Estos registros se caracterizan por ser un formato digital de sonidos. El proyecto que se propone es abrir un fichero de audio y tomar sólo una muestra de cada n valores leídos. Posteriormente, el fichero será reproducido. Este experimento no sólo mostrará a través de su audición la pérdida de calidad sino también el espectro de la señal con el formato original y el submuestreado.

Proyecto 1.1

Hacer una aplicación que permita abrir ficheros tipo WAV y que elija una única muestra de cada n. Reproducir ambos sonidos, la del fichero original y la del fichero creado. Igualmente mostrar la evolución temporal de las secuencias y sus espectros. Este proyecto se ha resuelto con MATLAB v5.3 y con el toolbox de Signal Processing. Se ha creado una función que tiene como argumentos el camino del fichero

35


WAV y el valor de n. La función devuelve el path al fichero de salida creado, el cuál se ha generado del submuestro del fichero fuente.

En conclusión en este capítulo hemos visto las aplicaciones de las diferentes formas de tratamiento, su manipulación e interpretación de las señales además de sus propiedades, su respuesta en forma discreta así como su aprovechamiento en los sistemas de audio.En el siguiente capítulo se detallarán las formas de filtrado de las señales además de los tipos y aplicaciones de los filtros digitales, su respuesta y diseño de los mismos.

36


CAPITULO II

FILTROS DIGITALES

37


Introducción Filtros digitales

Los filtros digitales son una clase de sistemas discretos LTI utilizados para extraer características desde el dominio de la frecuencia sobre señales muestreadas. El diseño de los filtros requiere de las siguientes etapas: (1) especificaciones de las propiedades deseadas del sistema, (2) aproximaciones de las especificaciones mediante un sistema causal en tiempo discreto y (3) la realización del sistema. El primero es altamente dependiente de la aplicación y el tercero de la tecnología utilizada para la implementación.

En términos prácticos, el filtro deseado se realiza utilizando cómputo digital y se emplea para una señal que proviene de tiempo continuo seguido por una conversión analógico- digital.

Cuando se utiliza un filtro digital para realizar el tratamiento de señales en tiempo continuo, empleando una configuración como la indicada en la Figura 1. 11, tanto las especificaciones del filtro en tiempo discreto como las que se indica en tiempo continuo se suelen dar en el dominio de la frecuencia. Como se demostró en la sección anterior, si se usa un sistema LTI y si la entrada es de banda limitada y la frecuencia de muestreo es lo suficientemente alta para evitar el solapamiento, el sistema completo se comporta como un sistema LTI continuo en el tiempo cuya respuesta en frecuencia es:

( 2.45 )

Figura 2.1. Arquitectura del filtro digital

En estos casos es inmediato convertir las especificaciones del filtro efectivo de tiempo continuo, Gc(w), en especificaciones del filtro en tiempo discreto, Gd(w). La arquitectura presentada parece evidente que es más compleja y costosa que el uso de células Sallen-Key para implementar filtros analógicos. Sin embargo, los filtros digitales exhiben abrumadoras ventajas respecto a los sistemas de tiempo continuo, una enumeración de los beneficios puede enmarcarse dentro de la comparación entre estos dos tipos de filtros:

38


Respuesta dinámica: El ancho de banda del filtro digital está limitado por la frecuencia de muestreo, mientras que en los filtros analógicos con componentes activos suelen estar restringidos por los amplificadores operacionales.

Intervalo dinámico: En los filtros analógicos aparecen derivas que limitan por abajo el rango y se saturan con la alimentación. En cambio en los filtros digitales es fijado por el número de bits que representa la secuencia, y el límite inferior por el ruido de cuantificación y por los errores de redondeo.

Conmutabilidad: Si los parámetros de un filtro se conservan en registros, los contenidos de dichos registros pueden ser modificados a voluntad. De esta forma, estos filtros se pueden transformar, pudiéndose multiplexar en el tiempo para procesar varias señales de entradas a la vez.

Adaptabilidad: Un filtro digital puede ser implementado en soporte físico (hardware) o mediante un programa de ordenador (software).

Ausencia de problemas de componentes: Los parámetros de los filtros se representan por medio de números binarios y no derivan con el tiempo. Al no haber componentes, no hay problemas de tolerancia o deriva de componentes, y ningún otro problema asociado con un comportamiento no ideal de resistencias, condensadores, bobinas o amplificadores. Tampoco existen problemas de impedancia de entrada ni salida, ni efectos de adaptación de impedancias entre etapas.

Complejidad: la potencia de cálculo de los computadores actuales y de los algoritmos desarrollados, permiten implementar prestaciones casi imposibles de diseñar con filtros analógicos.

2.1 Clases de filtros digitales

Una distinción fundamental en los sistemas discretos dinámicos lineales e invariantes, y en particular en los filtros digitales, es la duración de la respuesta ante el impulso. Se habla de sistemas de respuesta de pulso finito o no recursivo (FIR, Finite Impulse Response) y de sistemas de respuesta infinita o recursivo (IIR, Infinite Impulse Response). Partiendo de la ecuación en diferencias que modela el comportamiento dinámico de estos sistemas:

39


( 2.46 )

en el caso de tener todos los coeficientes iguales a cero se tendrá un filtro FIR, con lo que quedará la ecuación reducida a:

( 2.47 )

siendo m el orden del filtro y tendrá una función de transferencia en z del tipo:

( 2.48 )

Obsérvese que en estos tipos de filtros cada valor de la secuencia de salida sólo dependerá de un número finito de valores de la secuencia de entrada. Además también se desprende la carencia de polos en la función de transferencia. Por contra, las expresiones de los filtros recursivos corresponden a:

( 2.49 ) Y su función de transferencia en z a:

( 2.50 )

En estos casos, la secuencia de salida depende tanto de la entrada como de la salida. De estas ecuaciones se deducen las siguientes propiedades. Primera, la secuencia de ponderación es infinita para los filtros IIR, aun teniendo un número finito de coeficientes. Mientras la respuesta al impulso de un filtro no recursivo es siempre finita e igual al orden del filtro. En segundo lugar, los filtros FIR prácticos son siempre estables, esto es, la secuencia de salida tiene todos sus valores acotados. No es el caso de los filtros recursivos, su estabilidad depende de la función de transferencia, por lo que habrá de utilizar alguno de los procedimientos algebraicos, como el de Jury, para analizar su estabilidad. Tercera, cualquier filtro recursivo puede ser reemplazado por otro no recursivo con infinitos coeficientes, sus valores vendrán dados por la secuencia de ponderación del IIR. La conclusión inversa no se cumple.

40


Figura 2. 1. a) Respuesta ante el impulso de un FIR b) Respuesta ante el impulso de un I IIR

2.2 Filtros de fase lineal o no dispersivos

Existen muchas aplicaciones del procesamiento de señales en las cuales las relaciones de fase son importantes y no deben ser perturbadas por el filtrado. Por ello se deben diseñar filtros de fase lineal. Éstos tienen como característica la introducción de un desfase en la respuesta en frecuencia de la secuencia de salida que sea proporcional a la frecuencia. A estos filtros se les llaman de fase lineal o no dispersivos.

Para justificar la importancia de los filtros de fase lineal, se propone realizar el siguiente experimento. Se toma una imagen digital, por ejemplo el pórtico de entrada de la Escuela, recuérdese que ésta es una secuencia bidimensional, y se calcula su transformada de Fourier discreta 2D. Del resultado se hace separar el módulo y el argumento de la transformación, para proceder por separado a la aplicación de la transformada inversa.

41


Figura 1. 13 a) Imagen de la EUITIM 256x256 píxeles b) Transformada inversa del argumento de la transformada

c) Transformada inversa del módulo de la transformada

Resultan obvias las conclusiones del experimento, el argumento lleva casi toda la información de la secuencia. Por lo tanto, si se desea transmitir sólo algunas de las propiedades de la secuencia sin distorsionarla habrá de diseñar filtros que no perturben la fase de la señal muestreada. Justificando de esta manera el énfasis puesto en los filtros de desfase nulo o lineal.

2.3 Causalidad y sus implicaciones

Los filtros digitales suelen ser caracterizados en términos de rangos de frecuencia, tanto de la banda pasante como de la supresora. Los cuatro tipos básicos de filtros supresores son ilustrados en la figura 1.14. Al ser éstos sistemas discretos, sus respuestas frecuenciales son periódicas con la frecuencia de Nyquist, N, por lo que sólo se considerará el intervalo [-N, N].

42


Figura 1. 14 Especificaciones de los filtros digitales a) Paso bajo b) Paso alto c) Pasa banda d) Rechazo de banda

En las figuras sólo se muestran la respuestas en frecuencias del módulo sin que aparezca el argumento. Sin embargo, como se acaba de comentarse (ver párrafo 2.2), es deseable que en la banda pasante no se introduzcan desfases o que sean de fase lineal. Con tal propósito se parte de la realización de un filtro con variación lineal del argumento respecto a la frecuencia, esto es, se tendrá que el desfase introducido es del tipo = - T, donde es una constante. El caso particular de desfase nulo será igual a cero. Luego si anteuna señal de entrada periódica con las condiciones de Fourier, ésta se separa en forma de sumas de sinusoides del tipo sen( kT), , cada una de ellas producirá una respuesta del tipo:

( 2.51 ) Por lo tanto, cada armónico de la señal de entrada estará desfasada - veces, de forma que se obtendrá en la salida una versión no distorsionada de la señal de entrada en elrango de frecuencias dependientes de la banda pasante. A razón de lo expuesto, el diseño de un filtro paso bajo deberá de cumplir con las condiciones mostradas en la figura 1.15. El módulo será constante en la banda pasante y nulo en la supresora, mientras el desfase tendrá que ser lineal con la frecuencia. Un posible modelo matemático que caracterice este tipo de respuesta correspondería a:

( 2.52 )

43


Figura 1. 15 Respuesta en frecuencia de un filtro paso bajo.

de manera que si se aplica la transformada inversa de Fourier, la secuencia de ponderación del filtro quedará como:

( 2.53 )

Desprendiéndose que el filtro paso bajo es no causal y por lo tanto no realizable físicamente.

Ejemplo 1.8

Obtener la secuencia de ponderación de un filtro paso bajo de desfase nulo y que la banda pasante sea un octavo de la frecuencia de muestreo.

Los datos del ejercicio supone que sea nulo y que la frecuencia de corte sea un ncuarto de la frecuencia de Nyquist c n/4 Al aplicar (1. 53) se obtendrá la secuencia de ponderación de este filtro digital:

44


( 2.54 )

cuyos valores serán:

Figura 1. 16 Respuesta impulsional con desfase nulo

La respuesta al impulso de la secuencia está representada en la figura 1.16. Dos aspectos destacan. Primero, el filtro no es causal, ya que para k<0 los valores de {gk} no son nulos, por lo que no pueden ser implementados en tiempo real.

En segundo lugar, la respuesta al impulso no es finita, esto significa que la respuesta del filtro tardaría infinito tiempo en calcularlo, incluso asumiendo que pudiera tener infinitos coeficientes. De estos aspectos, se concluye que la realización de un filtro ideal es imposible de realizar físicamente; habiendo de aceptar criterios de compromiso para el diseño.

Ejemplo

Si se trunca la respuesta al impulso se tendrá un filtro digital realizable físicamente, pero éste sólo será una aproximación al comportamiento ideal.

45


Ejemplo 1.9

Diseñar un filtro paso bajo FIR con una frecuencia de muestreo de 1.6 kHz, frecuencia de corte de 200 Hz y con igual a 5, sabiendo que el orden del filtro es 10.

De aplicar (1. 53) con las condiciones dadas en el ejercicio da los siguientes coeficientes:

y según (1. 56) su respuesta en frecuencia será:

( 2.55 )

Cuya respuesta en frecuencia y al impulso se encuentran representado en la figura 1.17.

Figura 1. 17 a) Respuesta en frecuencia b) Respuesta impulsional

46


Del ejemplo se muestra cómo el truncamiento del orden del filtro hace dejar de comportarse como filtro ideal, apareciendo tanto rizado en la banda pasante como en la supresora. A este efecto se le denomina fenómeno de Gibbs. También se desprende de la figura el carácter lineal del desfase.

Aunque esta discusión se limita a la realización de un filtro paso bajo, las conclusiones se mantienen en general para todos las filtros selectivos. En resumen, ninguno de los filtros mostrados previamente en la Figura 1.14 son causales y, por tanto, son físicamente irrealizable.

Una pregunta que aflora naturalmente en este punto es la siguiente: ¿ Cuáles son las condiciones suficientes y necesarias que debe satisfacer la respuesta frecuencial para que el filtro sea causal ?. La respuesta a esta pregunta viene dada por el teorema de Paley-Wiener. Del teorema se extraen varias conclusiones:

Los filtros causales tienen un módulo, que puede ser cero en algunas frecuencias, pero no puede ser cero sobre cualquier banda finita de frecuencias.

La amplitud de la banda pasante no puede ser constante en un rango finito de frecuencias y la transición de la banda de paso a la de rechazo no puede ser infinitamente abrupta ( esto es una consecuencia del fenómeno de Gibss, causado por el truncamiento de gk para lograr causalidad ).

La parte real e imaginaria de G(W) no son independientes y están relacionadas por la transformada de Hilbert discreta. En consecuencia, la magnitud y la fase de G(W) no se pueden elegir arbitrariamente.

Aunque las características de respuesta en frecuencia que poseen los filtros ideales son deseables, no son absolutamente necesarias en la mayoría de las aplicaciones prácticas. Si se relajan estas condiciones es posible realizar filtros causales que se aproximan a los

47


ideales con tanta precisión como se desee. En particular, no es necesario insistir en que la ganancia en la banda pasante sea constante. Se puede tolerar un pequeño rizado e igualmente se puede tolerar un valor pequeño distinto de cero en la banda de rechazo. La transición de la banda de paso a la supresora no será nula y existirá una banda de transición. En cualquier problema de diseño de filtros selectivos se podrá especificar: (1) el rizado de la banda pasante, 1, (2) el rizado tolerable de la banda de rechazo, 2 (3) la frecuencia de la banda de paso, B, y (4), la frecuencia de la banda supresora, S. . Basándose en estas especificaciones se seleccionarán los coeficientes ak y bk de la ecuació n en diferencias del sistema LTI, de la manera que mejor se aproxime a la respuesta en frecuencia deseada. El grado con el que G(W) se aproxime a las especificaciones depende del criterio usado en la determinación de los coeficientes así como del orden del polinomio de la FDT del sistema.

2.4 Diseño de filtros no recursivos (FIR)

Los filtros no recursivos tienen ventajas muy interesantes que les hacen ser ampliamente utilizados en múltiples aplicaciones. La característica más destacable es su facilidad de diseño para conseguir una respuesta en frecuencias de fase lineal. Los FIR son por su propia constitución estables, no habiendo problemas en su diseño o en su fase de implementación. Aunque el diseño de los FIR requiera de una gran cantidad de operaciones de sumas y multiplicaciones, tanto su estructura de programación como su realización en soporte físico resulta fácil y escalable.

En la práctica, los filtros FIR se emplean en problemas de filtrado donde hay un requisito de fase lineal dentro de la banda de paso del filtro. Si no existe este requisito se pueden emplear tanto filtros FIR como IIR. Sin embargo, como regla general, un filtro IIR tiene menos rizado y el corte es más abrupto que un FIR con el mismo grado de polinomio. Por esta razón, si se puede tolerar alguna distorsión de fase o ésta no es importante, se prefiere un IIR, principalmente porque su implementación involucra menos parámetros, requiere menos memoria y tiene menor complejidad computacional.

Básicamente hay dos métodos para el diseño de filtros no recursivos. El primero trata de definir la respuesta en frecuencia del filtro para luego determinar los coeficientes del filtro mediante la transformada inversa de Fourier; mientras que la segunda estrategia utiliza métodos de optimización capaz de ir modificando los coeficientes del filtro para aproximarlo a la respuesta en frecuencia deseada. Sólo se va a tratar el primer método.

48


2.4.1 Filtros FIR simétricos y antisimétricos

Un filtro FIR tiene fase lineal si su respuesta impulsional satisface la condición de simetría o antisimetría de sus coeficientes. Para su demostración se partirá de la respuesta en frecuencia de un filtro no recursivo que tenga un orden m. Además, para facilitar su comprensión se va a suponer que el filtro sea de orden par, definiéndose que m sea igual a 2N, por tanto, la respuesta en frecuencia de los filtros de orden par quedará como:

( 2.56 )

Si se imponen las condiciones de simetría o antisimetría:

( 2.57 )

El signo + indicará simetría en los coeficientes y el para la antisimetría. Suponiendo primero que existe simetría y agrupando alrededor de los coeficientes , la respuesta en frecuencia del filtro quedará como:

( 2.58 )

Observándose que el contenido de entre las llaves es real y que el desfase introducido por el filtro es -NT, siendo por tanto el argumento lineal con la frecuencia. De igual manera se actuará con los coeficientes antisimétricos, sin embargo, hay que destacar que si el filtro es de orden par el punto central de la antisemetría será nulo. Es fácil demostrar que la respuesta en frecuencia del un filtro FIR de orden par con una respuesta impulsional antisimétrica se puede expresar como:

( 2.59 )

49


La característica de fase del filtro será . Igualmente las expresiones de las respuestas en frecuencias para filtros de orden impar con simetría o antisimetría son sencillas de obtener, proponiendo al lector que lleve a las siguientes relaciones

( 2.60 )

Estas formulas de respuesta en frecuencia generales se pueden usar para diseñar filtros FIR de fase lineal con respuestas impulsionales simétricas y antisimétricas. Nótese que para un filtro simétrico, el número de coeficientes del filtro que especifican la respuesta es m/2 cuando m es par o ((m+1)/2)-1) si m es impar. Por otro lado, si la respuesta impulsional es antisimétrica y el orden es par, el punto central de la antisimetría será nulo y habrá m/2 coeficientes que lo definan, en caso de ser orden impar, cada coeficiente tiene un érmino emparejado de signo opuesto y estará definido por ((m+1)/2)- 1).

La elección de una respuesta impulsional simétrica o antisimétrica depende de la aplicación. Por ejemplo, si el filtro tiene antisimetría, G(W) tanto para bajas frecuencias como para frecuencias alrededor de la frecuencia de Nyquist tiene valores próximos a cero, por lo que no es posible utilizarlos ni para filtros paso bajos ni paso alto. Por otro lado, la condición de simetría produce un filtro FIR de fase lineal con una respuesta distinta de cero para bajas frecuencias. En resumen, el problema de diseño de filtros FIR es simplemente el del determinar m+1 coeficientes, a partir de las especificaciones en las frecuencias deseadas.

2.4.2 Diseño de filtros FIR de fase lineal usando ventanas

Hasta este momento se ha observado que la causalidad del filtro requiere del truncamiento de la respuesta impulsional, y la característica más destacable de los filtros FIR (fase lineal), hizo introducir la condición de simetría o antisimetría en los coeficientes

50


del FIR. Sin embargo, aunque el orden del filtro sea elevado y se impongan condiciones de simetría, los rizados tanto en la banda pasante como en la supresora se mantienen. Así, por ejemplo, en la figura 1.18 se muestra un filtro paso bajo de orden 51 con una frecuencia de corte normalizada de 0.4, evidenciando que aun siendo elevado el orden del filtro el efecto Gibbs se mantiene. Este fenómeno no desaparece con la longitud del filtro.

La causalidad del filtro obligo a definir un orden de filtro finito, de forma que una manera genérica de expresarla sería que la secuencia de ponderación del filtro ideal se multiplicase por una "ventana" de longitud finita, es decir,

( 2.61 )

siendo gk definida como (2. 53) y wk una función ventana, donde el truncamiento más simple estaría definido por:

( 2.62 )

tal que m marca el número de la secuencia de truncamiento y el orden del filtro. Además, a esta ventana y a otras que se verán más adelante se las impone la condición de simetría para hacer cumplir la característica de fase lineal.

Es instructivo considerar el efecto de la función ventana en la respuesta en frecuencia deseada. Recuérdese que la multiplicación de la función ventana con {gk} es equivalente a la convolución de G(W) con W (, donde W( es la transformada de Fourier de la función ventana. Así, la convolución de G(W) con W( produce la respuesta en frecuencia del filtro FIR (truncado). Esto es,

( 2.63 )

51


La transformada de Fourier de una ventana rectangular es:

( 2.64 )

La respuesta en magnitud de la función ventana se ilustra en la figura 1.19 para m=7. Nótese que W( para la ventana rectangular tiene fase lineal, evidente por el carácter de simetría de sus coeficientes.

Figura 1. 19. Modulo de la transformada de Fourier de una ventana rectangular

A medida que el orden del filtro crece, el ancho del lóbulo principal decrece. Esta característica se relaciona con la región de transición entre la banda pasante y la supresora, esto es, cuando se aumente el orden del filtro, el corte entre estas bandas será más abrupto. Para el caso de ventanas rectangulares los lóbulos laterales son altos y de hecho, a medida que m crece las amplitudes del pico del lóbulo principal y de los lóbulos secundarios crecen de forma que el área encerrada en cada lóbulo permanece constante mientras que su anchura decrece con m. Como el área del lóbulo permanece constante al crecer m, las oscilaciones ocurren más rápidamente, pero no disminuye su amplitud al aumentar m.

Por lo tanto, la respuesta en frecuencia del filtro FIR truncado, G’(w), será la convolución de la respuesta deseada, G(w), y de la transformada de Fourier de la ventana rectangular, tal cual fue recogido en (1. 63). Suponiendo el diseño de un filtro paso bajo con una frecuencia de corte Wc , la figura 1.20 muestra G(w) y W( , como se usaría en la ecuación referenciada.

52


Figura 1. 20. a) Convolución entre la respuesta ideal y la ventana rectangular. b) Resultado de la convolución.

El resultado no hace más que confirmar las conclusiones del teorema de Paley- Wiener (ver figura 1.20b). Se puede constatar la existencia de rizado tanto en la banda pasante como en la supresora y, además, no es posible el corte abrupto entre ambas banda. Sin embargo, la aplicación de ciertas funciones ventanas permiten suavizar estos inconvenientes no deseado. Para evitarlo existen varios tipos de funciones ventanas, así por ejemplo se tiene:

( 2.65 )

Donde para = 0.5 es llamada la ventana de von Hann y cuando = 0.54 es la denominada ventana de Hamming. La ventana de Blackman está definida por:

( 2.66 )

Para ilustrar las características de la respuesta en frecuencia de las ventanas de von Hann, Hamming y Blackman se muestran en la figura 2.21 un ejemplo. Se trata de comparar las respuestas frecuenciales de un filtro FIR truncado por una ventana rectangular y los resultados de aplicar estas funciones ventanas. El orden del filtro es 21 y la frecuencia de corte es un cuarto de la frecuencia de Nyquist.

53


Figura 1. 21

54


Todas estas funciones ventana tienen lóbulos laterales significativamente más bajos comparados con la ventana rectangular. Sin embargo, para el mismo valor del orden del filtro, el ancho del lóbulo principal es también más amplio para estas ventanas comparado con la ventana rectangular. Consecuentemente, estas funciones ventana proporcionan mayor suavizado a través de la operación de convolución en el dominio de la frecuencia, y como resultado la región de transición en la respuesta del filtro FIR es más amplia. Para reducir el ancho de esta región de transición se tendrá que elevar el valor de m, lo cual resulta un filtro más caro. La tabla 2.1 resumen estas importantes características del dominio de la frecuencia de las distintas funciones ventana.

Tabla 2. 1 Características frecuenciales más importantes de algunas funciones ventana

2.4.3 El método de diseño de filtros mediante la ventana de Kaiser.

El compromiso entre la anchura del lóbulo principal y el área de los lóbulos laterales se puede cuantificar buscando la función de ventana que esté concentrada de forma máxima alrededor de = 0 en el dominio de la frecuencia. Este asunto se ha considerado en profundidad durante largo tiempo. Entre 1966 a 1974, Kaiser descubrió que se puede formar una venta cuasi-óptima utilizando la función de Bessel modificada de primera especie. La ventana de Kaiser se define como:

( 2.67 )

55


donde es la función de Bessel de primera especie, definida por la serie:

( 2.68 )

A diferencia de las otras ventanas, la ventana de Kaiser tiene dos parámetros: el orden del filtro, m, y el parámetro de forma . Variando m y se puede ajustar la amplitud de los lóbulos laterales y el ancho del lóbulo principal. Se demuestras que si se aumenta el orden del filtro y se mantiene constante, la banda de transición disminuye manteniéndose la amplitud de los lóbulos laterales. De hecho, Kaiser obtuvo, mediante amplias experimentaciones numéricas, una pareja de fórmulas que permiten al diseñador de filtros predecir los valores del orden del filtro y del factor de formas necesarias para cumplir unas determinadas especificaciones en frecuencia. Además, también demostró que, sobre un intervalo suficientemente amplio de condiciones, el nivel de rizado , (ver figura 1.20), está determinado por la selección de . Supuesto fijo el nivel de rizado, la frecuencia de la banda del filtro paso bajo se define como la máxima frecuencia para la que

La frecuencia de la banda supresora, S, se define como la mínima

frecuencia para la que . Debido al carácter simétrico de los coeficientes resulta que 12De otro lado, la anchura normalizada de la región de transición es :

( 2.69 )

para la aproximación del filtro paso bajo. Definiendo

( 2.70 )

Kaiser determinó empíricamente que el valor de necesario para cumplir un valorespecífico de Amin está dado por:

( 2.71 )

56


Para el caso de que sea cero, la ventana es igual a la rectangular. Además, Kaiser descubrió que para cumplir unos valores específicos de Amin,n y m debe satisfacer:

( 2.72 )

la expresión permite predecir el valor de m con una precisión de ±2 para un amplio margen de valores de Amin,en . Por tanto, con estas fórmulas, el método de diseño basado en la ventana de Kaiser casi no requiere iteraciones de prueba y error.

Con el uso de las fórmulas de diseño de la ventana de Kaiser, es inmediato diseñar un filtro FIR paso bajo que cumpla unas determinadas especificaciones. El procedimiento de diseño sigue los siguientes pasos:

Se establece la respuesta de frecuencia deseada para un filtro paso bajo. Esto significa seleccionar los valores deseados de B, S y el rizado tolerable.

Hay que determinar la frecuencia de corte del filtro paso bajo ideal. Debido a la simetría de la aproximación en la discontinuidad de G(w), sería:

( 2.73 ) Si se elige una ventana de Kaiser se podrán calcular los parámetros del

orden del filtro y del factor de forma , utilizando los valores de y las expresiones (2. 71) y (2. 72). En caso contrario, esto es, si se utiliza ventanas de von Hann, Hamming, Blackman o rectangular habrá de ir iterando con el orden del filtro, pues no se puede determinar con ninguna expresión empírica la longitud del filtro. Como semilla para el orden del filtro se podría utilizar la ecuación de Kaiser para el orden del filtro (2. 73).

Una vez definida el orden del filtro se determinará la secuencia de ponderación del filtro ideal por medio de:

( 2.74 )

57


La respuesta al impulso del filtro se calcula multiplicando la secuencia del filtro ideal por la secuencia de la función ventana,

( 2.75 )

Por ultimo, si el filtro selectivo no es paso bajo se realiza la transformación al tipo de filtro deseado, haciendo uso de las indicaciones del cuadro 2.1

2.4.4 Transformaciones sobre los filtros

Aunque el método expuesto se ha centrado en los filtros paso bajo, también es posible diseñar los otros tipos de filtros selectivos, esto es, paso alto, pasa banda y rechazo de banda. Para ello se podría utilizar el mismo procedimiento que se vio anteriormente, pero en vez de aplicar la banda pasante a las bajas frecuencias se puede realizar para cualquier otra forma de banda pasante. Sin embargo, y de igual manera que ya se vio en el anterior capítulo sobre filtros analógicos, aquí también existen transformaciones de paso bajo a cualquiera de los otros tipos.

Así por ejemplo, si gk(PB) son los coeficientes de la respuesta al impulso de un filtropaso bajo con una frecuencia de corte ( C)PB y una frecuencia de Nyquist ,N, , entonces:

( 2.76 )

Siendo éstos los coeficientes de la respuesta al impulso del filtro paso alto con unafrecuencia de corte de:

( 2.77 )

La demostración de la validez de esta transformación es bastante sencilla y es comosigue:

( 2.78 )

58


Haciendo el cambio de variables en la primera integral de y en la segunda

de

( 2.79 )

Por tanto, el diseño del filtro paso alto con frecuencia corte pasa por un diseño inicial de filtro paso bajo con frecuencia de corte pasa y multiplicando el resultado por

Figura 1. 22 Cambio de variables de

Las relaciones entre paso bajo con pasa banda y rechazo de banda quedan recogidasen el cuadro resumen 2.1.

59


Cuadro 2. 1 Transformaciones de paso bajo a otro tipo de filtro

Ejemplo 2.10

Diseñar un filtro paso bajo con ventana de Kaiser si la frecuencia de banda es de 6kHz y 9kHz la frecuencia supresora, sabiendo que se admite un rizado en la banda pasante de 0.1 y en la supresora es de 0.01. La frecuencia de Nyquist es de 15kHz.

Como el método de diseño de la ventana implica que los rizados deben ser idénticos se elige el más restrictivo, esto es, se toma 2 = 0.01. Hay que determinar la frecuencia de corte del filtro paso bajo ideal, que debido a la simetría de la aproximación en la discontinuidad de la respuesta en frecuencia del ideal, sería:

( 2.80 )

Para determinar los parámetros de la ventana de Kaiser habrá de calcular

( 2.81 )

60


Al sustituir estos dos valores en las ecuaciones del orden del filtro y del factor de forma resulta,

( 2.82 )

Los coeficientes de la ventana de Kaiser estarán determinados y la secuencia de ponderación del filtro paso bajo ideal responderán a la ecuación:

61


Ejemplo 2.11

Construir un filtro paso banda con ventana de von Hann de orden 8 cuyas frecuencias de bandan sea de 10 kHz y 20 kHz, sabiendo que la frecuencia de muestreo es de 100 kHz.

Atendiendo al cuadro habrá de determinar cual es la frecuencia de corte del filtro paso bajo ideal. Por la simetría de la transformación la frecuencia central será de 15 kHz y la frecuencia del filtro paso bajo ideal de 5 kHz. La ventana de von Hann para m igual a 8 será,

La secuencia de ponderación del filtro paso bajo ideal para una frecuencia de corte de 5kHz estará dada por:

cuyos valores serán:

Al multiplicarlos por la ventana resultarán:

Ya se dispone del filtro paso bajo, por tanto, se procederá a convertirlo en pasa banda según la transformación que se vio en el cuadro:

resultando la secuencia de ponderación deseada:

62


2.5.1 Diseño de filtros recursivos (IIR)

El método tradicional de diseño de filtros IIR en tiempo discreto se basa en la transformación de un filtro analógico en un filtro digital que cumpla las especificaciones preestablecidas. Esta solución es razonable por varios motivos:

El arte del diseño de filtros IIR analógicos está muy avanzado, y como se pueden obtener resultados útiles, es ventajoso utilizar los procedimientos de diseño que ya se han desarrollado para los filtros en tiempo continuo.

Muchos métodos útiles de diseño de filtros IIR en tiempo continuo dan como resultado fórmulas de diseño simples en forma cerrada. Por tanto, los métodos de filtros IIR digitales que se basan en esas fórmulas estándar de diseño de filtros IIR continuos son fáciles de realizar.

El hecho de que los diseños de filtros en tiempo continuo se puedan trasladar a diseños de filtros digitales no quiere decir que tengan la misma respuesta frecuencial. Generalmente sucede que el filtro analógico empleado para la aproximación tiene una respuesta en frecuencia diferente de la respuesta en frecuencia efectiva del filtro digital. Esta circunstancia indica que al diseñar un filtro digital se parte de un conjunto de especificaciones en tiempo discreto; mientras las características del filtro en tiempo

63


continuo se obtienen de la transformación. Al realizar esta conversión se desea que la respuesta en frecuencia del filtro digital preserve las propiedades esenciales del filtro analógico. Esto implica concretamente que se espera que el eje imaginario del plano s se transforme en la circunferencia unidad del plano z. Una segunda condición es que un filtro estable analógico se debe de transformar en un filtro estable de tiempo discreto. Esto significa que si el filtro continuo tiene los polos en el semiplano negativos de s, el filtro digital tiene que tener los polos dentro del circulo unidad del plano z. Estas restricciones son básicas para las técnicas de diseño de los filtros digitales IIR.

2.5.1 Diseño de filtros IIR mediante transformadas bilineales

Los filtros recursivos pueden ser diseñados por varios métodos, siendo el más común el basado en las transformaciones bilineales. Este procedimiento requiere del conocimiento de la función de transferencia en el tiempo continuo del filtro a diseñar. Los coeficientes del filtro en el dominio s son transformados a uno equivalente en el dominio z. Los coeficientes de la discretización formarán el filtro IIR.

El origen de este proceder viene dado por la cantidad de experiencia acumulada en el diseño de filtros analógicos. Por tanto, todos los polinomios, tablas, métodos analíticos y gráficos para definir el filtro analógico, empleados en el anterior capítulo, serán usados en el diseño de los filtros recursivos.

Si bien hay varios métodos de discretización, la mayoría de ellos tienen problemas de solapamientos en frecuencias, por realizar una relación entre el plano s a z de varias regiones del dominio s a una sola z. Sin embargo, la transformación bilineal consigue una transformación unívoca entre el dominio s a z. Esta transformación se define como:

( 2.83 )

Y su relación inversa es del tipo:

( 2.84 )

y sustituyendo s=j a en la anterior expresión quedará:

( 2.85 )

64


Si 0 , entonces, de la (2. 85) se deduce que para cualquier valor de a. Del mismo modo, si para todo valor de a. Es decir, si los polos del filtro analógico están en el semiplano izquierdo de s, su imagen en el plano z está en el interior de la circunferencia unidad. Por tanto, los filtros en tiempo continuo causales y estables se transforman en filtros en tiempo discreto causales y estables. Seguidamente, para demostrar que el eje ja se transforma en la circunferencia unidad se procede a sustituir en la ecuación (2. 85), con lo que se obtiene:

con lo que se puede ver que el módulo de z es unitario para cualquier valor de . De hecho, para obtener la relación de sus respuestas en frecuencias se sustituye s por y z por con lo que queda después de operar que:

( 2.86 )

Las figuras 1.23 resumen las propiedades de la transformación bilineal.

Observando la ecuación (2. 86) y la figura 1.23 hay que notar cómo el intervalo de la

frecuencia digital se transforma en el intervalo de frecuencia analógica Las transformaciones bilineales evitan el problema de solapamiento entre s y

z, pero el precio que se paga es la compresión no lineal del eje de las frecuencias. Por consiguiente, el diseño de filtros en tiempo discreto mediante transformación bilineal sólo será útil cuando está compresión se tolera. Así, el uso de la transformación bilineal está limitado al diseño de aproximaciones a filtros con respuesta en amplitud constante a intervalos, como los filtros paso bajo, paso alto o pasa banda. Por otra parte, la distorsión del eje de la frecuencia también se manifiesta en una compresión de la respuesta de fase del filtro, esto es, si el filtro analógico es de fase lineal la transformación bilineal no conserva esta propiedad. Esta afirmación es más cierto sobre todo si la banda pasante se encuentra cerca de la frecuencia de Nyquist.

65


Figura 1. 23. a)Transformación bilineal del plano s a z, b)Transformación de la frecuencia digital a frecuencia analógica

El método de diseño de los filtros recursivos mediante transformadas bilineales comienza por especificar las características del filtro en el dominio de las frecuencias digitales . Estas especificaciones se pasarán al dominio de las frecuencias analógicas mediante la expresión (2. 86) y que permitirán obtener las frecuencias del filtro analógico:

( 2.87 )

A este proceso se le conoce el prewarping del filtro analógico. Seguidamente, mediante las soluciones ya tratadas en el anterior capítulo se obtendrá la función de transferencia del filtro analógico. Sólo restará convertir de s a z empleando (2. 84), consiguiendo G(z) del filtro digital. Para facilitar su desarrollo se expone un resumen del procedimiento a seguir:

1. Definir las características del filtro digital

2. Realizar la operación de prewarping de acuerdo con (1. 87) obteniendo las frecuencias analógicas

3. Diseñar el filtro analógico con las frecuencias definidas en el punto 2.

4. Reemplazar s en el filtro analógico por la expresión dada en (1. 84).

66


67


Para facilitar las transformaciones de s a z, se exponen en el cuadro 1.2 las relaciones existentes de filtros comunes de primer y segundo orden mediante la transformada bilineal.

Ejemplo 2.12

Diseñar un filtro digital paso bajo de Butterworth con una frecuencia de muestreo de 10 kHz, con un a frecuencia de corte de 1 kHz y, al menos, una atenuación de 10 dB a la frecuencia de 2 kHz.

En primer lugar se realizaría la operación de prewarping a las frecuencias de 1kHzy 2kHz, quedando a:

( 2.88 )

Aplicando la expresión matemática del orden de un filtro de Butterworth, visto en el anterior capitulo, queda n = 1.368 por lo que se debe de tomar el valor entero superior, esto es, orden del filtro 2. La función de transferencia en el dominio s será:

( 2.89 )

Utilizando las expresiones del cuadro de transformaciones de G(s) a G(z) para filtros paso bajo de segundo orden quedará:

( 2.90 )

La respuesta en frecuencia de G(z) es indicada en la figura 1.19

68


Figura 1. 24 Respuesta en frecuencia de G(z)

Es de destacar la aproximación de fase lineal en la zona de banda pasante.

Ejemplo 2.13

Diseñar un filtro paso alto digital de Chebychev con un nivel de atenuación de 40dB, selectividad del filtro de 0.25, ganancia de tensión unitaria y frecuencia de corte de 1kHz.

Las frecuencias analógicas tras el warping resultarán ser:

69


Aplicando las expresiones del anterior capítulo para determinar el orden del filtro sale que:

Tomando el polinomio de grado 3 de Chebychev para un rizado en la banda pasante de 1dB y pasándolo a filtro paso alto se obtendrá su FDT normalizado:

Trasladando a la frecuencia de la banda del filtro quedará:

Aplicando la transformación bilineal al sistema LTI de primer y segundo orden:

70


2.5.2 Implementación de los filtros digitales

Una vez calculada la FDT del filtro es posible su construcción. La ecuación en diferencias exige que estén disponibles los valores retrasados de la salida, de la entradas y de las secuencias intermedias. El retardo de los valores de la secuencia implica la necesidad de almacenar los valores pasados de la misma. Además, hay que proporcionar medios para multiplicar por los coeficientes los valores retrasados de la secuencia, así como para sumar los productos resultantes.

Hay dos formas de implementar los filtros digitales: mediante un programa de ordenador o bien por diseño en soporte físico. Para la ejecución en software se elaborará un algoritmo que necesitará almacenar los valores anteriores de la salida y de la entrada y realizar los productos y las sumas correspondientes. En el caso de utilizar lenguajes de alto nivel, se suele usar aritmética de punto flotante, con el objeto de evitar los efectos asociados de la cuantificación con la aritmética de punto fijo, ya que pueden conducir a la inestabilidad y a cambios significativos en la función de transferencia, tal como se verá más adelante (ver párrafo 2.6).

Si se usa Electrónica Digital, los elementos básicos necesarios para la realización de un filtro digital son sumadores, multiplicadores y memoria para almacenar los valores retrasados de la secuencia. La interconexión de estos elementos básicos se representan de

71


forma conveniente utilizando diagramas de bloques con los símbolos básicos que se muestran en la figura 1.25.

Figura 1. 25. Símbolos del diagrama de bloques: a) suma de dos secuencias, b) multiplicación de una secuencia por una constante, c) Retardo unidad

En la notación general de diagramas de los bloques, un sumador puede tener cualquier número de entradas. Sin embargo, en casi todas las realizaciones prácticas, los sumadores tienen dos entradas. En los diagramas que aquí se exponen esto se indica de forma explícita. En las realizaciones digitales la operación de retardo se puede hacer utilizando un registro de almacenamiento por cada unidad de retardo que se necesite. Si la realización utiliza circuitos integrados, los retardos podrían hacerse empleando un registro de desplazamiento temporizado con la frecuencia de muestreo de la señal de entrada. En una realización software, los retardos en cascada se realizarán con registros de memoria consecutiva.

La realización sistemática en cualquiera de estos dos medios, SW o HW, se ve considerablemente facilitada representando el filtro en diagrama de bloques. Partiendo de las ecuaciones en diferencias del filtro:

( 2.91 )

esta expresión se puede representar por el diagrama de la figura 1.26. Al utilizar sólo sumadores con dos entradas, las sumas se realizan en un orden específico. Es decir, la figura 1.26 indica que deben calcularse los productos , sumarlos posteriormente y la suma resultante añadírsela , y así sucesivamente. Tras calcular yk, las variables de retardo se deben actualizar introduciendo yk-(n+-1) en el registro que tiene yk-n, y así sucesivamente.

72


Figura 1. 26 Representación genérica de los filtros a partir de la ecuación en diferencias

Los diagramas de bloques se pueden reestructurar o modificar de diversas maneras sin cambiar la función de transferencia global. Cada reestructuración representa un algoritmo computacional diferente para realizar el mismo sistema. Una forma más adecuada de implementación se basa en la estructura en serie obtenida por la factorización en sistemas de segundo orden de la función de transferencia del filtro:

( 2.92 ) La figura 1.27 muestra un diagrama de bloques de un filtro IIR implementado con cascadas de segundo orden. Esta realización tiene cuatro sumas, cuatro multiplicaciones y dos retardos por cada sección de segundo orden. Esta forma de implementación resulta la más efectiva para un rango variado de procesadores de propósito general así como de procesadores específicos DSP.

Figura 1. 27 Filtro IIR en cascada

73


Una realización en cascada se denomina comúnmente implementación en forma canónica. La realización del diagrama de bloques en forma no canónica que muestra la figura 1.26 se denomina implementación en forma directa.

Ejemplo 1.14

Sea un filtro cuya ecuación en diferencias es,

obtener el diagrama a bloques de la forma canónica y en forma directa.

Como se requiere de una factorización de sistemas de segundo orden de la función de transferencia del filtro, se aplica la transformada en z a la ecuación en diferencias, resultando:

Las figuras adjuntas muestran la forma directa y canónica respectivamente.

Figura 1. 28. Estructuras de implementación, a) Forma directa, b) Forma canónica

74


2.6 Efectos de la cuantificación en los filtros

Hasta el momento, en el estudio de los filtros digitales, se ha supuesto que tanto las variables como los coeficientes de los filtros pueden tomar cualquier valor; ahora bien, la realización de estos sistemas se efectúa con dispositivos digitales de cálculo, es decir con computadores, en los que tanto el almacenamiento como la medida de las señales se realiza con números finitos de dígitos. La operación de transformación de los valores de variables y constantes, con un número infinito de cifras, a un número concreto de bits se denomina cuantificación. Este proceso, imprescindible en el tratamiento de información con computador, produce errores que en este último punto se van a analizar y acotar.

En la implantación de los filtros digitales aparecen tres procesos de cuantificación:

1. Cuantificación de la señal de entrada

2. Cuantificación de los coeficientes de los filtros

3. Errores en el redondeo de las operaciones

2.6.1 Efectos de truncamiento y redondeo

En el análisis de error de cuantificación, hay que tener en cuenta la forma de representación de los valores en el computador, según se haga en coma fija o en coma flotante, y, asimismo, también tendrá influencia la forma de realizar el paso de un número cualquiera, equivalente a infinitos dígitos, a un número finito de dígitos, según sea por truncamiento o por redondeo.

En general la representación de los números en computadores se realiza en base 2, es decir en representación binaria, por dos métodos distintos: en coma fija, donde se utiliza un número determinado de dígitos para la parte entera y otra para la parte decimal, por ejemplo 4 y 6:

( 2.93 )

o en coma flotante, donde la representación es de la forma:

( 2.94 )

75


donde M, mantisa, es un número que verifica:

( 2.95 )

y c, exponente, es un número entero, positivo o negativo; ambos, M y c, se representan por un número fijo de bits.

La forma de representación de los números negativos tiene su importancia según se haga por signo y magnitud, por complemento a dos o por complemento a uno.

Tanto en coma fija como flotante se va a considerar que la parte fraccionaria o mantisa tiene b bits, entonces los números se representan en saltos de , es decir la mínima diferencia entre dos representaciones distintas es de

Dado un número de infinitos dígitos, se entiende por truncamiento del mismo la operación de tomar los b primeros bits más significativos, despreciando el resto, mientras que su redondeo es tomar la representación del valor más próximo al mismo.

En la figura 1.29 a) se representan los valores de la señal cuantificada Q(x) en función de los posibles valores de x para el caso de representación por redondeo y coma fija. Como se puede observar en la misma, el error en dicha cuantificación es:

( 2.96 )

Figura 1. 29 Técnicas de redondeo a) Cuantificación b) Error

76


En valor absoluto, el error será, como máximo, de medio salto, es decir:

( 2.97 )

El caso de truncamiento y coma fija, utilizando el complemento a 2 para los negativos, viene representado en la figura 1.23, donde el error está acotado entre los valores:

( 2.98 )

Figura 1. 30 Técnicas de truncamiento a) Cuantificación b) Error

2.6.2 Cuantificación de señales

En la conversión analógica/digital de una señal para su tratamiento con computadorademás del proceso de muestreo hay que tener en cuenta el de cuantificación, efecto éste debido a la limitación del número de cifras de los registros en los que se almacenan sus valores.

Para el estudio del efecto que esta cuantificación de los elementos de la secuencia de entrada produce sobre los de la secuencia de salida de un filtro digital, se va a suponer, en primer lugar, como la forma más usual de trabajo de los convertidores A/D, la coma fija con b+1 bits, b la parte fraccionaria y 1 de signo, utilizando técnicas de redondeo. Se considera igualmente la señal normalizada a 1, es decir:

( 2.99 )

77


Una representación equivalente al proceso de cuantificación es la derivada de considerar, según se indica en la figura 1.30b), su efecto como una secuencia de valores aleatorios añadidos a la original.

( 2.100 )

Donde {ek} es una secuencia denominada frecuentemente ruido cuyos elementos verifican:

( 2.101 )

El proceso de redondeo se caracteriza por una distribución estadística, tal que la secuencia {ek} se define como una variable aleatoria con una función de densidad uniforme, entre , que se representa en la figura 1.31.

Figura 1. 31 Función de densidad del error por redondeo

Los parámetros estadísticos de la media y la varianza de la misma son:

( 2.102 )

El valor que da una idea de la magnitud del error es su varianza. Ésta se suele referir a la amplitud de los valores de la secuencia a cuantificar xk. Con el fin de comparar parámetros equivalentes se define sobre la secuencia {xk} su varianza:

( 2.103 )

78


con N igual al número de elementos cuantificados en el proceso en curso de estudio. La medida de error de cuantificación, representada por SNR (Signal to Noise Ratio), se define como el cociente entre ambas desviaciones típicas:

( 2.104 )

Como se ve en la expresión el índice SNR aumenta con cada incremento en el número de bits que se use para la representación de la señal.

2.6.3 Cuantificación de los coeficientes

Igual que ocurre con los valores de las muestras de la señal, en el proceso de realización de un filtro, los parámetros que lo definen sufren una cuantificación que puede afectar, en algunas ocasiones considerablemente, a las prestaciones del sistema.

Para abordar este problema es necesario centrarse en la ecuación característica del filtro y estudiar como varían sus raíces ante las variaciones en sus coeficientes. Por ejemplo, si un sistema tiene una ecuación en diferencias estimadas:

( 2.105 )

donde a es el coeficiente que sufre un error de cuantificación, a, ésta tendrá por ecuación característica:

( 2.106 )

en la que es claro que, si se quiere situar un polo en z = 0.995, será necesario almacenar el valor de a con tres cifras decimales ya que la variación máxima de este parámetro, a, admisible para garantizar la estabilidad es 0.005.

En general este problema se podrá resolver con un análisis de sensibilidad de las raíces de la ecuación característica a los parámetros de la misma.

Las consecuencias prácticas de la cuantificación de los coeficientes son:

Los filtros con poco ancho de banda son muy sensibles a la cuantificación. Este efecto se deriva por tener polos muy cerca de z = 1.

El sobremuestreo (oversampling) incrementa la sensibilidad a la cuantificación.

L estructura física del filtro influye mucho.

79


2.6.4 Cuantificación de resultados de operaciones

A efectos de cuantificación, la operación de mayor interés es la multiplicación ya que el resultado de ésta ocupa el doble de números de cifras que de los factores, por lo que para almacenarlo o realizar otras operaciones habrá que reducir el número de sus cifras.

Este error de cuantificación aparece en cada iteración de la ecuación en diferencias con lo que su efecto se puede estudiar como una secuencia de números aleatorios independientes sumados a la secuencia de salida de los bloques en los que se realizan multiplicaciones. Por ello, la importancia de este error dependerá fuertemente de la estructura elegida para la implementación del filtro.

Utilizando el esquema típico de la construcción de un filtro, según se indicó en la figura 1.27, y siguiendo las propiedades estadísticas enunciadas sobre el error de cuantificación, los ruidos son aditivos, pudiéndose reemplazar por unos cuyos elementos representativos valgan:

( 2.107 )

Si cada uno de los ruidos considerados tiene iguales propiedades estadísticas, dadas en (2. 102), las del total, suma de los referidos, serán:

( 2.108 )

indicando que a medida de que se aumente el orden del filtro mayor será el incremento del error cometido por redondeo en las multiplicaciones.

Pues con esto se ha concluido el capitulo 2 en el cual observamos y obtuvimos la descripción detallada de los tipos de filtros digitales así como su diseño en forma matemática. A continuación en el capítulo tres se darán a conocer los aspectos concernientes a las redes neuronales para que posteriormente se introduzca el tema de las señales digitales aplicadas a las redes neuronales.

80


CAPITULO III

LAS REDES NEURONALES

81


3. Introducción a las redes neuronales.

El hombre se ha caracterizado siempre por su búsqueda constante de nuevas vías para mejorar sus condiciones de vida. Estos esfuerzos le han servido para reducir el trabajo en aquellas operaciones en las que la fuerza juega un papel primordial. Los Progresos obtenidos han permitido dirigir estos esfuerzos a otros campos, como por Ejemplo, a la construcción de máquinas calculadoras que ayuden a resolver de forma automática y rápida determinadas operaciones que resultan tediosas cuando se realizan a mano. Uno de los primeros en acometer esta empresa fue Charles Babbage, quien trató infructuosamente de construir una máquina capaz de resolver problemas matemáticos Posteriormente otros tantos intentaron construir máquinas similares, pero no fue hasta la Segunda Guerra Mundial, cuando ya se disponía de instrumentos electrónicos, que se empezaron a recoger los primeros frutos. En 1946 se construyó la primera computadora electrónica, ENIAC. Desde entonces los desarrollos en este campo han tenido un auge espectacular. Estas máquinas permiten implementar fácilmente algoritmos para resolver multitud de problemas que antes resultaban engorrosos de resolver. Sin embargo, se observa una limitación importante: ¿qué ocurre cuando el problema que se quiere resolver no admite un tratamiento algorítmico, como es el caso, por ejemplo, de la clasificación de objetos por rasgos comunes? Este ejemplo demuestra que la construcción de nuevas máquinas más versátiles requiere un enfoque del problema desde otro punto de vista. Los desarrollos actuales de los científicos se dirigen al estudio de las capacidades humanas como una fuente de nuevas ideas para el diseño de las nuevas máquinas. Así, la inteligencia artificial es un intento por descubrir y describir aspectos de la inteligencia humana que pueden ser simulados mediante máquinas. Esta disciplina se ha desarrollado fuertemente en los últimos años teniendo aplicación en algunos campos como visión artificial, demostración de teoremas, procesamiento de información expresada mediante lenguajes humanos... etc. Las redes neuronales son más que otra forma de emular ciertas características propias de los humanos, como la capacidad de memorizar y de asociar hechos. Si se examinan con atención aquellos problemas que no pueden expresarse a través de un algoritmo, se observará que todos ellos tienen una característica en común: la experiencia. El hombre es capaz de resolver estas situaciones acudiendo a la experiencia acumulada. Así, parece claro que una forma de aproximarse al problema consista en la construcción de sistemas que sean capaces de reproducir esta característica humana. En definitiva, las redes neuronales no son más que un modelo artificial y simplificado del cerebro humano, que es el ejemplo más perfecto del que disponemos para un sistema que es capaz de adquirir conocimiento a través de la experiencia. Una red neuronal es

82


“un nuevo sistema para el tratamiento de la información, cuya unidad básica de procesamiento está inspirada en la célula fundamental del sistema nervioso humano: la neurona”.

Todos los procesos del cuerpo humano se relacionan en alguna u otra forma con la (in)actividad de estas neuronas. Las mismas son un componente relativamente simple del ser humano, pero cuando millares de ellas se conectan en forma conjunta se hacen muy poderosas. Lo que básicamente ocurre en una neurona biológica es lo siguiente: la neuronaes estimulada o excitada a través de sus entradas (inputs) y cuando se alcanza un cierto umbral, la neurona se dispara o activa, pasando una señal hacia el axon. Posteriores investigaciones condujeron al descubrimiento de que estos procesos son el resultado de eventos electroquímicos. Como ya se sabe, el pensamiento tiene lugar en el cerebro, que consta de billones de neuronas interconectadas. Así, el secreto de la “inteligencia” -sin importar como se defina- se sitúa dentro de estas neuronas interconectadas y de su interacción. También, es bien conocido que los humanos son capaces de aprender. Aprendizaje significa que aquellos problemas que inicialmente no pueden resolverse, pueden ser resueltos después de obtener más información acerca del problema. Por lo tanto, las Redes Neuronales...

_ Consisten de unidades de procesamiento que intercambian datos e información._ Se utilizan para reconocer patrones, incluyendo imágenes, manuscritos y secuencias de tiempo (por ejemplo: tendencias financieras)._ Tienen capacidad de aprender y mejorar su funcionamiento.

Una primera clasificación de los modelos de redes neuronales podría ser, atendiendo a su similitud con la realidad biológica:

1) El modelo de tipo biológico. Este comprende las redes que tratan de simular los sistemas neuronales biológicos, así como las funciones auditivas o algunas funciones básicas de la visión.2) El modelo dirigido a aplicación. Este modelo no tiene por qué guardar similitud con los sistemas biológicos. Su arquitectura está fuertemente ligada a las necesidades de las aplicaciones para la que es diseñada.

3.1 Historia de las redes neuronales.

1936 - Alan Turing. Fue el primero en estudiar el cerebro como una forma de ver el mundo de la computación. Sin embargo, los primeros teóricos que concibieron los fundamentos de la computación neuronal fueron Warren McCulloch, un neurofisiólogo, y Walter Pitts, un matemático, quienes, en 1943, lanzaron una teoría acerca de la forma

83


de trabajar de las neuronas (Un Cálculo Lógico de la Inminente Idea de la Actividad una red neuronal simple mediante circuitos eléctricos.1949 - Donald Hebb. Fue el primero en explicar los procesos del aprendizaje (que es el elemento básico de la inteligencia humana) desde un punto de vista psicológico, desarrollando una regla de como el aprendizaje ocurría. Aun hoy, este es el fundamento de la mayoría de las funciones de aprendizaje que pueden hallarse en una red neuronal. Su idea fue que el aprendizaje ocurría cuando ciertos cambios en una neurona eran activados. También intentó encontrar semejanzas entre el aprendizaje y la actividad nerviosa. Los trabajos de Hebb formaron las bases de la Teoría de las Redes Neuronales. 1950 - Karl Lashley. En sus series de ensayos, encontró que la información no era almacenada en forma centralizada en el cerebro sino que era distribuida encima de él. 1956 - Congreso de Dartmouth. Este Congreso frecuentemente se menciona para indicar el nacimiento de la inteligencia artificial. 1957 - Frank Rosenblatt. Comenzó el desarrollo del Perceptron. Esta es la red neuronal más antigua; utilizándose hoy en día para aplicación como identificador de patrones. Este modelo era capaz de generalizar, es decir, después de haber aprendidouna serie de patrones podía reconocer otros similares, aunque no se le hubiesen presentado en el entrenamiento. Sin embargo, tenía una serie de limitaciones, por ejemplo, su incapacidad para resolver el problema de la función OR-exclusiva y, en general, era incapaz de clasificar clases no separables linealmente. 1959 - Frank Rosenblatt: Principios de Neurodinámica. En este libro confirmó que, bajo ciertas condiciones, el aprendizaje del Perceptron convergía hacia un estado finito (Teorema de Convergencia del Perceptron).

1960 - Bernard Widroff/Marcian Hoff. Desarrollaron el modelo Adaline (ADAptative LINear Elements). Esta fue la primera red neuronal aplicada a un problema real (filtros adaptativos para eliminar ecos en las líneas telefónicas) que se ha utilizado comercialmente durante varias décadas.

1961 - Karl Steinbeck: Die Lernmatrix. Red neuronal para simples realizacionestécnicas (memoria asociativa).

1969 - Marvin Minsky/Seymour Papert. En este año casi se produjo la “muerte abrupta” de las Redes Neuronales; ya que Minsky y Papert probaron (matemáticamente) que el Perceptrons no era capaz de resolver problemas relativamente fáciles, tales como el aprendizaje de una función no-lineal. Esto demostró que el Perceptron era muy débil, dado que las funciones no-lineales son extensamente empleadas en computación y en los problemas del mundo real.

84


1974 - Paul Werbos. Desarrolló la idea básica del algoritmo de aprendizaje depropagación hacia atrás (backpropagation); cuyo significado quedó definitivamenteaclarado en 1985.

1977 - Stephen Grossberg: Teoría de Resonancia Adaptada (TRA). La Teoría de Resonancia Adaptada es una arquitectura de red que se diferencia de todas las demás previamente inventadas. La misma simula otras habilidades del cerebro: memoria a largo y corto plazo.

1985 - John Hopfield. Provocó el renacimiento de las redes neuronales con su libro: “Computación neuronal de decisiones en problemas de optimización.”

1986 - David Rumelhart/G. Hinton. Redescubrieron el algoritmo de aprendizajede propagación hacia atrás (backpropagation).

A partir de 1986, el panorama fue alentador con respecto a las investigaciones y el desarrollo de las redes neuronales. En la actualidad, son numerosos los trabajos que se realizan y publican cada año, las aplicaciones nuevas que surgen (sobretodo en el área de control) y las empresas que lanzan al mercado productos nuevos, tanto hardware como software (sobre todo para simulación).

3.2 Generalidades.3.2.1Definiciones de una red neuronal.

Existen numerosas formas de definir a las redes neuronales; desde las definiciones cortas y genéricas hasta las que intentan explicar más detalladamente qué son las redes neuronales.

Por ejemplo:

1) Una nueva forma de computación, inspirada en modelos biológicos.

85


2) Un modelo matemático compuesto por un gran número de elementos procesales organizados en niveles.

3).un sistema de computación compuesto por un gran número de elementos simples, elementos de procesos muy interconectados, los cuales procesan información por medio de su estado dinámico como respuesta a entradas externas. 4) Redes neuronales artificiales son redes interconectadas masivamente en paralelo de elementos simples (usualmente adaptativos) y c on organización jerárquica, las cuales intentan interactuar con los objetos del mundo real del mismo modo que lo hace el sistema nervioso biológico.

3.2.2 Ventajas que ofrecen las red neuronal.

Debido a su constitución y a sus fundamentos, las redes neuronales artificiales presentan un gran número de características semejantes a las del cerebro. Por ejemplo, son capaces de aprender de la experiencia, de generalizar de casos anteriores a nuevos casos, de abstraer características esenciales a partir de entradas que representan información irrelevante, etc. Esto hace que ofrezcan numerosas ventajas y que este tipo de tecnología se esté aplicando en múltiples áreas. Entre las ventajas se incluyen:

Aprendizaje Adaptativo. Capacidad de aprender a realizar tareas basadas en un entrenamiento o en una experiencia inicial.

Auto-organización. Una red neuronal puede crear su propia organización o representación de la información que recibe mediante una etapa de aprendizaje. _ Tolerancia a fallos.

La destrucción parcial de una red conduce a unadegradación de su estructura; sin embargo, algunas capacidades de la red se pueden retener, incluso sufriendo un gran daño.

Operación en tiempo real. Los cómputos neuronales pueden ser realizados en paralelo; para esto se diseñan y fabrican máquinas con hardware especial para obtener esta capacidad.

Fácil inserción dentro de la tecnología existente. Se pueden obtener chips especializados para redes neuronales que mejoran su capacidad en ciertas tareas. Ello facilitará la integración modular en los sistemas existentes.

3.2.2.1 Aprendizaje adaptativo.

86


La capacidad de aprendizaje adaptativo es una de las características más atractivas de redes neuronales. Esto es, aprenden a llevar a cabo ciertas tareas mediante un entrenamiento con ejemplos ilustrativos.

Como las redes neuronales pueden aprender a diferenciar patrones mediante ejemplos y entrenamientos, no es necesario elaborar modelos a priori ni necesidad de especificar funciones de distribución de probabilidad.

Las redes neuronales son sistemas dinámicos autoadaptativos. Son adaptables debido a la capacidad de autoajuste de los elementos procesales (neuronas) que componen el sistema. Son dinámicos, pues son capaces de estar constantemente cambiando para adaptarse a las nuevas condiciones.

En el proceso de aprendizaje, los enlaces ponderados de las neuronas se ajustan de manera que se obtengan ciertos resultados específicos. Una red neuronal no necesita un algoritmo para resolver un problema, ya que ella puede generar su propia distribución de pesos en los enlaces mediante el aprendizaje. También existen redes que continúan aprendiendo a lo largo de su vida, después de completado su período de entrenamiento.

La función del diseñador es únicamente la obtención de la arquitectura apropiada. No es problema del diseñador el cómo la red aprenderá a discriminar. Sin embargo, sí es necesario que desarrolle un buen algoritmo de aprendizaje que le proporcione a la red la capacidad de discriminar, mediante un entrenamiento con patrones.

3.2.2.2 Auto-organización.

Las redes neuronales emplean su capacidad de aprendizaje adaptativo para autoorganizar la información que reciben durante el aprendizaje y/o la operación. Mientras que el aprendizaje es la modificación de cada elemento procesal, la autoorganización consiste en la modificación de la red neuronal completa para llevar a cabo un objetivo específico. Cuando las redes neuronales se usan para reconocer ciertas clases de patrones, ellas autoorganizan la información usada. Por ejemplo, la red llamada backpropagation, creará su propia representación característica, mediante la cual puede reconocer ciertos patrones.Esta autoorganización provoca la generalización: facultad de las redes neuronales de responder apropiadamente cuando se les presentan datos o situaciones a las que no había sido expuesta anteriormente. El sistema puede generalizar la entrada para obtener una respuesta. Esta característica es muy importante cuando se tiene que solucionar problemas en los cuales la información de entrada no es muy clara;

87


además permite que el sistema dé una solución, incluso cuando la información de entrada está especificada de forma incompleta.

3.2.2.3 Tolerancia a fallos.

Las redes neuronales fueron los primeros métodos computacionales con la capacidad inherente de tolerancia a fallos. Comparados con los sistemas computacionales tradicionales, los cuales pierden su funcionalidad cuando sufren un pequeño error de memoria, en las redes neuronales, si se produce un fallo en un número no muy grande de neuronas y aunque el comportamiento del sistema se ve influenciado, no sufre una caída repentina.

Hay dos aspectos distintos respecto a la tolerancia a fallos:

a) Las redes pueden aprender a reconocer patrones con ruido, distorsionados o incompletos. Esta es una tolerancia a fallos respecto a los datos.

b) Las redes pueden seguir realizando su función (con cierta degradación) aunque se destruya parte de la red.

La razón por la que las redes neuronales son tolerantes a los fallos es que tienen su información distribuida en las conexiones entre neuronas, existiendo cierto grado de redundancia en este tipo de almacenamiento. La mayoría de los ordenadores , y se generará un patrón de salida que represente la información almacenada.

3.2.2.4 Operación en tiempo real.

Una de las mayores prioridades, casi en la totalidad de las áreas de aplicación, es la necesidad de realizar procesos con datos de forma muy rápida. Las redes neuronales se adaptan bien a esto debido a su implementación paralela. Para que la mayoría de las redes puedan operar en un entorno de tiempo real, la necesidad de cambio en los pesos de las conexiones o entrenamiento es mínimo.

3.2.2.5 Fácil inserción dentro de la tecnología existente.

Una red individual puede ser entrenada para desarrollar una única y bien definida tarea (tareas complejas, que hagan múltiples selecciones de patrones, requerirán sistemas de redes interconectadas). Con las herramientas computacionales existentes (no del tipo PC), una red puede ser rápidamente entrenada, comprobada, verificada y trasladada

88


a una implementación hardware de bajo coste. Por lo tanto, no se presentan dificultades para la inserción de redes neuronales en aplicaciones específicas, por ejemplo de control, dentro de los sistemas existentes. De esta manera, las redes neuronales se pueden utilizar para mejorar sistemas en forma incremental y cada paso puede ser evaluado antes de acometer un desarrollo más amplio.

3.3 Redes neuronales y computadoras digitales.

Para entender el potencial de la computación neuronal, sería necesario hacer una breve distinción entre sistemas de computación neuronales y digitales: los sistemas neurológicos no aplican principios de circuitos lógicos o digitales. Un sistema de computación digital debe ser síncrono o asíncrono. Si fuera asíncrono, la duración de los impulsos neuronales debería ser variable para mantener uno de los valores binarios por periodos de tiempo indefinido, lo cual no es el caso. Si el principio fuera síncrono, se necesitaría un reloj global o maestro con el cual los pulsos estén sincronizados. Éste tampoco es el caso. Las neuronas no pueden ser circuitos de umbral lógico, porque hay miles de entradas variables en la mayoría de las neuronas y el umbral es variable con el tiempo, siendo afectado por la estimulación, atenuación, etc. La precisión y estabilidad de tales circuitos no es suficiente para definir ninguna función booleana. Los procesos colectivos que son importantes en computación neuronal no pueden implementarse por computación digital. Por todo ello, el cerebro debe ser un computador analógico. Ni las neuronas ni las sinapsis son elementos de memoria biestable. Todos los hechos fisiológicos hablan a favor de las acciones de las neuronas como integradores analógicos, y la eficiencia de la sinapsis cambia de forma gradual, lo cual no es característico de sistemas biestables. Los circuitos del cerebro no implementan computación recursiva y por lo tanto no son algorítmicos. Debido a los problemas de estabilidad, los circuitos neuronales no son suficientemente estables para definiciones recursivas de funciones como en computación digital. Un algoritmo, por definición, define una función recursiva.

89


3.4. Conceptos Básicos.3.4.1 Elementos básicos que componen una red neuronal.

A continuación se puede ver, en la Figura 4.1, un esquema de una red neuronal:

Figura 3.1: ejemplo de una red neuronal totalmente conectada.

La misma está constituida por neuronas interconectadas y arregladas en tres capas (esto último puede variar). Los datos ingresan por medio de la “capa de entrada”, pasan a través de la “capa oculta” y salen por la “capa de salida”. Cabe mencionar que la capa oculta puede estar constituida por varias capas.

90


Antes de comenzar el estudio sobre las redes neuronales, se debe aprender algo sobre las neuronas y de cómo ellas son utilizadas por una red neuronal. En la Figura 4.2 se compara una neurona biológica con una neurona artificial. En la misma se pueden observar las similitudes entre ambas (tienen entradas, utilizan pesos y generan salidas).

Figura 3.2: comparación entre una neurona biológica (izquierda) y una artificial (derecha).

Mientras una neurona es muy pequeña en sí misma, cuando se combinan cientos, miles o millones de ellas pueden resolver problemas muy complejos. Por ejemplo el cerebro humano se compone de billones de tales neuronas.

3.4.2 Función de entrada ( input function ).

La neurona trata a muchos valores de entrada como si fueran uno solo; esto recibe el nombre de entrada global. Por lo tanto, ahora nos enfrentamos al problema de cómo se pueden combinar estas simples entradas (ini1, ini2, ...) dentro de la entrada global, gini. Esto se logra a través de la función de entrada, la cual se calcula a partir del vector entrada. La función de entrada puede describirse como sigue:

inputi = (ini1 wi1)* (ini2 wi2)*... (inin win)

donde: * representa al operador apropiado (por ejemplo: máximo, sumatoria, productoria, etc.), n al número de entradas a la neurona Ni y wi al peso.

Los valores de entrada se multiplican por los pesos anteriormente ingresados a la neurona. Por consiguiente, los pesos que generalmente no están restringidos cambian la medida de influencia que tienen los valores de entrada. Es decir, que permiten que un gran valor de entrada tenga solamente una pequeña influencia, si estos son lo suficientemente pequeños.

91


Figura 3.3: ejemplo de una neurona con 2 entradas y 1 salida.

La nomenclatura utilizada en la Figura 3.3 es la siguiente: ini1 = entrada número 1 a la neurona Ni; wi1 = peso correspondiente a ini1; ini2 = entrada número 2 a la neurona Ni; wi2 = peso correspondiente a ini2; y outi = salida de la neurona Ni. El conjunto de todas las n entradas ini = (ini1, ini2, ..., inin) es comúnmente llamado “vector entrada”.Algunas de las funciones de entrada más comúnmente utilizadas y conocidasson:

1) Sumatoria de las entradas pesadas: es la suma de todos los valores deentrada a la neurona, multiplicados por sus correspondientes pesos

2) Productoria de las entradas pesadas: es el producto de todos los valores de entrada a la neurona, multiplicados por sus correspondientes pesos.

3) Máximo de las entradas pesadas: solamente toma en consideración el valor de entrada más fuerte, previamente multiplicado por su peso correspondiente.

Para explicar porque se utilizan estas funciones de activación se suele emplear la analogía a la aceleración de un automóvil. Cuando un auto inicia su movimiento necesita una potencia elevada para comenzar a acelerar. Pero al ir tomando velocidad, este demanda un menor incremento de dicha potencia para mantener la aceleración. Al llegar a altas velocidades, nuevamente un amplio incremento en la potencia es necesario para obtener una pequeña ganancia de velocidad. En resumen, en ambos extremos del rango de aceleración de un automóvil

92


se demanda una mayor potencia para la aceleración que en la mitad de dicho rango.

3.4.3 Función de activación ( activation function ).

Una neurona biológica puede estar activa (excitada) o inactiva (no excitada); es decir, que tiene un “estado de activación”. Las neuronas artificiales también tienen diferentes estados de activación; algunas de ellas solamente dos, al igual que las biológicas, pero otras pueden tomar cualquier valor dentro de un conjunto determinado. La función activación calcula el estado de actividad de una neurona; transformando la entrada global (menos el umbral, i) en un valor (estado) de activación, cuyo rango normalmente va de (0 a 1) o de (–1 a 1). Esto es así, porque una neurona puede estar totalmente inactiva (0 o –1) o activa (1). La función activación, es una función de la entrada global (gini) menos el umbral (i). Las funciones de activación más comúnmente utilizadas se detallan a continuación:

1) Función lineal:

a·(gini - i), cuando el argumento de (gini - i) Figura 4.4: función de activación lineal.esté comprendido dentro del rango (-1/a, 1/a).Por encima o por debajo de esta zona se fija la salida en 1 o –1, respectivamente.Cuando a = 1 (siendo que la misma afecta la pendiente de la gráfica), la salida es igual ala entrada.

2) Función sigmoidea:

Figura 3.5: función de activación sigmoidea93


Los valores de salida que proporciona esta función están comprendidos dentro de un rango que va de 0 a 1. Al modificar el valor de g se ve afectada la pendiente de la función de activación.

3) Función tangente hiperbólica:

Figura 3.6: función de activacióntangente hiperbólica.

Los valores de salida que proporciona esta función están comprendidos dentro de un rango que va de 0 a 1. Al modificar el valor de g se ve afectada la pendiente de la función desactivación.

Para explicar porque se utilizan estas funciones de activación se suele emplear la analogía a la aceleración de un automóvil. Cuando un auto inicia su movimiento necesita una potencia elevada para comenzar a acelerar. Pero al ir tomando velocidad, este demanda un menor incremento de dicha potencia para mantener la aceleración. Al llegar a altas velocidades, nuevamente un amplio incremento en la potencia es necesario para obtener una pequeña ganancia de velocidad. En resumen, en ambos extremos del rango de aceleración de un automóvil se demanda una mayor potencia para la aceleración que en la mitad de dicho rango.

3.4.4 Función de salida ( output function ).

El último componente que una neurona necesita es la función de salida. El valor resultante de esta función es la salida de la neurona i (outi); por ende, la función de salida determina que valor se transfiere a las

94


neuronas vinculadas. Si la función de activación está por debajo de un umbral determinado, ninguna salida se pasa a la neurona subsiguiente. Normalmente, no cualquier valor es permitido como una entrada para una neurona, por lo tanto, los valores de salida están comprendidos en el rango [0, 1] o [-1, 1]. También pueden ser binarios {0, 1} o {-1, 1}.

Dos de las funciones de salida más comunes son:

Ninguna: este es el tipo de función más sencillo, tal que la salida es la misma

que la entrada. Es también llamada función identidad.

Una vez implementado el conocimiento de las redes neuronales y continuamos con los conceptos básicos de una red neuronal en los cuales quedaron claros y fielmente explicados. Ahora en nuestro capitulo cuatro veremos la forma de aplicación de las funciones más elementales de las redes neuronales como son las aplicaciones de aprendizaje validación y codificación..

95


CAPITULO IV

APRENDIZAJE, VALIDACION Y CODIFICACION

4. Aprendizaje, Validación y Codificación.

4.1 Niveles o capas de una red neuronal.

La distribución de neuronas dentro de la red se realiza formando niveles o capas, con un número determinado de dichas neuronas en cada una de ellas. A partir de su situación dentro de la red, se pueden distinguir tres tipos de capas:

- De entrada: es la capa que recibe directamente la información proveniente de las fuentes externas de la red.

96


- Ocultas: son internas a la red y no tienen contacto directo con el entorno exterior. El número de niveles ocultos puede estar entre cero y un número elevado. Las neuronas de las capas ocultas pueden estar interconectadas de distintas maneras, lo que determina, junto con su número, las distintas topologías de redes neuronales.

- De salidas: transfieren información de la red hacia el exterior.

En la Figura 3.1 se puede ver el ejemplo de la estructura de una posible red multicapa, en la que cada nodo o neurona únicamente está conectada con neuronas de un nivel superior. Notar que hay más conexiones que neuronas en sí; en este sentido, se dice que una red es totalmente conectada si todas las salidas desde un nivel llegan a todos y cada uno de los nodos del nivel siguiente.

4.2 Tipos de neuronas artificiales.

Las neuronas artificiales se pueden clasificar de acuerdo a los valores que pueden tomar. Por ahora es suficiente distinguir entre dos tipos principales:

a- Neuronas binarias.b- Neuronas reales.

Las neuronas binarias solamente pueden tomar valores dentro del intervalo {0, 1} o {-1, 1}, mientras que las neuronas reales pueden hacerlo dentro del rango [0, 1] o [-1, 1]. Los peso normalmente no están restringidos a un cierto intervalo, aunque para aplicaciones específicas puede ser esto necesario.

4.3 Técnicas de decisión.

En general, el proceso de decisión puede ser caracterizado como se muestra en el diagrama de la Figura 4.1:

97


Lo mismo ocurre cuando se utiliza una red neuronal como un sistema de sostén de decisiones. La salida de la red neuronal es directa o indirectamente la solución al problema o la decisión a tomar. Por ejemplo: si uno desea determinar si un cliente, el cual está preguntando por la solicitud de un crédito, es un buen candidato (lo que significa que es confiable, o sea, que puede devolver el crédito solicitado), se podrían tomar en consideración variables o atributos tales como “antecedentes de créditos, pasivo, garantías y ganancias”. Las variables o atributos pertenecientes a un cliente específico son las entradas al proceso de decisión. El resultado de tal proceso podría ser una decisión similar a la siguiente: “cliente bueno” o “cliente malo”.

Los atributos expuestos en la Tabla 5.1 serán tomados en cuenta para el caso del puntaje para un crédito:

Tabla 4.1

A menudo las reglas que muestran la lógica (o falta de lógica) sobre las que se basan las decisiones no son tan obvias. Por lo tanto, una persona que no conoce mucho acerca del sujeto que solicita el préstamo, no puede tomar una decisión correcta. Nota que aquí los valores son más bien simbólicos que numéricos. Las redes neuronales reales necesitan entradas numéricas, pero por el momento se utilizarán entradas simbólicas para facilitar el entendimiento.

98


En la Tabla 4.2 se presenta un conjunto de datos de anteriores situaciones de decisión, cada una de ellas caracterizada por diferentes valores de las variables de entrada, con su respectiva decisión (0 es un cliente bueno, 1 uno promedio y 2 uno malo).

Tabla 4.2

Dentro de esta base de datos yace el procedimiento de decisión, o en otras palabras, la regla de decisión que conforma las bases para el problema de decisión: “puntaje para un crédito”.

La pregunta a contestar ahora es: ¿puede encontrarse una estructura o regla de decisión en este conjunto de datos? La respuesta es si, las redes neuronales pueden hallar una regla de decisión a través de un conjunto de datos como el presentado en la Tabla 4.2.

4.4 Mecanismos de aprendizaje.

Se ha visto que los datos de entrada se procesan a través de la red neuronal con el propósito de lograr una salida. También se dijo que las redes neuronales extraen generalizaciones desde un conjunto determinado de ejemplos anteriores de tales problemas de decisión. Una red neuronal debe aprender a calcular la salida correcta para cada constelación (arreglo o vector) de entrada en el conjunto de ejemplos. Este proceso de aprendizaje se denomina: proceso de entrenamiento o acondicionamiento. El conjunto de datos (o conjunto de ejemplos) sobre el cual este proceso se basa es, por ende, llamado: conjunto de datos de entrenamiento.

Si la topología de la red y las diferentes funciones de cada neurona (entrada, activación y salida) no pueden cambiar durante el aprendizaje, mientras que los pesos sobre cada una de las conexiones si pueden

99


hacerlo; el aprendizaje de una red neuronal significa: adaptación de los pesos.

En otras palabras el aprendizaje es el proceso por el cual una red neuronal modifica sus pesos en respuesta a una información de entrada. Los cambios que se producen durante el mismo se reducen a la destrucción, modificación y creación de conexiones entre las neuronas. En los sistemas biológicos existe una continua destrucción y creación de conexiones entre las neuronas. En los modelos de redes neuronales artificiales, la creación de una nueva conexión implica que el peso de la misma pasa a tener un valor distinto de cero. De la misma manera, una conexión se destruye cuando su peso pasa a ser cero.

Durante el proceso de aprendizaje, los pesos de las conexiones de la red sufren modificaciones, por lo tanto, se puede afirmar que este proceso ha terminado (la red ha aprendido) cuando los valores de los pesos permanecen estables (dwij/dt = 0). Un aspecto importante respecto al aprendizaje de las redes neuronales es el conocer cómo se modifican los valores de los pesos, es decir, cuáles son los criterios que se siguen para cambiar el valor asignado a las conexiones cuando se pretende que la red aprenda una nueva información. Hay dos métodos de aprendizaje importantes que pueden distinguirse:

a- Aprendizaje supervisado.b- Aprendizaje no supervisado.

Otro criterio que se puede utilizar para diferenciar las reglas de aprendizaje se basa en considerar si la red puede aprender durante su funcionamiento habitual o si el aprendizaje supone la desconexión de la red, es decir, su inhabilitación hasta que el proceso termine. En el primer caso, se trataría de un aprendizaje on line, mientras que el segundo es lo que se conoce como off line. Cuando el aprendizaje es off line, se distingue entre una fase de aprendizaje o entrenamiento y una fase de operación o funcionamiento, existiendo un conjunto de datos de entrenamiento y un conjunto de datos de test o prueba, que serán utilizados en la correspondiente fase. Además, los pesos de las conexiones permanecen fijos después que termina la etapa de entrenamiento de la red. Debido precisamente a su carácter estático, estos sistemas no presentan problemas de estabilidad en su funcionamiento.

Una generalización de la fórmula o regla para decir los cambios en los pesos esla siguiente:

Peso Nuevo = Peso Viejo + Cambio de Peso

100


Matemáticamente esto es:

wij(t+1) = wij(t) + wij(t)

donde t hace referencia a la etapa de aprendizaje, wij(t+1) al peso nuevo y wij(t) al pesoviejo.

4.4.1 Aprendizaje supervisado.

El aprendizaje supervisado se caracteriza porque el proceso de aprendizaje se realiza mediante un entrenamiento controlado por un agente externo (supervisor, maestro) que determina la respuesta que debería generar la red a partir de una entrada determinada. El supervisor controla la salida de la red y en caso de que ésta no coincida con la deseada, se procederá a modificar los pesos de las conexiones, con el fin de conseguir que la salida obtenida se aproxime a la deseada.

En este tipo de aprendizaje se suelen considerar, a su vez, tres formas de llevarloa cabo, que dan lugar a los siguientes aprendizajes supervisados:

1) Aprendizaje por corrección de error.2) Aprendizaje por refuerzo.3) Aprendizaje estocástico.

4.4.1.1 Aprendizaje por corrección de error.

Consiste en ajustar los pesos de las conexiones de la red en función de la diferencia entre los valores deseados y los obtenidos a la salida de la red, es decir, en función del error cometido en la salida.

Un ejemplo de este tipo de algoritmos lo constituye la regla de aprendizaje del Perceptron, utilizada en el entrenamiento de la red del mismo nombre que desarrolló Rosenblatt en 1958 [Rosenblatt 58]. Esta es una regla muy simple, para cada neurona en la capa de salida se le calcula la desviación a la salida objetivo como el error, . El cual luego se utiliza para cambiar los pesos sobre la conexión de la neurona precedente. El cambio de los pesos por medio de la regla de aprendizaje del Perceptron se realiza según la siguiente regla:

101


donde: aqi es la salida deseada/objetivo de la neurona de salida Ni,i = (aqi – outi) la desviación objetivo de la neurona Ni y el aprendizaje.

La salida de la neurona Nj (outj) se utiliza, porque este valor influye en la entrada global y, por ende, en la activación y luego en la salida de la neurona Ni. Esto es semejante a un “efecto en cadena”. Ver Figura 4.2

Figura 4.2: influencia de la salida de laneurona Nj en la entrada de la neurona Ni.

Otro algoritmo muy conocido y que pertenece a esta clasificación es la regla de aprendizaje Delta o regla del mínimo error cuadrado (LMS Error: Least Mean Squared Error), que también utiliza la desviación a la salida objetivo, pero toma en consideracióna todas las neuronas predecesoras que tiene la neurona de salida. Esto permite cuantificar el error global cometido en cualquier momento durante el proceso de entrenamiento de la red, lo cual es importante, ya que cuanto más información se tenga sobre el error cometido, más rápido se puede aprender. Luego el error calculado () es igualmente repartido entre las conexiones de las neuronas predecesoras. Por último se debe mencionar la regla de aprendizaje de propagación hacia atrás o de backpropagation, también conocido como regla LMS multicapa, la cual es una generalización de la regla de aprendizaje Delta. Esta es la primer regla de aprendizaje que permitió realizar cambios sobre los pesos en las conexiones de la capa oculta.

4.4.1.2 Aprendizaje por refuerzo.

Se trata de un aprendizaje supervisado, más lento que el anterior, que se basa en la idea de no disponer de un ejemplo completo del comportamiento deseado, es decir, de no indicar durante el entrenamiento exactamente la salida que se desea que proporcione la red ante una determinada entrada.

En el aprendizaje por refuerzo la función del supervisor se reduce a indicar mediante una señal de refuerzo si la salida obtenida en la red se ajusta a la deseada,(éxito = +1 o fracaso = -1), y en función de ello se ajustan los pesos basándose en un mecanismo de probabilidades. Se podría decir que en este tipo de aprendizaje la función del supervisor se asemeja más a la

102


de un crítico (que opina sobre la respuesta de la red) que a la de un maestro (que indica a la red la respuesta concreta que debe generar), como ocurría en el caso de supervisión por corrección del error.

4.4.1.3 Aprendizaje estocástico.

Consiste básicamente en realizar cambios aleatorios en los valores de los pesos de las conexiones de la red y evaluar su efecto a partir del objetivo deseado y de distribuciones de probabilidad.

En el aprendizaje estocástico se suele hacer una analogía en términos termodinámicos, asociando a la red neuronal con un sólido físico que tiene cierto estado energético. En el caso de la red, la energía de la misma representaría el grado de estabilidad de la red, de tal forma que el estado de mínima energía correspondería a una situación en la que los pesos de las conexiones consiguen que su funcionamiento sea el que más se ajusta al objetivo deseado.

Según lo anterior, el aprendizaje consistiría en realizar un cambio aleatorio de los valores de los pesos y determinar la energía de la red (habitualmente la función energía es una función de Liapunov). Si la energía es menor después del cambio, es decir, si el comportamiento de la red se acerca al deseado, se acepta el cambio; si, por el contrario, la energía no es menor, se aceptaría el cambio en función de una determinada y preestablecida distribución de probabilidades.

4.4.2 Aprendizaje no supervisado.

Las redes con aprendizaje no supervisado (también conocido como autosupervisado) no requieren influencia externa para ajustar los pesos de las conexiones entre sus neuronas. La red no recibe ninguna información por parte del entorno que le indique si la salida generada en respuesta a una determinada entrada es o no correcta. Estas redes deben encontrar las características, regularidades, correlaciones o categorías que se puedan establecer entre los datos que se presenten en su entrada.

Existen varias posibilidades en cuanto a la interpretación de la salida de estas redes, que dependen de su estructura y del algoritmo de aprendizaje empleado. En algunos casos, la salida representa el grado de familiaridad o similitud entre la información que se le está presentando en la entrada y las informaciones que se le han mostrado hasta entonces (en el pasado). En otro caso, podría realizar una clusterización (clustering) o establecimiento de categorías, indicando la red a la salida a qué categoría pertenece la información presentada a la

103


entrada, siendo la propia red quien debe encontrar las categorías apropiadas a partir de las correlaciones entre las informaciones presentadas.

En cuanto a los algoritmos de aprendizaje no supervisado, en general se suelenconsiderar dos tipos, que dan lugar a los siguientes aprendizajes:

1) Aprendizaje hebbiano.2) Aprendizaje competitivo y comparativo.

4.4.2.1 Aprendizaje hebbiano.

Esta regla de aprendizaje es la base de muchas otras, la cual pretende medir la familiaridad o extraer características de los datos de entrada. El fundamento es una suposición bastante simple: si dos neuronas Ni y Nj toman el mismo estado simultáneamente (ambas activas o ambas inactivas), el peso de la conexión entre ambas se incrementa.

Las entradas y salidas permitidas a la neurona son: {-1, 1} o {0, 1} (neuronas binarias). Esto puede explicarse porque la regla de aprendizaje de Hebb se originó a partir de la neurona biológica clásica, que solamente puede tener dos estados: activa o inactiva.

4.4.2.2 Aprendizaje competitivo y comparativo.

Se orienta a la clusterización o clasificación de los datos de entrada. Como característica principal del aprendizaje competitivo se puede decir que, si un patrón nuevo se determina que pertenece a una clase reconocida previamente, entonces la inclusión de este nuevo patrón a esta clase matizará la representación de la misma. Si el patrón de entrada se determinó que no pertenece a ninguna de las clases reconocidas anteriormente, entonces la estructura y los pesos de la red neuronal serán ajustados para reconocer la nueva clase.

4.5 Elección del conjunto inicial de pesos.

Antes de comenzar el proceso de entrenamiento se debe determinar un estado inicial, lo que significa: escoger un conjunto inicial de pesos para las diversas conexiones entre las neuronas de la red neuronal. Esto puede realizarse por varios criterios; por ejemplo uno de ellos es otorgar un peso aleatorio a cada conexión, encontrándose los mismos dentro de un cierto intervalo. Generalmente un intervalo del tipo [-n, n], donde n es un número natural positivo.

104


Cabe mencionar que durante el transcurso del entrenamiento los pesos no se encuentran restringidos a dicho intervalo.

4.5.1 Detención del proceso de aprendizaje.

Para determinar cuándo se detendrá el proceso de aprendizaje, es necesario establecer una condición de detención. Normalmente el entrenamiento se detiene cuando el cálculo del error cuadrado sobre todos los ejemplos de entrenamiento ha alcanzado un mínimo o cuando para cada uno de los ejemplos dados, el error observado está por debajo de un determinado umbral. Ya que para controlar este proceso, la mayor parte de las herramientas de las redes neuronales muestran estos errores utilizando gráficos especiales; los cuales no son utilizados para el aprendizaje, si no que solamente para dar un indicio del proceso en símismo.

Otra condición de detención del aprendizaje puede ser cuando un cierto númerode ciclos y/o pasos de entrenamiento hayan sido completamente corridos.

Luego de alcanzarse la condición de detención, los pesos no se volverán a cambiar. Entonces podemos decir que la transformación de los datos de entrada a los de salida está resuelta. Esto se puede interpretar como una función f oculta en el conjunto de la red neuronal. Esta función es exactamente la “instrucción” de cómo la salida será calculada a partir de una constelación (vector) de entrada.

El orden en que los ejemplos de entrenamiento se presentan a la red neuronal es otro tema importante. En general se ha observado que en la mayoría de los casos es beneficioso realizarlo en forma aleatoria.

4.5.2 Codificación de los datos de entrada.

Si se observa nuevamente el ejemplo del problema: puntaje para un crédito (apartado 5.4), se ve que no hay ningún valor numérico en la base de datos. Por lo tanto la pregunta es ¿cómo puede entonces una red neuronal calcular una salida? La respuesta es sencilla; los datos tienen que ser codificados, o sea, deben hallarse valores apropiados para representar las características simbólicas (alto, bajo, adecuado, etc.).

105


Se distinguen dos tipo de variables a ser codificadas:

1) Variables o atributos numéricos (frecuentemente llamadas continuas).

2) Variables o atributos simbólicos (frecuentemente llamados discretos).

Un atributo numérico es aquel que puede tomar cualquier valor dentro de un cierto intervalo [a, b]; donde a puede ser -(menos infinito) y b, (infinito). Por ejemplo el peso puede medirse en libras; entonces cualquier valor entre [0, ) está permitido. Ahora si los pesos son dados por un cierto número de términos, semejantes a: alto o bajo; entonces el atributo se denomina simbólico. Por lo tanto, dividiendo el intervalo [a, b] de una variable numérica dentro de subintervalos, podemos confeccionar un atributo continuo pseudodiscreto.

A continuación, en los apartados 5.7.1 y 5.7.2, serán descriptos en detalle dos procesos de codificación; asumiendo que todas las entradas se transforman dentro del intervalo [0, 1] o {0, 1} (la extensión a [-1, 1] o {-1, 1} es fácil).

4.5.2.1 Codificación de los atributos numéricos.

Los datos son codificados dentro de un intervalo, [0.0 + buffer de baja, 1.0 – buffer de alta], por medio de una función lineal. Los buffer (amortiguadores) son necesarios, especialmente cuando se trabaja con series de tiempo, porque a menudo puede observarse que una variable numérica cae por debajo del valor mínimo presenciado hasta el momento, o por encima del máximo. Por medio de esta manera de codificación se conduce a un conjunto de valores por encima de 0.0 y por debajo de 1.0, cuando se utiliza un salto de 0.0 a 1.0

106


Figura 4.3: transformación de la edad al intervalo [0.1, 0.9]

Por ejemplo, para la Figura 5.3, se debe encontrar la ecuación que describa lafunción de transformación; a la cual llamaremos “t” y se escribe como sigue:

t: datos originales (x) datos codificados (xnuevos);

donde: a = pendiente y, b = ordenada al origen. De esta manera, para el ejemplo de la

Figura 5.3 se tiene que y b = 0.1 – a * 19.

De forma genérica:

mín

4.5.2.2 Codificación de los atributos simbólicos.

Cada atributo simbólico que se codifica, se adjunta a una neurona en la capa deentrada. Si hay n valores simbólicos, n neuronas serán necesarias, cada una de ellas conun conjunto de entradas permitido: {0, 1} (o {-1, 1}). Por este motivo, se utilizanneuronas binarias.

Figura 4.4: transformación de la edad en tres atributos simbólicos.

107


Observando la Figura 4.4; la edad sólo puede tomar un valor en el ejemplo dado. En consecuencia, si se tiene el valor de entrada viejo, solamente la neurona estática para viejo recibe una entrada de 1 (en el ejemplo: N1), mientras que todas las demás tendrán una entrada igual a 0.

Por supuesto, también es posible codificar atributos simbólicos utilizando sólouna neurona “real” (recordar que los valores permitidos para este tipo de neuronas estáncomprendidos en el rango [0, 1] o [1, 1]). Para el ejemplo de la edad, viejo puedecodificarse como 0.333, edad media como 0.666 y joven como 1; siendo el intervalopermitido de [0, 1]. Tal procedimiento solamente tiene sentido si hay un orden en losvalores que las variables de entrada (o atributos) pueden tomar.La mayor desventaja de una codificación binaria es que puede conducir a unagran capa de entrada.

4.5.2.3 Resumen de los procedimientos de codificación

4.6 Validación de la red neuronal.

Después del proceso de entrenamiento los pesos de las conexiones en la red neuronal quedan fijos. Como paso siguiente se debe comprobar si la red neuronal puede resolver nuevos problemas, del tipo general, para los que ha sido entrenada. Por lo tanto, con el propósito de validar la red neuronal se requiere de otro conjunto de datos, denominado conjunto de validación o testeo. Cada ejemplo del conjunto de evaluación contiene los valores de las variables de entrada, con su correspondiente solución tomada; pero ahora esta solución no se le es otorgada a la red neuronal. Luego se compara la solución calculada para cada ejemplo de validación con la solución conocida. El nuevo ejemplo utilizado para la validación se identifica como Eu y su correspondiente salida correcta como Au (u indica incógnita, en inglés). Ahora el problema es que hay que decidir cuando la salida de la red neuronal ha de considerarse como correcta.

4.7 Cuestiones a resolver al trabajar con una red neuronal.108


Muchos problemas aparecen cuando se trabaja con redes neuronales. Primeramente se debe analizar el dominio del problema y decidir a que clase pertenece. Luego debe decidirse si una red neuronal es adecuada para resolver dicho problema. Esto es lo que se llama: etapa preliminar. Concluida esta etapa, las siguientes preguntas han de responderse: a- Origen de los datos.

_ ¿Qué datos son de importancia para la situación del problema definido?

_ ¿Qué variables son relevantes?_ ¿De dónde pueden obtenerse los datos?

b- Preparación y codificación de los datos._ ¿Cómo preparar y codificar los datos?

c- Topología de la red (dependiendo parcialmente del ítem b-)._ ¿Qué tipo de red debe escogerse?_ ¿Cuántas capas ocultas y con cuántas neuronas son necesarias?_ ¿Cuántas neuronas en la capa de salida (según la codificación

escogida)?_ ¿Qué tipos de neuronas deben escogerse?_ ¿Qué regla de aprendizaje escoger?

d- Decisiones concernientes al proceso de aprendizaje._ ¿Cuántos ciclos de aprendizaje?_ ¿Qué inicialización para los pesos?

4.8 Principales Topologías.

4.8.1 Topología de las redes neuronales.

La topología o arquitectura de una red neuronal consiste en la organización y disposición de las neuronas en la misma, formando capas o agrupaciones de neuronas más o menos alejadas de la entrada y salida de dicha red. En este sentido, los parámetros fundamentales de la red son: el número de capas, el número de neuronas por capa, el grado de conectividad y el tipo de conexiones entre neuronas.

4.8.2 Redes monocapa.

109


En las redes monocapa, se establecen conexiones entre las neuronas que pertenecen a la única capa que constituye la red. Las redes monocapas se utilizan generalmente en tareas relacionadas con lo que se conoce como autoasociación (regenerar información de entrada que se presenta a la red de forma incompleta o distorsionada).

4.8.3 Redes multicapa.

Las redes multicapas son aquellas que disponen de un conjunto de neuronas agrupadas en varios (2, 3, etc.) niveles o capas. En estos casos, una forma para distinguir la capa a la que pertenece una neurona, consistiría en fijarse en el origen de las señales que recibe a la entrada y el destino de la señal de salida. Normalmente, todas las neuronas de una capa reciben señales de entrada desde otra capa anterior (la cual está más cerca a la entrada de la red), y envían señales de salida a una capa posterior (que está más cerca a la salida de la red). A estas conexiones se las denomina

conexiones hacia adelante o feedforward. Sin embargo, en un gran número de estas redes también existe la posibilidad de conectar la salida de las neuronas de capas posteriores a la entrada de capas anteriores; a estas conexiones se las denomina conexiones hacia atrás o feedback.

Estas dos posibilidades permiten distinguir entre dos tipos de redes con múltiples capas: las redes con conexiones hacia adelante o redes feedforward, y las redes que disponen de conexiones tanto hacia adelante como hacia atrás o redes feedforward/feedback.

4.8.4 Conexión entre neuronas.

La conectividad entre los nodos de una red neuronal está relacionada con la forma en que las salidas de las neuronas están canalizadas para convertirse en entradas de otras neuronas. La señal de salida de un nodo puede ser una entrada de otro elemento de proceso, o incluso ser una entrada de sí mismo (conexión autorrecurrente). Cuando ninguna salida de las neuronas es entrada de neuronas del mismo nivel o de niveles precedentes, la red se describe como de conexión hacia delante (ver Figura 4.1). Cuando las salidas pueden ser conectadas como entradas de neuronas de niveles previos o del mismo nivel, incluyéndose ellas mismas, la red es de conexión hacia atrás. Las redes de propagación hacia atrás que tienen lazos cerrados son llamadas: sistemas recurrentes.

110


4.9 Redes de propagación hacia atrás ( backpropagation ).

El nombre de backpropagation resulta de la forma en que el error es propagado hacia atrás a través de la red neuronal, en otras palabras el error se propaga hacia atrás desde la capa de salida. Esto permite que los pesos sobre las conexiones de las neuronas ubicadas en las capas ocultas cambien durante el entrenamiento.

El cambio de los pesos en las conexiones de las neuronas además de influir sobre la entrada global, influye en la activación y por consiguiente en la salida de una neurona. Por lo tanto, es de gran utilidad considerar las variaciones de la función activación al modificarse el alor de los pesos. Esto se llama sensibilidad de la función activación, de acuerdo al ambio en los pesos.

4.9.1 Ejemplo.

Una temperatura de 20ºC provoca que el tiempo de operación de una máquina sea de 90 segundos y un incremento de dicha temperatura hasta los 30ºC causa un tiempo de operación de 100 segundos. ¿Cómo influyó el incremento de la temperatura en el tiempo de trabajo de la máquina? Por supuesto, hizo más lenta la operación. Pero, ¿por cuánto?

tiempo de trabajo conforme a los cambios suscitados en la temperatura. Enconsecuencia, para nuestro ejemplo tenemos que:

Esto significa que se produce un incremento de tiempo de aproximadamente 1 segundo, cuando la temperatura se eleva 1ºC. Ahora si se supone que en lugar del tiempo se tiene la activación de una neurona y en lugar de la temperatura, la entrada global. Dado que la mayoría de las funciones de activación son no lineales (por ejemplo la función sigmoidea o la tangente hiperbólica), se tiene que calcular la

111


derivada de la función con respecto al peso; por consiguiente, la entrada global cambia. Esta derivada se utiliza para cambiar los pesos durante el proceso de aprendizaje.

Para cada una de las neuronas en la capa de salida, la desviación objetivo (la cual es: la salida objetivo menos la salida real) es multiplicada por la derivada de la función activación. Utilizando la derivada se logra una “sintonización fina” de los pesos cuando la salida real esta cerca de la salida deseada. Al mirar la Figura 6.1, la misma muestra una constelación donde la salida real para una neurona es 0.95 y la deseada es de 1.0.

Figura 6.1: desviación a la salida objetivo.

Dado que la derivada de la función activación es relativamente baja en esta región (cuando la función activación está próxima a 1), el producto “derivada por desviación objetivo”, igual al error, no se torna muy grande. Esto es lo que se llama sintonía fina de los pesos. De esta manera, la diferencia en el cómputo del error para las neuronas de salida al utilizar el algoritmo de backpropagation, en lugar de las reglas simples de aprendizaje del Perceptron, es justamente el factor derivada de la función activación.

4.9.2Estructura de la Red Hopfield.

La Red Hopfield es recurrente y completamente interconectada. Funciona como una memoria asociativa no lineal, que puede almacenar internamente patrones presentados de forma incompleta o con ruido. De esta forma puede ser usada como una herramienta de optimización; también se han utilizado en aplicaciones de segmentación y restauración de imágenes y optimización combinatoria.

La Red Hopfield consta de un número de neuronas simétrica e íntegramente conectadas, como ya se mencionó anteriormente. Esto significa que si existe una conexión desde la neurona Ni a la neurona Nj, también existe la conexión desde Nj a Ni; ambas exhibendo el mismo

112


peso (wij = wji). Vale aclarar que la conexión de una neurona on sí misma no está permitida.

El conjunto permitido de valores de entrada y salida es {0, 1} (o en alguna oportunidad {-1, 1}); o sea, es un conjunto binario. De esta manera todas las neuronas en una Red Hopfield son binarias, tomando solamente uno de los dos estados posibles: activo (1) o inactivo (-1 o 0).

Las Redes Hopfield se emplean para reconocer patrones. Después que el aprendizaje haya llegado a su fin, la red neuronal debe ser capaz de dar una salida correcta para cada patrón de entrada dado, aun cuando este sea ruidoso.

La clave del aprendizaje Hopfield es que si un patrón que tiene que ser aprendido se conoce, los pesos sobre cada conexión de la red neuronal pueden ser calculados. En esta circunstancia, solamente el estado de las neuronas cambia durante el proceso de aprendizaje. Este cálculo garantiza que cada patrón aprendido corresponda a un mínimo de la función energía.

Es importante entender que para este tipo de redes la definición de aprendizaje es diferente al dado anteriormente, donde aprendizaje significaba simplemente la adaptación de los pesos. En una Red Hopfield los pesos se pueden calcular y se mantienen fijos durante el aprendizaje de los patrones. Solamente cambia el estado de las neuronas. Para calcular el peso de una conexión cualquiera, wij (y por simetría para la conexión wji), en una Red Hopfield se utiliza la siguiente ecuación:

siendo Q el número de patrones y eqi la entrada a la neurona Ni. Generalmente es aconsejable trabajar con esta ecuación cuando los patrones que se han de aprender no son muy semejantes unos a otros, y si el número de ceros y unos son similares para todos los patrones. Con respecto al número de ceros y unos, el umbral de cada neurona puede utilizarse para regular esto, distinguiéndose así dos casos posibles:

a- Si hay más 0s que 1s el umbral tiene que disminuirse, porque que las neuronas tienen una probabilidad más alta para hacerse inactivas que para hacerse activas. b- Si hay mas 1s que 0s el umbral tiene que incrementarse, porque las neuronas tienen una

113


probabilidad más alta para hacerse activas que para hacerse inactivas.

4.9.3 Simulated Annealing aplicada a una Red Hopfield.

En muchos problemas, la tarea no es justamente encontrar cualquier mínimo local, sino la de encontrar el óptimo global. Lo que significa que para una entrada determinada se debe encontrar una salida que resulte en un mínimo de la función energía. Utilizando una Red Hopfield, se encuentra que un mínimo yace cerca del vector de entrada dado, porque la energía decrece paso a paso. El cual puede ser un mínimo local. En una Red Hopfield todos los mínimos locales son un estado estable.

Un problema similar se origina en termodinámica durante el proceso de cristalización. Durante un enfriamiento lento, el cristal crece con una estructura casi perfecta, ya que cada átomo tiene bastante tiempo para saltar a otra posición dentro de la cuadrícula, de tal forma que la energía total del cristal decrezca. Para realizar dicho salto se necesita energía, es decir, que si el cristal tiene la energía suficiente (si su temperatura es aun bastante alta), todos los átomos disponen de una chance para cambiar su posición. Pero para permitir que esto ocurra la energía de un átomo tiene que incrementarse por un corto tiempo, de lo contrario el átomo descansaría en su vieja posición.

Tener una chance se puede interpretar como “hay una probabilidad”. Esta probabilidad depende de la activación que un átomo muestra a una determinada temperatura y tiempo del sistema.

Utilizando esta técnica donde el cristal comienza a una temperatura elevada y que luego decrece paso a paso, se les da a los átomos una posibilidad de cambiar sus estados independientemente de la activación, por medio de un incremento en la energía de los mismos de un paso a otro. Cuando la temperatura se reduce, la cuadrícula vibra menos, y el sistema (la cuadrícula) alcanza un estado estable; haciéndose gradualmente más dificultoso para un átomo encontrar la energía para saltar a otra posición.

Esta es la idea de Simulated Annealing, que luego se aplica a la Red Hopfield cuando se intenta encontrar un óptimo global.

114


A grandes rasgos se describe que una Simulated Annealing trabaja de estamanera:

a- Escoger cualquier neurona. b- Calcular d = gini - i.

d- Generar un número aleatorio r, con 1 ≥r ≥0

e- Si (Pi ≥r)

el conjunto outi a 1

de otra manerael conjunto outi a 0

f - Disminuye T. Volver al paso a-.

El algoritmo se detiene cuando se alcanza algún criterio de detención; por ejemplo si la emperatura llega a su límite inferior o si el número de ciclos alcanza su límite superior. La premisa fundamental de este método es que el problema de optimización puede formularse como una función energética. Por lo tanto hallar el óptimo global implica encontrar el mínimo de dicha función energética. La misma tiene un aspecto genérico de esta forma:

Se han logrado exitosas aplicaciones de Simulated Annealing, principalmente concernientes a los problemas de optimización combinatoria, semejantes al problema del viajante. El cual no puede resolverse fácilmente por métodos estadísticos o analíticos. Por ejemplo, imagine que un viajante tiene que visitar 19 ciudades. ¿Qué ruta suministra el camino más corto entre todas las ciudades, o sea, en qué orden deberán visitarse todas las ciudades?

Por último una diferenciación muy importante es que en una Simulated Annealing la energía puede disminuir en un paso y crecer en el otro, pero en una Red Hopfield la energía solamente puede disminuir paso a paso.

4.9.4 Asociaciones entre la información de entrada y salida.

115


Ya se sabe que las redes neuronales son sistemas que almacenan cierta información aprendida. Esta información se registra de forma distribuida en los pesos asociados a las conexiones entre neuronas. Por tanto, puede imaginarse una red como cierto tipo de memoria que almacena datos de forma estable, datos que se grabarán en dicha memoria como consecuencia del aprendizaje de la red y que podrán ser leídos a la salida como respuesta a cierta información de entrada, comportándose entonces la red como lo que habitualmente se conoce por memoria asociativa: cuando se aplica un estímulo (dato de entrada) la red responde con una salida asociada a dicha información de entrada.

Existen dos formas primarias de realizar esta asociación entre entradas/salidas que se corresponden con la naturaleza de la información almacenada en la red. Una primera sería la denominada heteroasociación, que se refiere al caso en el que la red aprende parejas de datos [(A1,B1), (A2, B2),... (AN,BN)], de tal forma que cuando se presente cierta información de entrada Ai, deberá responder generando la correspondiente salida asociada Bi. La segunda se conoce como autoasociación, donde la red aprende ciertas informaciones A1, A2, ..., AN; de tal forma que cuando se le presenta una información de entrada realizará una autocorrelación, respondiendo con uno de los datos almacenados, el más parecido al de entrada.

Estos dos mecanismos de asociación dan lugar a dos tipos de redes neuronales: las redes heteroasociativas y las autoasociativas. Una red heteroasociativa podría considerarse como aquella que computa cierta función, que en la mayoría de los casos no podría expresarse analíticamente, entre un conjunto de entradas y un conjunto de salidas, correspondiendo a cada posible entrada una determinada salida. Por otra parte, una red autoasociativa es una red cuya principal misión es reconstruir una determinada información de entrada que se presente incompleta o distorsionada (le asocia el dato almacenado más parecido). En realidad estos dos tipos de modelos de redes no son diferentes en principio, porque una red heteroasiciativa puede siempre ser reducida a una asociativa mediante la concatenación de una información de entrada y su salida (respuesta) asociada, para obtener la información de entrada de la red autoasociativa equivalente. También puede conseguirse que una red autoasociativa se comporte como heteroasociativa, simplemente presentando, como entrada parcial de la autoasociativa, la información de entrada para la heteroasociativa y haciendo que la red complete la información para producir lo que sería la salida de la red heteroasociativa equivalente.

4.9.4.1 Redes heteroasociativas.

Las redes heteroasociativas, al asociar informaciones de entrada con diferentes informaciones de salida, precisan al menos de dos capas, una

116


para captar y retener la información de entrada y otra para mantener la salida con la información asociada. Si esto no fuese así, se perdería la información inicial al obtenerse el dato asociado {3}, lo cual no debe ocurrir, ya que en el proceso de obtención de la salida se puede necesitar acceder varias veces a esta información que, por tanto, deberá permanecer en la capa de entrada. En cuanto a su conectividad, pueden ser del tipo con conexión hacia adelante (o feedforward) o con conexión hacia atrás (feddforward/feedback), o bien con conexiones laterales.

4.9.4.2 Redes autoasociativas.

Una red autoasociativa asocia una información de entrada con el ejemplar más parecido de los almacenados conocidos por la red. Estos tipos de redes pueden implementarse con una sola capa de neuronas. Esta capa comenzará reteniendo la información inicial a la entrada, y terminará representando la información autoasociada. Si se quiere mantener la información de entrada y salida, se deberían añadir capas adicionales, sin embargo, la funcionalidad de la red puede conseguirse en una sola capa.

En cuanto a su conectividad, existen de conexiones laterales y, en algunos casos,conexiones auto-recurrentes.

Con lo anterior concluimos lo que son los procesos y las principales topologías de las redes neuronales así como la conectividad de cada uno de los elementos de que componen las redes neuronales.

A continuación en el siguiente capítulo se darán a conocer las aplicaciones y funciones primordiales de las redes neuronales así como la optimización y planificación de procesos.

117


CAPITULO V

APLICACIONES

118


5. Aplicaciones.

Las redes neuronales pueden utilizarse en un gran número y variedad de aplicaciones, tanto comerciales como militares.

Se pueden desarrollar redes neuronales en un periodo de tiempo razonable, con la capacidad de realizar tareas concretas mejor que otras tecnologías. Cuando se implementan mediante hardware (redes neuronales en chips VLSI), presentan una alta tolerancia a fallos del sistema y proporcionan un alto grado de paralelismo en el procesamiento de datos. Esto posibilita la inserción de redes neuronales de bajo costo en sistemas existentes y recientemente desarrollados.

5.1 Aplicaciones de las redes neuronales.

Hay muchos tipos diferentes de redes neuronales; cada uno de los cuales tiene una aplicación particular más apropiada.

Algunas aplicaciones comerciales son: Biología:

- Aprender más acerca del cerebro y otros sistemas.- Obtención de modelos de la retina.

Empresa:- Evaluación de probabilidad de formaciones geológicas y

petrolíferas.- Identificación de candidatos para posiciones específicas.- Explotación de bases de datos.

119


- Optimización de plazas y horarios en líneas de vuelo.- Optimización del flujo del tránsito controlando

convenientemente la- temporización de los semáforos.- Reconocimiento de caracteres escritos.- Modelado de sistemas para automatización y control.

Medio ambiente:- Analizar tendencias y patrones.- Previsión del tiempo.

Finanzas:- Previsión de la evolución de los precios.- Valoración del riesgo de los créditos.- Identificación de falsificaciones.- Interpretación de firmas

Manufacturación:

- Robots automatizados y sistemas de control (visión artificial y sensores

de presión, temperatura, gas, etc.).- Control de producción en líneas de procesos.- Inspección de la calidad.

Medicina:- Analizadores del habla para ayudar en la audición de sordos

profundos.- Diagnóstico y tratamiento a partir de síntomas y/o de datos

analíticos(electrocardiograma, encefalogramas, análisis sanguíneo, etc.).

- Monitorización en cirugías.- Predicción de reacciones adversas en los medicamentos.- Entendimiento de la causa de los ataques cardíacos.

Militares:- Clasificación de las señales de radar.- Creación de armas inteligentes.- Optimización del uso de recursos escasos.- Reconocimiento y seguimiento en el tiro al blanco.-

La mayoría de estas aplicaciones consisten en realizar un reconocimiento de patrones, como ser: buscar un patrón en una serie de ejemplos, clasificar patrones, completar una señal a partir de valores

120


parciales o reconstruir el patrón correcto partiendo de uno distorsionado. Sin embargo, está creciendo el uso de redes neuronales en distintos tipos de sistemas de control.

Desde el punto de vista de los casos de aplicación, la ventaja de las redes neuronales reside en el procesado paralelo, adaptativo y no lineal. El dominio de aplicación de las redes neuronales también se lo puede clasificar de la siguiente forma: asociación y clasificación, regeneración de patrones, regresión y generalización, y optimización.

5.1.1 Asociación y clasificación.

En esta aplicación, los patrones de entrada estáticos o señales temporales deben ser clasificadas o reconocidas. Idealmente, un clasificador debería ser entrenado para que cuando se le presente una versión distorsionada ligeramente del patrón, pueda ser reconocida correctamente sin problemas. De la misma forma, la red debería presentar cierta inmunidad contra el ruido, esto es, debería ser capaz de recuperar una señal "limpia" de ambientes o canales ruidosos. Esto es fundamental en las aplicaciones holográficas, asociativas o regenerativas.

Asociación: de especial interés son las dos clases de asociación:

autoasociación y heteroasociación. Como ya se mencionó en el apartado 6.8, el problema de la autoasociación es recuperar un patrón enteramente, dada una información parcial del patrón deseado. La heteroasociación es recuperar un conjunto de patrones B, dado un patrón de ese conjunto. Los pesos en las redes asociativas son a menudo predeterminados basados en la regla de Hebb. Normalmente, la autocorrelación del conjunto de patrones almacenado determina los pesos en las redes autoasociativas. Por otro lado, la correlación cruzada de muchas parejas de patrones se usa para eterminar los pesos de la red de heteroasociación.

_ Clasificación no Supervisada: para esta aplicación, los pesos sinápticos de la

red son entrenados por la regla de aprendizaje no supervisado, esto es, la red adapta los

121


pesos y verifica el resultado basándose únicamente en los patrones de entrada.

_ Clasificación Supervisada: esta clasificación adopta algunas formas del criterio de

interpolación o aproximación. En muchas aplicaciones de clasificación, por ejemplo, reconocimiento de voz, los datos de entrenamiento consisten de pares de patrones de entrada y salida. En este caso, es conveniente adoptar las redes Supervisadas, como las bien conocidas y estudiadas redes de retropropagación. Este tipo de redes son apropiadas para las aplicaciones que tienen una gran cantidad de clases con límites de separación complejos.

5.1.2 Regeneración de patrones.

En muchos problemas de clasificación, una cuestión a solucionar es la recuperación de información, esto es, recuperar el patrón original dada solamente una información parcial. Hay dos clases de problemas: temporales y estáticos. El uso apropiado de la información contextual es la llave para tener éxito en el reconocimiento.

5.1.3 Regeneración y generalización.

El objetivo de la generalización es dar una respuesta correcta a la salida para un estímulo de entrada que no ha sido entrenado con anterioridad. El sistema debe inducir la característica saliente del estímulo a la entrada y detectar la regularidad. Tal habilidad para el descubrimiento de esa regularidad es crítica en muchas aplicaciones. Esto hace que el sistema funcione eficazmente en todo el espacio, incluso cuando ha sido entrenado por un conjunto limitado de ejemplos.

5.1.4 Optimización.

Las Redes Neuronales son herramientas interesantes para la optimización de aplicaciones, que normalmente implican la búsqueda del mínimo absoluto de una función de energía. Para algunas aplicaciones, la función de energía es fácilmente deducible; pero en otras, sin embargo, se obtiene de ciertos criterios de coste y limitaciones especiales.

5.2 Casos concretos de aplicación.

A continuación se detallan los siguientes casos concretos de aplicación de redesneuronales:

122


_ Planificación del staff de empleados. _ Planificación de la demanda de materiales. _ Puntuación para la solicitud de un crédito.

5.2.1 Planificación del staff (cuerpo) de empleados.

Hoy más que nunca, las empresas están sujetas a la presión de los elevados costos. Esto puede verse en diferentes sectores corporativos, tales como la planificación del staff de empleados. Desde el punto de vista de las empresas, un empleado que falla al ejecutar la mayor parte de las tareas asignadas, evidencia una baja productividad. Por el otro lado, esta situación es frustrante para el empleado. Ambos efectos causan costos, los cuales podrían evitarse realizando antes una prueba de aptitud. Estos problemas no solamente son originados por los empleados nuevos, sino también por aquellos que son reubicados dentro de la misma empresa.

En este proyecto de investigación se examinó hasta donde la predicción de aptitudes puede llevarse a cabo por una red neuronal, cuya topología suministre una tarea satisfactoria y así lograr una predicción más exitosa.

Base de datos y codificación: La base de datos inicial contenía información resultante de una investigación que realizaron por medio de un cuestionario. Las respuestas obtenidas a través del mismo las utilizaron para acumular información acerca de las cualidades específicas y habilidades técnicas de cada individuo del personal indagado. Para cada pregunta, les fue posible categorizar la respuesta en un intervalo que va de 1 a 5; constituyendo así la entrada que presentaron a la red neuronal. Al entrevistado, posteriormente, lo examinaron en el orden de obtener una cifra representativa de sus aptitudes. De esta manera el conjunto de datos de entrenamiento quedó formado de la siguiente forma:

- Respuesta obtenidas a través del cuestionario = datos de entrada.

- Cifra representativa de la aptitud de la persona encuestada = salida deseada.

- El primer problema que se les presentó fue cómo codificar los datos obtenidos, decidiendo transformarlos dentro del intervalo [0.1, 1.0].

123


Cómo codificar la salida objetivo fue la próxima pregunta que consideraron. Normalmente la compañía sólo quiere conocer si una persona ejecutará bien o mal la tarea determinada, o si su desempeño será muy bueno, bueno, promedio, malo o muy malo. Consecuentemente, (a) asignaron la salida dada dentro de varias clases y (b) transformaron las cifras representativas dentro del intervalo [0, 1], utilizando en parte una función lineal.

Algoritmo de aprendizaje:

Ensayaron diferentes algoritmos de aprendizaje, de los cuales dos fueron escogidos como los más apropiados: Propagación Rápida (Quickpropagation) y Propagación Elástica (Resilient Propagation). _ Quickpropagation: es una modificación del algoritmo estándar debackpropagation. A diferencia de este, la adaptación de los pesos no es solamente influenciada por la sensibilidad actual, sino también por la inclusión del error previo calculado.

_ Resilient Propagation: es otra modificación del algoritmo estándar de backpropagation. En oposición a este, la adaptación de los pesos es influenciada por el signo de la sensibilidad actual y antecesora, y no por su cantidad.

Topología de la red:

Evaluaron diferentes topologías de redes, las cuales no serán detalladas. La pregunta fue: (a) ¿cuántas capas ocultas son necesarias?, (b) ¿cuántas neuronas en cada una de ellas? La primera prueba que hicieron mostró que para este propósito la red debía contener 2 capas ocultas, con la primera formada por tantas neuronas como la capa de entrada y la segunda por un número menor que la primera (exactamente la mitad como mucho).

Resultados obtenidos a partir de los ensayos:

El primer resultado que consiguieron al intentar predecir la cifra representativa correcta fue relativamente mala. Asumieron que esto fue causado por el hecho de que el número de neuronas de entrada en proporción al número de ejemplos dados en el conjunto de datos de entrenamiento fue elevado. La pequeña base de datos, conforme con la gran capa de entrada, fue suficiente para realizar una tosca predicción, pero no para dar la correcta cifra representativa.

Lo mencionado en el párrafo anterior hizo que enfocaran toda la atención en reducir el número de neuronas de entradas en forma

124


apropiada. También examinaron la red con la cual se logró el mejor resultado, en función de conseguir indicadores de las entradas que demostraran ser importantes y cúales no. Entonces, reduciendo el número de neuronas de entrada y formando nuevas redes, consiguieron un resultado bastante bueno para la predicción de las clases y aún para la predicción de la cifra representativa correcta. En otra serie de test, examinaron los resultados que podrían favorecer a un mejoramiento por agrupación de las neuronas de entrada para las preguntas interdependientes. Cada grupo, que representaba una habilidad especial, fue conectado exactamente a una neurona en la primer capa oculta. La razón para esto fue que haciendo ciertas conexiones se reduce beneficiosamente el espacio de búsqueda, si y solo si, las conexiones representan la estructura correcta, pero puede reducir el espacio de búsqueda inapropiadamente por prohibición de otras conexiones.

5.2.2 Planificación de la demanda de materiales.

La tarea de planificar la demanda de materiales es justamente predecir en forma segura la necesidad de los mismos, o más exactamente, de los factores de consumo. Esto involucra tener una correcta información de los volúmenes aproximados de producción, así como de los factores de tiempo.

Principalmente para resolver esta tarea pueden distinguirse los siguientesprocedimientos:

o Programación orientada (program-oriented).o Consumo orientado (consumption-oriented).

En el método de programación orientada la predicción de la cantidad demandada se basa sobre los resultados del planeamiento de producción. Mientras que el método de consumo orientado toma en cuenta el consumo observado en períodos anteriores y sobre la base de dicha información intenta predecir las futuras demandas. Como primera aproximación utilizaron una red neuronal por predicción del consumo orientado; centralizando la investigación en la determinación de las habilidades de las redes para producir salidas correctas cuando analizan un dato real. El proyecto lo realizaron conjuntamente con la compañía que lo solicitó, la cual se dedica a la fabricación de bicicletas y por ende, necesita de tubos para la construcción de las mismas; cuyo consumo debían predecir.

Base de datos y codificación:

En la Figura 7.1 se muestran las series de tiempo que utilizaron para laplanificación de la demanda de materiales.

125


Figura 5.1: series de tiempo empleadas en laplanificación de la demanda de materiales.

Cada serie de tiempo incluye datos desde 1992 a 1994 (semanalmente). Las series, pedido y stock, fueron codificados dentro del intervalo [0.0, 0.9], para lo cual utilizaron una función de transformación lineal. Mientras que al consumo lo codificaron en dos pasos, porque esta serie de tiempo varía, en partes, de manera muy brusca. Para el primer paso emplearon la fórmula:

siendo mx el promedio de las series de tiempo y std(x) la desviación estándar de las series de tiempo. Y para el segundo aplicaron una transformación lineal a la nueva serie de tiempos z.

Topología de la red:

Sobre el ensayo de diferentes redes neuronales observaron que, sin importar la predicción que se haga (mensualmente, semanalmente), más de dos capas ocultas desfavorecía el resultado obtenido.

Primero experimentaron solamente con la serie de tiempo del consumo, y con una red neuronal constituida por nueve neuronas de entrada y una neurona más para la estación; empleando 80 patrones para el entrenamientos y 53 para la validación. La exactitud que lograron luego de varias corridas de la red neuronal, empleando diferentes topologías, se muestran en la Tabla 7.1 (error permitido: 20%, ciclos de aprendizaje: 10000, algoritmos de aprendizaje: Quickpropagation o Resilient Propagation).

126


Tabla 5.1

Como se puede observar, dando solo el consumo como una entrada no es suficiente para predecir la demanda. Luego, utilizaron todas las series de tiempo descriptas en la Figura 7.1 como entradas a la red neuronal y además, asignaron tres neuronas de entrada para cada serie de tiempo, lo que resultó en una capa de entrada de nueve neuronas; logrando para lasdiferentes topologías una exactitud como la que exhibe en la Tabla 5.1:

Tabla 5.2Los resultados citados no parecen ser suficientemente buenos para la aplicación de una red neuronal real en el campo del planeamiento de la demanda de materiales; no obstante, está claro que las técnicas de las redes neuronales son prometedoras para la tarea. Actualmente se están ensayando otros escenarios diferentes para mejorar las predicciones así obtenidas.

5.2.3 Puntuación para la solicitud de un crédito.

La puntuación para un crédito representa una tarea de gran riesgo para las instituciones crediticias. Estas instituciones tienen un fuerte interés en evitar tales situaciones, rechazando los candidatos que parecen ser un riesgo malo. Ya que un candidato rechazado, que de hecho era un buen riesgo crediticio, no impone costos reales; mientras que, un candidato que es incapaz de restituir el pago del crédito extendido puede causar pérdidas sustanciales (recordar el caso Schneider en Alemania).

---Diferentes métodos son aplicados en este campo. Muy a menudo la decisión tomada, aprobación o rechazo, se basa sobre los siguientes factores: carácter, capacidad y capital (créditos triple C); siendo esta solamente humana y naturalmente subjetiva. Otro método es la utilización de un sistema de puntuación numérico.

127


El mismo utiliza rasgos comunes que resultan ser importantes para la evaluación de los candidatos para un crédito. La importancia específica de cada simple característica está expresada por pesos. Cada candidato al crédito se pondera con una cierta cifra indicativa (suma integral de los rasgos) y si se sitúa por encima de un umbral determinado se considera como una persona digna de crédito.

Debido a que ambos métodos tienen aspectos negativos -subjetivamente por un lado y una simple dependencia lineal entre característica por el otro-, los esfuerzos apuntan a la aplicación de técnicas de inteligencia artificial, tales como Sistemas Expertos (XPS) y Redes Neuronales, en el campo de la puntuación para la solicitud de un crédito. Por lo tanto la tarea a ser consumada por medio de una red neuronal es tratar de predecir una correcta clasificación de los clientes.

Escenario de los datos:

Para recaudar información acerca de los candidatos aprobados y desaprobados recurrieron a diferentes instituciones crediticias, pero solamente unas pocas de ellas cooperaron; ya que la mayoría alegaba que los datos sobre los aspirantes a los créditos era un asunto interno y por consiguiente, reciben un trato confidencial. Puesto que la información de la que disponían era insuficiente, utilizaron un conjunto de datos públicos; el notorio conjunto de datos australiano (J. R. Quinlan), caracterizado como sigue en la Tabla 7.3:

Tabla 5.3

Codificación:

Codificaron los atributos continuos simplemente por una transformación lineal dentro del intervalo [0.1, 0.9], utilizando para esto solamente una neurona (real). Los atributos binarios también fueron codificados por medio de una neurona (binaria). Pensaron en la utilización de dos neuronas binarias, pero los ensayos no mostraron ninguna diferencia entre ambos tipos de codificación. En consecuencia utilizaron solamente una neurona para los atributos binarios.

128


A los atributos ordenados los trataron como sigue; ya que dependiendo de los diferentes valores que los mismos podían tomar, el número de neuronas utilizadas en la capa de entrada variaba. Codificaron cada posible valor en una neurona; por ejemplo si había tres valores posibles, se necesitaba de tres neuronas. El procedimiento de codificación fue como el mostrado en la Tabla 5.4:

Tabla 5.4

La capa de salida estaba formada por una simple neurona binaria que daba una clasificación bueno/malo.

Utilizando el procedimiento de codificación de la Tabla 5.4, al menos 32 neuronas les fueron necesarias en la capa de entrada. Por supuesto otras formas de codificación de los atributos pueden ser posibles.

Resultados:Para el entrenamiento y validación, dividieron el conjunto de datos de la Tabla 5.3 en dos subconjuntos. El número de ejemplos en cada subconjunto, se puede ver en la Tabla 5.5, en donde intentaron mantener una distribución similar de candidatos buenos y malos.

Tabla 5.5

El mejor resultado que obtuvieron, es el presentado en la Tabla 5.6 (Standard Backpropagation, tasa de aprendizaje: 0.2):

129


Tabla 5.6

Cuando emplearon dos capas ocultas el resultado no mejoró, a pesar de tomar más tiempo de CPU. También modificaron el grado de aprendizaje, fijándolo en 0.5 y 0.7 e iniciando diferentes series de tiempo, pero los resultados tampoco mejoraron.

6. Software Comerciales.

6.1 Aplicaciones del NeurOn-Line Studio a procesos de refinería y petroquímica.

Los procesos industriales han instalado extensamente, durante el transcurso de los últimos años, bases de datos históricas en tiempo real con gran capacidad de almacenaje. Los especialistas en Tecnologías de Información (Information Technologies, IT) hacen referencia a la metodología general para obtener información valiosa desde una gran base de datos como “data mining” (minería de datos). Una de tales metodologías son las Redes Neuronales (Neuronal Networks, NNs). El artículo describe la aplicación de un paquete de programas de NNs comercial (NeurOn-Line Studio, Gensym Corporation, Cambridge, Massachusetts, USA) a varios problemas de refinerías y petroquímicas. Se muestra como el moderno software es capaz de manejar apropiadamente la selección de la estructura de la NNs y la apropiada metodología de entrenamiento (es decir, minimizando la función objetivo adecuada, generalmente el problema del menor cuadrado). Se dan ejemplos sobre la utilización de NNs como analizadores virtuales, optimizadores y para la reducción de modelos.

Introducción:

Los procesos industriales han instalado extensamente, durante los últimos tiempos, bases de datos históricas en tiempo real con gran capacidad de almacenaje. En las refinerías e industrias petroquímicas tales bases de datos están recopilando datos del proceso en tiempo real desde los Sistemas de Control Distribuidos (Distributed Control Systems, DCS), a una típica frecuencia de muestreo de 1 minuto. Generalmente, las bases de datos están disponibles en línea por muchos años e

130


incluyen también los resultados de los análisis rutinarios de laboratorio. En una refinería típica, es normal recolectar miles de variables (tags), incluyendo variables de proceso y set-point, salidas de válvula y modo (por ejemplo: automático, manual, local, remoto, etc.) de los controladores. Estos historiadores en tiempo real están produciendo bases de datos muy grandes donde, aunque no siempre fácil de encontrar, puede extraerse una muy rica información relacionada al proceso. Debido a técnicas especiales de compresión, tales bases de datos tienen una tremenda capacidad de almacenamiento. Como un ejemplo, si 40,000 tags del DCS son muestreados cada minuto (un modesto número de una refinería de petróleo de tamaño medio), 57.6 millones de puntos de dats se recogen cada día, totalizando alrededor de 21 billones de puntos de datos anualmente.

No es inusual disponer on-line de varios años coleccionados, accesibles fácilmente utilizando herramientas de una PC estándar, tal como una hoja de cálculo Excel. El “data mining” (también conocido como Knowledge Discovery in Databases

– KDD) ha sido definido como “la extracción no trivial de información implícita, desconocida previamente, y potencialmente útil desde los datos” [Frawley et al., 1999].

– Haciendo uso de máquinas de aprendizaje, estadística y técnicas de visualización paradescubrir y presentar información en una forma en la cual es fácilmente comprensible por el ser humano.

La metáfora de la mina es realmente potente: hay vetas de material rico (esto es, datos útiles desde el punto de vista de la economía, seguridad y operación del proceso), oculto en una inmensa cantidad de datos crudos almacenados, muchos de los cuales se pueden considerar como escoria. El esfuerzo para extraer el material precioso de la escoria se basa en varias técnicas matemáticas y de IT que ayudan en la tarea. Una de tales metodologías son las Redes Neuronales (NNs), las cuales se describen resumidamente más abajo, pero pueden rápidamente ser definidas como un artefacto matemático que necesita ser alimentado (esto es, recibir entradas) con datos históricos para ser entrenado en orden a predecir una o más variables (esto es, generar salidas).

Pero las NNs, para explotar correctamente las vetas del material rico que se hallan en las grandes bases de datos, no necesita solamente ser alimentada con el dato apropiado de entrada y salida, sino también cumplimentar los siguientes 2 requisitos importantes: _ La NN debe tener una estructura capaz de representar adecuadamente el problema.

131


_ La NN debe ser entrenada con un algoritmo robusto y confiable, apto para converger a una solución aceptable.

No sorprendentemente, muchos de los artículos disponibles en este campo no abundan en las aplicaciones industriales de las NNs, pero si sobre los detalles matemáticos y características especiales de cada tipo de topología de NN (esto es: tipo de red, función de transferencia, número de capas) y/o algoritmo de entrenamiento (esto es: técnicas de minimización, temas de convergencia, detalles de programación, etc.).

Muchas veces puede gastarse mucho esfuerzo luchando con la mejor topología de NN y perderse muchas horas de CPU intentando obtener un ajuste y convergencia razonable. No fue hasta hace poco que los paquetes comerciales fueron capaces de prestar atención a los dos requisitos mencionados anteriormente. Este artículo presenta la experiencia recogida con la aplicación de uno de tales paquetes comerciales: NeurOn-Line Studio [Gensym, 1999], una herramienta poderosa para entrenar e implementar on-line las soluciones basadas en NNs

Redes Neuronales: descripción de la terminología usual y del software .

Muy buenas descripciones teóricas y prácticas de la tecnología de las NNs pueden encontrarse en varias publicaciones, pero la colección de artículos editados por Leonides (1998) puede mencionarse como una buena fuente de información sobre la teoría y práctica de las mismas. Esta sección solamente pretende dar una breve introducción a las capacidades del software NeurOn-Line Studio. El NeurOn-Line Studio puede utilizarse off-line u on-line, siendo una herramienta para el análisis de procesos. Típicamente la fuente de datos es un historiador de datos u otro archivo de datos. Empleando poderosas herramientas de visualización, es posible analizar un amplio conjunto de datos desordenados de hasta 100,000 registros y más de 100 variables.

El NeurOn-Line Studio provee una guía paso a paso a través del proceso de preprocesamiento de datos, configuración del modelo, entrenamiento, validación y puesta en línea. Para maximizar la productividad, muchas técnicas de decisión, tales como selección de las entradas relevantes, tiempos de retraso y arquitectura de la red, están automatizadas o convenientemente asistidas. Una vez que un modelo se ha construido, es posible utilizar el NeurOn-Line Studio para descubrir formas más ventajosas para correr el proceso a través de la simulación y de la optimización. Sobre la base de una función objetivo, que expresa rentabilidad en términos de variables de proceso predichas y medidas, el NeurOn-Line Studio aplica el modelo de

132


red neuronal para determinar las condiciones de operación óptima, dentro de las restricciones del caso.

Es posible implementar los modelos predictivos y las capacidades de optimización de NeurOn-Line Studio como controles ActiveX en el entorno deWindows NT, 2000 y 98. Los mismos pueden correrse en contenedores adecuados, que incluyen Visual Basic y aplicaciones C++, aplicaciones MS Office, y otros que siguen la norma COM, tales como los provistos por la mayoría de los proveedores de DCSs e historiadores de datos.

Los modelos del NeurOn-Line Studio pueden también fácilmente integrarse dentro del ambiente de las aplicaciones del sistema experto G2. Esta integración resulta estratégica, sobre todo por la colección de rutinas de conectividad del G2, orientación a objetos y su habilidad para representar reglas expertas en lenguaje natural estructurado. Empleando los modelos del NeurOn-Line Studio en esta forma aumentan la capacidad del G2 para el manejo inteligente de operaciones de proceso.

Aplicación de Redes Neuronales a la industria de procesos.

Como se ha mencionado, las Redes Neuronales permiten al ingeniero crear modelos para procesos utilizando datos históricos del mismo proceso. Los modelos pronostican cómo el proceso responderá a los cambios de entradas y diferentes condiciones de trabajo. Las condiciones de operación óptima, sujeta a restricciones, pueden también determinarse con las NNs correctamente formuladas. Los modelos identificados empleando NNs pueden utilizarse en estudios de proceso off-line o ser instalados on-line para suministrar una detección precoz de los problemas de proceso y determinar los set-point que continuamente optimicen el proceso para maximizar las ganancias.

Las NNs traen a la vida los datos históricos, revelando los factores más importantes que afectan la calidad y el rendimiento de los productos. Este conocimiento puede a menudo detectar mejoras sin ninguna inversión de capital. Las áreas generales de utilización potencial de las NNs son las siguientes:

Control de Calidad, Sensores Inferenciales y Reducción de Modelos.

En la economía globalizada de hoy en día, el gerenciamiento de la calidad en tiempo real esuna aplicación de vital importancia, pero los ensayos de calidad raramente están disponibles sin retardos y usualmente son onerosos. Los modelos basados en redes neuronales proporcionan medidas

133


“virtuales” en tiempo real, permitiendo acciones de control rápidas para mantener la calidad en el objetivo deseado. Los modelos pueden ser obtenidos no sólo a partir de los datos de planta y laboratorio sino de datos generados con corridas de modelos de simulación rigurosos (desarrollados, por ejemplo, en HYSYS). Este último procedimiento se conoce como “reducción de modelos”.

Optimización de Procesos. El valor de la optimización basada en modelos está bien probado pero, en general, los modelos analíticos de un proceso pueden ser muy difíciles de obtener. Al emplear redes neuronales en conjunto con su capacidad de optimización en línea y en tiempo real, puede ser posible obtener el mayor potencial económico de un proceso.

Mantenimiento Predictivo y Seguridad. Los modelos basados en redes neuronales pueden ser empleados para monitorear la performance de máquinas y equipos. Con ellos se pueden detectar tempranamente corrimientos o errores en los modelos operativos o sensores, permitiendo a los ingenieros corregir los problemas antes que devengan en incidentes mayores. Se puede mejorar, en consecuencia, la disponibilidad de plantas y equipos. El monitoreo continuo del contenido de emisiones (CEM, Continuous Emissions Monitoring) de NOx, CO2, SO2 en los gases de escape de hornos y calderas es una aplicación típica en esta área.

Validación de Sensores. La deriva progresiva y/o falla abrupta de las señales de sensores son la fuente principal de paradas de planta no planeadas y producción de productos fuera de especificación. Con los modelos basados en redes neuronales es posible seguir los valores de los sensores y generar alarmas cuando las medidas provenientes de los sensores físicos no están de acuerdo con los valores inferidos para los mismos. El valor inferido puede ser empleado también como línea de base en los casos en que el instrumento es recalibrado o reparado.

Predicción y Estimación. El futuro puede ser predicho dentro de la precisión que dan los modelos basados en comportamientos. Las redes neuronales pueden aprender los modelos óptimos, adaptados continuamente con el empleo de los últimos datos medidos. Los ingenieros pueden emplear estas predicciones para estimar la demanda de mercados de corto plazo, predecir estados futuros del proceso o aún condiciones meteorológicas que afecten a las emisiones e impacten sobre la vecindad de la planta. De algunas de las muchas aplicaciones experimentadas actualmente con el software: “NeurOn-Line Studio”, los ejemplos presentados en este artículo están resumidos en la Tabla 1:

134


Predicción del punto final de las naftas FCCU.

Con el objetivo de ejecutar una prueba del concepto para la aplicación del NeurOn-Line Studio como un sensor virtual, los datos fueron colectados desde el historiador de datos de la planta PI (OSI Soft) de la Refinería de La Plata de Repsol- YPF (Ensenada, Pcia. de Buenos Aires, Argentina). El objetivo fue inferir el 90% del Punto de Destilación de la nafta de la Unidad de Cracking Catalítico Fluidizado (Fluidized Catalytic Cracking Unit – FCCU). Este caso fue descripto en detalle por Ruiz (1999) pero una breve descripción se da a continuación.

Los datos fueron colectados utilizando la interfase Excel DataLink del historiador PI, colectando inicialmente 63 variables operativas, durante el período de junio-octubre de 1998. El volumen total de información recogida fue de 80 Mbytes aproximadamente. Después del filtrado de los datos, inspección para identificar los períodos de operación inestables o mal funcionamiento de los sensores, un período de 8 días fue seleccionado como el conjunto de entrenamiento. Un conjunto de validación independiente también fue extraído, para utilizarse sobre la validación del modelo finalmente entrenado.

135


El conjunto de datos de entrenamiento fue inspeccionado a fondo para detectar los períodos malos. La Figura 1 refleja el período cuando el caudal de alimentación a la FCCU se cambió de 170 a 180 m3/h. El NeurOn-Line Studio permite, directamente desde el gráfico, embanderar los datos para ser previamente preprocesados al entrenamiento de la NN.

Figura 1: cambio en el flujo de alimentación a la FCCU (marcados en rojo) de 170 a 180 m3/h.

Figura 2: gráfico X-Y mostrando la relación entre el caudal del reflujo de lacolumna principal y la variable a ser inferida (Punto del 90% de la nafta).

136


Figura 2: gráfico X-Y mostrando la relación entre el caudal del reflujo de lacolumna principal y la variable a ser inferida (Punto del 90% de la nafta).

Figura 3: predicción del punto final para la nafta de la FCCU (líneaamarilla) vs. el actual (línea verde) durante el período de validación.

En la Figura 2 un gráfico X-Y muestra la relación del caudal de reflujo con el punto final de la nafta. En el mismo, el período inestable correspondiente al caudal de alimentación de la planta se marcó también en rojo. Los otros puntos de operación marcados en amarillo son una porción también eliminada del períoo de entrenamiento porque una válvula de alivio de presión se abrió causando una perturbación en la columna principal.

Se entrenaron dos modelos, el primero de ellos utilizando como entradas variables de proceso con diferentes retrasos. Algunas de ellas se emplearon con el valor instantáneo y otras retrasadas en un rango de 30 minutos a 1 hora. El segundo modelo se entrenó empleando solamente 18 variables (modelo reducido), todas ellas retrasadas 1 hora. Ambos modelos exhibieron buenas predicciones del punto de destilación 90% de la nafta. Se prefirió el modelo reducido porque la menor cantidad de variables involucradas lo hacen más robusto con respecto la falla de los sensores. La Figura 3muestra el valor predicho y el actual, obtenido a partir del modelo reducido, para el período de validación.

Predicción de la calidad y reducción del modelo en una columna Splitter depropano/propileno.

137


Un modelo riguroso, basado en los principios fundamentales, de una columna de destilación empleada para separar una mezcla de propano y propileno se desarrolló tilizando el simulador HYSYS. El diagrama de flujo del proceso se exhibe en la Figura 4. Con la utilidad del caso de estudio de HYSYS (Case Study), se generó una grilla de alrededor de 900 puntos (esto es, 900 corridas), como se muestra en la Figura 5. Las variables de operación que se toman en consideración para el entrenamiento de la NN se presentan en la Figura 6. Para predecir el propileno producto y la composición de fondo del propano, se emplearon una mezcla de las variables manipuladas (por ejemplo, el caudal de reflujo a la columna y el calor en el reboiler), las variables externas (como el caudal de alimentación y la composición) y las variables de estado (como la temperatura de la alimentación).

Figura 4: diagrama de flujo del proceso obtenido a través del simulador HYSYS de la columnade separación C3/C3=.

138


Figura 5: facilidad del caso de estudio HYSYS empleado para generar la grilla de entrenamiento.

Como la grilla de datos generada para entrenar el modelo está libre de ruidos, la NN entrenada muestra una muy buena concordancia. En la Figura 7 puede mostrarse cuan buena es la predicción de la composición de producto de tope (propileno), ya sea en el gráfico de línea o en el X-Y, donde la composición predicha y al actual se comparan casi exactamente.

Figura 6: lista de las variables de HYSYS utilizadas para entrenar la NN.

139


Figura 7: valores del modelo de HYSYS vs valores predichos por el NeurOn-LineStudio para la composición de tope del propileno (ambos gráficos, de línea y X-Y).

Adicionalmente al modelo reducido de la NN, se creó un modelo de optimización. En este aso, el objetivo es obtener una cierta especificación de las composiciones de tope y fondo, manipulando el operario las variables, tomándose en consideración las perturbaciones externas y satisfaciendo todas las restricciones, incluyendo las variables de estado. En la Figura 8, se presenta la estructura del modelo de optimización. Las variables manipuladas, en este caso, son el caudal del reflujo de la columna tower y el caudal de producto, como se muestra en la Figura 9.

140


Figura 8: red de optimización para el separador C3.

Figura 9: clasificación de las variables del modelo de optimización del separador C3.

Estimación on-line del punto de weathering del LPG. Para controlar las especificaciones del producto propano, el operador hace determinaciones on-site del weathering point de ambos productos: propano y butano de la columna depropanizadora de la FCCU II, de la

141


Refinería de Luján de Cuyo de Repsol-YPF. Estos análisis manuales se ejecutan en el campo, con intervalos de aproximadamente 8 horas y reportados en una hoja de cálculo Excel. La planta tiene instalado también un cromatógrafo on-line sobre ambos productos de tope y fondo.

Se desarrolló una NN para predecir el weathering point del propano, basada en las condiciones de operación de la columna y cromatógrafos on-line. Los datos de operación se recogieron desde el historiador de datos PI (período mayo-junio 1999) y combinados con los datos de análisis generados por el operador de planta. El weathering point es una función directa (pero no sencilla) de la composición de las corrientes de productos. El primer modelo fundamental falló al predecir el weathering point correcto porque el análisis de rutina es una evolución ni isotérmica ni adiabática, pero sí politrópica. La metodología de la red neuronal es capaz de considerar el error metodológico del laboratorio. Una vez ás, se prepararon dos series de datos, una para el entrenamiento y otra para la validación de la NN entrenada. En la Figura 10 se exhibe el weathering point del 95% propano de para ambas series de datos.

La NN entrenada fue capaz de predecir muy bien la determinación del weathering point de la planta. En la Figura 11 puede exhibirse la predicción continua a través de un período de una semana. En el mismo gráfico están superpuestas las determinaciones hechas en el lugar.

142


Figura 11: predicción del weathering point del propano (rosa) vs el valor actual (rojo).

Conclusiones:

La tecnología de la NN ha demostrado ser una forma muy poderosa de obtener correlaciones buenas y confiables para ejecutar la aplicación de analizadores virtuales y para instalar en línea herramientas de optimización de proceso. El software, NeurOn-Line Studio, para desarrollar y poner en línea tal tecnología y cubrir las necesidades del personal de ingeniería, de tal manera que ningún profesionalismo se necesite poseer obre las NNs, pero sí sobre el proceso y las relaciones causa-efecto. reconocimientos: queremos agradecer a las siguientes personas quienes suministraron los datos y participaron en el desarrollo de algunos de los ejemplos presentados:.

Conclusiones

El Procesamiento de señales trata de la representación, transformación y manipulación de señales y de la importancia que contienen. Cuando se refiere al procesado digital de señales, se refiere a la representación mediante secuencias de números de precisión finita y el procesado se realiza utilizando un computador digital.

Las computadoras y las redes informáticas han producido un gran impacto en nuestra sociedad un impacto de enormes consecuencias, estas herramientas revolucionarias han multiplicado la productividad y eficiencia del trabajo, tanto como para las empresas y usuarios independientes. Ahora las redes neuronales son la propuesta de una solución a los problemas de gran complejidad, los cuales requieren de una gran implementación ya sea de soluciones a gran escala o dificultad.

143


A menudo es deseable que estos sistemas funcionen en tiempo real, lo que significa que el sistema en tiempo discreto se implementa de forma que las muestras de salida se calculan a la misma velocidad a la que se muestrea la señal en tiempo continuo. Son muchas las aplicaciones que requieren esta especificación.

El propósito de esta tesis es el mostrar un estudio sobre la aplicación y procesamiento de las señales digitales en las redes neuronales. Por lo tanto se logro mostrar la aplicación y el procesamiento como herramienta de señales digitales en las redes Neuronales.

Bibliografía

[Aracil91] Aracil, R., Jiménez, A., Sistemas discretos de Control, Servicio de Publicaciones de la ETS de Ingenieros industriales de Madrid, 1991.

[Barahon97] Barahona, E.. , ¿Qué es un Pentium MMX?, PC WORLD nº 132, pp135-139, 1997.

144


[Banks90] Banks, S., Signal Processing, Image Processing and Pattern Recognition, Prentice Hall, 1990.

[Burrus98] Burrus, C. S., McClellan, J. H., Oppenheim, A.V., Parks, T. W., Schafer, R.W., Schuessler, H., W., Ejercicios de tratamiento de la señal utilizando MATLAB v.4, Prentice Hall, 1998.

[Embree91] Embree, P.M., Bruce, K., C language algorithms for signal processing, Prentice Hall, 1991.

[Ifeachor96] Ifeachor, E.C., Digital Signal Processing. Principles, Algorithms and Applications, Prentice-Hall, 1996.

[Krauss95] Krauss, T.P., Shure, L., Little, J.N., Signal Processing Toolbox (User's Guide), The Math Works, Inc., 1995.

[Miguel88] De Miguel, P., Fundamentos de computadores, Paranifo, 1988.

[Oppenhe94]Oppenheim, A. V., Willsky, A. S., Señales y Sistemas, Prentice Hall Iberoamericana, 1994.

[Oppenhe98]Oppenheim, A. V., Willsky, A. S., Nawab, S. H., Señales y Sistemas, Prentice Hall Iberoamericana, segunda edicción, 1998.

[Oppenhe00]Oppenheim, A. V., Schafer, R. W., Buck, J. R., Tratamiento de señales en tiempo discreto, Prentice Hall, 2000.

145

introducción al procesamiento digital de señales€¦ · web view2007-06-08 · juan carlos...

Documents