la teoría de la información

La teora de la informacin

Una teora de la informacin es, de hecho, una teora de la medida de la informacin como consecuencia de la idea de que sta es medible. En 1922, R.A. Fisher propona una definicin cuantitativa de la cantidad de informacin contenida en datos experimentales susceptibles de tratamiento estadstico. Ms tarde, el desarrollo de las telecomunicaciones impuso la necesidad de medir la informacin transmitida a travs de un canal, en este caso el hilo metlico.

La cronologa del desarrollo del estudio de la teora de la informacin podra resumirse del siguiente modo:

1928, R. Y. Hartley, en el congreso internacional de telefona y telegrafa, propuso un mtodo de comparacin de los distintos sistemas transmisores de informacin. 1948, C.E. Shannon, partiendo del problema concreto de la transmisin por hilo, halla la medida de la cantidad de incertidumbre asociada a un campo de probabilidades finito, inspirada en el modelo de entropa termodinmica de Boltzmann (1894). Fue l mismo quien dio las nociones de fuente, canal, perturbacin, etc., as como algunos de los teoremas fundamentales de la codificacin que son la base de esta teora de la informacin que nos disponemos a estudiar. 1953, B. McMillan reemprendi los trabajos de Shannon e introduce las definiciones matemticas de fuente de informacin y canal de transmisin. Pasa de las fuentes de Markov a las fuentes ergodinmicas (existencia del vector de probabilidades de estado estacionarias). 1954, A. Feinstein dio la primera demostracin completa del teorema de codificacin, enunciado por Shannon para los canales sin memoria. 1956, A.L Khintchine elabor el primer tratamiento matemtico riguroso y completo de la teora de la informacin para los canales estacionarios ergdicos y para los canales con memoria finita y sin anticipacin. 1962, M.L. Minsky desarroll las ideas de R.J.Solomonoff sobre la teora algotmico de la informacin basada en la complejidad asociada a la realizacin de un cierto algoritmo, por medio de una cierta mquina de Miring. Posterior-, mente, esta teora se ha ido desarrollando por otros autores como A.N.KoImogorov, P.Martin-L5f y G.J.Chaitin. 1963, S. Winograd y J.D. Cowan publicaron un buen trabajo sobre la teora de autmatas fiables, construidos a partir de partes no fiables, estableciendo una conexin entre la teora de la comunicacin de Shannon y la de autmatas, desarrollada anteriormente por Von Neumann.

Durante los aos sesenta del siglo pasado se lleva a cabo una revisin de la teora de la informacin de Shannon para contemplar aspectos semnticos de la informacin. Tales revisiones son los trabajos de Rnyi, Forte, Kamp de Friet, Aczel, etc.

La teora creada en 1940 por el por el ingeniero Claude E. Shannon, Los problemas que plantea Shannon, tienen que ver con la cantidad de informacin, la capacidad del canal de comunicacin, el proceso de codificacin que puede utilizarse para cambiar el mensaje en una seal y los efectos del "ruido". Pero no se refiere a las personas como protagonistas de la comunicacin, sino al proceso desde la perspectiva de:

Sus aspectos medibles.

A las condiciones idneas de transmisn de informacin entre mquinas.

Al clculo de la prdida de informacin transmitida a travs de un canal.

Su teora se utiliza para medir la informacin y su contenido. El contenido de la informacin de un suceso = una funcin decreciente de la probabilidad de su aparicin. Shannon utilizo el algoritmo de la inversa de la probabilidad.

Principios de la medicin de informacin

De acuerdo a estas consideraciones probabilsticas es posible establecer un primer principio de la medicin de informacin. Este establece que mientras ms probable sea un mensaje menos informacin proporcionar. Esto puede expresarse de la siguiente manera: I(xi) > I(xk) si y slo si p(xi) < p(xk)

donde

I(xi): cantidad de informacin proporcionada por xi p(xi): probabilidad de xi

De acuerdo a este principio, es la probabilidad que tiene un mensaje de ser enviado y no su contenido, lo que determina su valor informativo. El contenido slo es importante en la medida que afecta la probabilidad. La cantidad de informacin que proporciona un mensaje vara de un contexto a otro, porque la probabilidad de enviar un mensaje vara de un contexto a otro. Un segundo principio que guarda relacin con las elecciones sucesivas establece que si son seleccionados los mensajes X e Y, la cantidad de informacin proporcionada por ambos mensajes ser igual a la cantidad de informacin proporcionada por X ms la cantidad de informacin proporcionada por Y, dado que X ya ha sido seleccionada. Esto puede ser expresado as: I(xi e yj) = f p(xi) + f p(yj/xi)

donde

I(xi e yj): cantidad de informacin proporcionada por los mensajes xi e yj f: funcin p(xi): probabilidad de xi p(yj/xi): probabilidad de yj dado que xi ha sido seleccionado.

Unidad de informacin

Una vez que hemos seleccionado el mensaje expresado en un lenguaje determinado es posible transcribirlo a un cdigo de tipo binario. Este consta de slo dos tipos de seales que indican Si o No, y que generalmente se codifican como 1 o 0. La cantidad de informacin proporcionada por cada eleccin entre dos alternativas posibles constituye la unidad bsica de informacin, y se denomina dgito binario, o abreviadamente bit. La eleccin existente al tener un bit de informacin puede ser esquematizada de la siguiente manera:

En la eleccin (b) tanto la lnea superior como la inferior, es decir ambas posibilidades, pueden ser elegidas con la misma probabilidad de r/2. Si existen N posibilidades, todas igualmente probables, la cantidad de informacin ser igual a Log2N. Es, entonces, el Log2N la funcin matemtica que nos indicar la cantidad de bits de informacin de una situacin determinada. Esto puede esquematizarse de la siguiente manera:

La figura nos muestra una situacin con 8 posibilidades, cada una con una misma probabilidad de 1/8. Para poder determinar una posibilidad especfica de estas 8, la eleccin requiere como mnimo 3 etapas, cada una de las cuales arroja un bit de informacin. El primer bit corresponde a la eleccin entre las primeras cuatro o segundas cuatro posibilidades. El segundo bit corresponde al primer o segundo par de las 4 posibilidades ya elegidas. El ltimo bit determina el primer o segundo miembro del par y especifica la posibilidad elegida. Como vemos, el primero de bits que se requieren en esta situacin para determinar una posibilidad especfica es de 3, lo que corresponde al Log28. Veamos ahora algunos ejemplos de lo recin expuesto:

Elecciones

Signo123

A111

B110

C101

D100

E011

F010

G001

H000

Esta figura nos muestra un alfabeto compuesto por slo 8 signos. Pensemos que una fuente de informacin selecciona un signo y de alguna manera se lo seala al receptor. La pregunta sera entonces, cunta Informacin deber conocer el receptor para identificar correctamente el signo escogido?

Asumamos que a partir de elecciones anteriores sabemos que cada uno de los 8 signos tiene la misma probabilidad de ser seleccionado. La incertidumbre, entonces, se ha repartido uniformemente sobre nuestro "alfabeto", o lo que es lo mismo, las probabilidades a priori de los signos son iguales; en este caso 1/8.

Las seales que llegan al receptor representan instrucciones para seleccionar alternativas. La primera instruccin responde a la pregunta est en la primera mitad del alfabeto, si o no? (en la figura, si = 1 y no = O). La respuesta nos proporciona un bit de informacin y reduce el rango de incertidumbre exactamente a la mitad. Luego, una segunda instruccin divide cada mitad nuevamente en la mitad y, una tercera instruccin, otra vez en la mitad. En este caso, bastan tres simples instrucciones Si-No (1-0) para identificar un signo cualquiera de un total de ocho. La letra F, por ejemplo, podra ser identificada de la siguiente manera: 010. La respuesta a nuestra pregunta es entonces, el receptor deber obtener tres bits de informacin para identificar correctamente el signo escogido! El tpico juego de las "Veinte Preguntas" ilustra tambin algunas de las ideas mencionadas. Este juego consiste en que una persona piensa en un objeto mientras el resto de los jugadores intenta adivinar de que objeto se trata, haciendo no ms de veinte preguntas que slo pueden ser respondidas Si o No. De acuerdo a la Teora de la Informacin, cada pregunta y su respuesta pueden proporcionar desde ninguna informacin hasta un bit de informacin (Log22), dependiendo de si las probabilidades de obtener resultados Si o No son muy desiguales o casi iguales, respectivamente. Para obtener la mayor cantidad de informacin posible los jugadores debern hacer preguntas que dividan el conjunto de posibles objetos en dos grupos igualmente probables. Por ejemplo, si mediante preguntas previas se ha establecido que se trata de una ciudad de Chile, una buena pregunta sera "Est al sur del ro Maipo?". As se dividen las ciudades posibles en dos grupos aproximadamente iguales. La segunda pregunta podra ser "Est al sur del ro Bio-Bio?". Y as sucesivamente hasta determinar de que ciudad se trata. Si fuera posible hacer preguntas que tuvieran la propiedad de subdividir las posibilidades existentes en dos grupos relativamente iguales, seria posible identificar mediante veinte preguntas un objeto entre aproximadamente un milln de posibilidades. Esta cifra corresponde a los 20 bits que se requieren para identificarla (Log2 1.000.000).

Redundancia

No obstante lo anterior, la mayora de las fuentes de informacin producen mensajes que no consisten en una nica eleccin entre posibilidades de igual probabilidad, sino en elecciones sucesivas entre posibilidades de probabilidad variable y dependiente. A este tipo de secuencias se les denomina procesos estocsticos. Como ya lo mencionamos, el caso ms tpico son las letras y palabras que conforman el lenguaje. El escribir en espaol constituye un proceso de elecciones dependientes. Por ejemplo, al formar una palabra se elige una primera letra de todas las posibles primeras letras con diferentes probabilidades; luego, se elige la segunda letra cuya probabilidad depende de la primera letra seleccionada, y as sucesivamente hasta formar la palabra deseada. Lo mismo ocurre en el caso de las palabras para formar oraciones. Lo importante aqu es sealar el hecho de que, en la medida que se avanza en la formacin de una palabra u oracin, el rango de posibles letras o palabras a ser seleccionadas va disminuyendo y la probabilidad de que ciertas letras o palabras especficas sean seleccionadas va aumentando. Dicho de otra forma, tanto la incertidumbre como la informacin de las ltimas letras de una palabra o de las ltimas palabras de una oracin es menor comparada con las primeras. La mayora de los mensajes se constituyen a partir de un nmero limitado de posibilidades, por ejemplo, slo 29 letras en el caso de nuestro idioma. Como vimos, la probabilidad de ocurrencia de una de estas posibilidades dentro de un mensaje depende de las posibilidades seleccionadas previamente; por ejemplo, la probabilidad de que ocurra la letra "q" luego de una "p" es O. Son estos dos hechos los que en conjunto determinan que todo mensaje contenga cierto grado de redundancia. En otras palabras, la redundancia se refiere a que las posibilidades dentro de un mensaje se repiten, y se repiten de una cierta manera predecible. Mientras mayor sea, entonces, la redundancia de un mensaje, menor ser su incertidumbre y menor la informacin que contenga.

El ingls escrito es un tipo de fuente de informacin que ha sido ampliamente estudiado. Se ha llegado a determinar que la redundancia de la lengua inglesa esta muy prxima al 50%. Es decir, al escribir ingles aproximadamente la mitad de las letras y palabras que se emplean dependen de la libre eleccin de quien escribe, mientras que la otra mitad est determinada por la estructura probabilstica del idioma.

La redundancia de los idiomas permite que si se pierde una fraccin de un mensaje sea posible completarlo en forma muy aproximada al original. Este hecho se puede observar al eliminar varias letras de una oraci6n sin que ello impida al lector completar las omisiones y rehacer la oracin. Por ejemplo, en la siguiente frase han sido omitidas las vocales: CMPLT ST FRS

Otra funcin importante de la redundancia es que nos permite ahorrar tiempo en la decodificacin de los mensajes. Generalmente, no leemos cada una de las letras y palabras que conforman un texto, sino que vamos adivinando lo que viene. En el caso del telgrafo, por ejemplo, podramos ahorrar tiempo ideando un cdigo poco redundante y transmitiendo el mensaje a travs de un canal sin ruido. Sin embargo, cuando el canal utilizado tiene ruido es conveniente no emplear un proceso de codificacin que elimine toda la redundancia, pues la redundancia nos ayuda a combatir el ruido. Si se pierde parte del mensaje por el ruido que afecta al canal, la redundancia nos permite rehacer en forma aproximada el mensaje. Por el contrario, la fraccin de un mensaje no redundante que se pierde por el ruido es imposible de ser recuperada. La redundancia de los mensajes nos permite, entonces, corregir con facilidad los errores u omisiones que hayan podido ocurrir durante la transmisin.

Capacidad del canal

Ahora que ya hemos precisado el concepto -de informacin y los conceptos relacionados con l (incertidumbre, bit, redundancia) podemos volver a plantearnos el problema inicial de definir la capacidad de un canal determinado para transmitir informacin. Dado un canal con una capacidad de C unidades por segundo que recibe seales de una fuente de informacin de H unidades por segundo, la pregunta es cunto es el mximo nmero de bits por segundo que puede ser transmitido a travs de este canal? Por ejemplo, un teletipo consta de 32 smbolos posibles que supondremos son empleados con igual frecuencia. Cada smbolo representa entonces 5 bits (Log232) de informacin. De esta forma, si en ausencia total de ruido podemos enviar N smbolos por segundo a travs de este canal, entonces podremos enviar 5N bits de informacin por segundo a travs de dicho canal. Son estas dos cantidades, la tasa de transmisin H por la fuente de informacin y la capacidad C del canal, las que determinan la efectividad del sistema para transmitir informacin. Si H > C ser ciertamente imposible transmitir toda la informacin de la fuente, no habr suficiente espacio disponible. Si H C ser posible transmitir la informacin con eficiencia. La informacin, entonces, puede ser transmitida por el canal solamente si H no es mayor que C. El teorema fundamental para un canal sin ruido que transmite smbolos discretos afirma que si se emplea un procedimiento adecuado de codificacin para el transmisor es posible conseguir que el ritmo medio de transmisin de smbolos por el canal sea muy prximo a C/H. Por muy perfecto que sea el procedimiento de codificacin, dicho ritmo nunca podr ser mayor de C/H. Sin embargo, el problema de calcular la capacidad del canal se complica por la presencia de ruido. La presencia de ruido durante la transmisin provocar que el mensaje recibido contenga ciertos errores que contribuirn a aumentar la incertidumbre. Recordemos que la informacin es una medida del grado de libertad de eleccin que poseemos al momento de seleccionar un mensaje. Cuanto mayor sea la libertad de eleccin, mayor ser la falta de seguridad en el hecho de que el mensaje enviado sea uno determinado. La incertidumbre ser mayor y mayor la cantidad de informacin posible. De esta forma, si el ruido aumenta la incertidumbre, aumentar la informacin. Esto parecera indicar que el ruido es beneficioso, puesto que cuando hay ruido, la seal recibida es seleccionada a partir de un mayor conjunto de seales que las deseadas por el emisor. Sin embargo, la incertidumbre originada por la libertad de eleccin del emisor es una incertidumbre deseable; la incertidumbre debida a errores por la influencia del ruido es una incertidumbre no deseable. Para extraer la informacin til de la seal recibida es necesario suprimir la ambigedad introducida por el ruido. Para ello se recurre a un factor de correccin matemtico que no entraremos a analizar. El teorema para la capacidad de un canal con ruido se define como el ritmo mximo a que la informacin til (incertidumbre total menos la incertidumbre debida al ruido) puede ser transmitida a travs del canal.

la teoría de la información

Documents