en esta unidad hablaremos de la representación de los ... · el código ascii usa siete bits, así...

En esta unidad hablaremos de la representación de los caracteres.

La representación de texto es diferente de la representación de

números, en el sentido que el texto solo es una convención creada por

los humanos. Para representar caracteres de texto en binario se

emplea una tabla de traducción creada por un comité.

La tabla de traducción más empleada es la del código ASCII. Se

desarrolló para comunicaciones telegráficas. Tiene una longitud fija

para todas las letras y dos estados(punto o raya), así que era muy

sencillo traducirlo al binario.

El código ASCII usa siete bits, así que podemos representar 128

caracteres diferentes. En la tabla podemos ver los primeros 3 bits en la

parte de arriba y los 4 últimos en la parte de la izquierda.

Las primeras 32 combinaciones son caracteres de control, no

imprimibles (cosas como el inicio de una transmisión, retorno de carro,

alimentación de líneas)

Los números se codifican asumiendo que los últimos 4 bits son el valor

numérico de la cifra

Las letras mayúsculas y las minúsculas se diferencia por un bit.

EBCDIC fue creado por IBM para las tarjetas perforadas que usaban

los primeros ordenadores

Se usaba en los computadores centrales tres seis cero.

Las letras se representan en 3 bloques

Y los números siguen el mismo criterio que con ASCII , pero con una

codificación diferente

El problema con estos códigos era que los sets de caracteres que

representaban eran demasiado pequeños, por tanto, se creo Unicode

Unicode es un codificación “lingüística-independiente” con suficiente

espacio para representar cualquier carácter de cualquier lengua del

mundo

Es, por tanto, una representación universal y uniforme, ya que usa una

longitud de codificación fija. Cada carácter tiene una única codificación

y cada codificación pertenece a un único carácter.

Unicode tienen 3 codificaciones principales. UTF-8 es una de ellas. Es

el más extendido por los navegadores web. Por ejemplo, permite la

combinación de carácter de diferentes lenguas en una misma página

web, como podemos ver en Wikipedia.

UTF-8 utiliza una representación de longitud variable, con los números

representados por 1 a 4 bytes. Los caracteres con un byte se asocian

directamente con la tabla ASCII. Los caracteres de lenguas románicas,

griego, árabe, cirílico y otros están codificadas con dos bytes. Tres

bytes están reservados para el grupo chino, japonés y coreano. Por

último, los caracteres suplementarios se incluyen mediante el uso de

un cuarto byte.

Por ejemplo aquí podemos ver la representación de algunos símbolos

monetarios en UTF-8

en esta unidad hablaremos de la representación de los ... · el código ascii usa siete bits, así...

Documents