en esta unidad hablaremos de la representación de los ... · el código ascii usa siete bits, así...
TRANSCRIPT
En esta unidad hablaremos de la representación de los caracteres.
La representación de texto es diferente de la representación de
números, en el sentido que el texto solo es una convención creada por
los humanos. Para representar caracteres de texto en binario se
emplea una tabla de traducción creada por un comité.
La tabla de traducción más empleada es la del código ASCII. Se
desarrolló para comunicaciones telegráficas. Tiene una longitud fija
para todas las letras y dos estados(punto o raya), así que era muy
sencillo traducirlo al binario.
El código ASCII usa siete bits, así que podemos representar 128
caracteres diferentes. En la tabla podemos ver los primeros 3 bits en la
parte de arriba y los 4 últimos en la parte de la izquierda.
Las primeras 32 combinaciones son caracteres de control, no
imprimibles (cosas como el inicio de una transmisión, retorno de carro,
alimentación de líneas)
Los números se codifican asumiendo que los últimos 4 bits son el valor
numérico de la cifra
Las letras mayúsculas y las minúsculas se diferencia por un bit.
EBCDIC fue creado por IBM para las tarjetas perforadas que usaban
los primeros ordenadores
Se usaba en los computadores centrales tres seis cero.
Las letras se representan en 3 bloques
Y los números siguen el mismo criterio que con ASCII , pero con una
codificación diferente
El problema con estos códigos era que los sets de caracteres que
representaban eran demasiado pequeños, por tanto, se creo Unicode
Unicode es un codificación “lingüística-independiente” con suficiente
espacio para representar cualquier carácter de cualquier lengua del
mundo
Es, por tanto, una representación universal y uniforme, ya que usa una
longitud de codificación fija. Cada carácter tiene una única codificación
y cada codificación pertenece a un único carácter.
Unicode tienen 3 codificaciones principales. UTF-8 es una de ellas. Es
el más extendido por los navegadores web. Por ejemplo, permite la
combinación de carácter de diferentes lenguas en una misma página
web, como podemos ver en Wikipedia.
UTF-8 utiliza una representación de longitud variable, con los números
representados por 1 a 4 bytes. Los caracteres con un byte se asocian
directamente con la tabla ASCII. Los caracteres de lenguas románicas,
griego, árabe, cirílico y otros están codificadas con dos bytes. Tres
bytes están reservados para el grupo chino, japonés y coreano. Por
último, los caracteres suplementarios se incluyen mediante el uso de
un cuarto byte.
Por ejemplo aquí podemos ver la representación de algunos símbolos
monetarios en UTF-8