p16 documentos textuales

P16_Documentos Textuales

Antonio Polo MárquezDISIT - UEXRevisión PL1011 -GRUPO 4:

ISMAEL GUTIÉRREZ SÁNCHEZ

MARÍA DOLORES VILLALOBOS ORTIZ

ENRIQUE M. MEDIERO SÁNCHEZ

Procesadores de Lenguajes

Departamento de Ingeniería de Sistemas Informáticos y Telemáticos (DISIT) - UEX

UTF (Unicode Transformation Format):

Es un estándar para la codificación de caracteres. Define una tabla que representa caracteres como números. A cada carácter se le asocia un número. En Unicode a ese número se le llama code point.

ÍNDICE:- UTF 8- UTF 16- UTF 32

Codificación

Permite representar los caracteres de las lenguas más habladas en el mundo, incluso otros símbolos como caracteres matemáticos, signos de puntuación, etc. además de caracteres de control.

Es decir, Unicode permite escribir con la misma codificación de caracteres en cualquiera de las múltiples lenguas soportadas.

El mapa de caracteres Unicode se va ampliando y revisando con el tiempo (+100.000 caracteres definidos).

El Unicode Consortium (consorcio de empresas privadas), realiza revisiones periódicamente y publica nuevos estándares.

Actualmente Unicode está en la versión 6.0 y contiene emoticonos.

www.unicode.org/versions/Unicode6.0.0/

UTF

Representa los code points utilizando sólo 1 byte.

Es una codificación de longitud variable (utiliza entre 1 y 4 bytes) para codificar los code points.

Si el code point tiene un valor entre U+0000 y U+007F se utiliza 1 byte. Todos los code points en este rango al ser pasados a binario tienen un cero a la izquierda (7F en hexadecimal es 127 en decimal, 01111111 en binario).

Si el code point tiene un valor entre U+0080 y U+07FF se utilizan 2 bytes. El layout binario será 110xxxxx 10xxxxxx

Si el code point tiene un valor entre U+0800 y U+FFFF se utilizan 3 bytes. El layout binario tiene este aspecto: 1110xxxx 10xxxxxx 10xxxxxx

Si el code point tiene un valor entre U+10000 y U+10FFFF se utilizan 4 bytes.

UTF 8

UTF 8

Representación Unicode compactada (1 a 4 bytes)

– 1 byte rango U+0000 a U+007F (128)– 2 bytes rango U+0080 a U+07FF(1920)– 3 bytes rango U+0800 a U+FFFF(61.440)– 4 bytes rango U+10000 a U+10FFFF(1.048.576)

En total =1.112.064

Codificación UTF 8

Es una codificación de longitud variable (utiliza entre 2 y 4 bytes)

A partir de UTF-16 se definen 3 esquemas de codificación:Unicode define una marca especial, llamada BOM (Byte Order Mark), al inicio de un fichero o una comunicación para hacer explícita la ordenación de bytes. Si este no se especifica se asume que la ordenación de bytes es big-endianEsta marca es el carácter con punto de código U+FEFF. Cuando se encuentra en una posición inicial, puede ser interpretado como BOM.Cuando un protocolo superior especifica el orden de bytes, la marca no es necesaria y puede omitirse dando lugar a los esquemas de la lista con sufijo BE o LE.

UTF 16

Generalmente el BOM es una secuencia difícilmente visible en la mayoría de las codificaciones convencionales u otras codificaciones Unicode . Aun cuando un BOM se interprete erróneamente como un carácter real contenido en el texto no podrá ser visto debido al hecho de que es un zero-width no-break space.

En UTF-16, un BOM se expresa mediante una secuencia de dos bytes al principio de la cadena codificada para indicar el orden de escritura que emplean los caracteres que la siguen, siendo ésta: FE FF si emplean el orden big-endian (escritura secuencial en el orden natural de lectura) o FF FE si emplean el orden little-endian (al contrario).

UTF-8 no está relacionado con ninguna problemática de orden de bytes un BOM. Puede ser empleado para etiquetar el texto como UTF-8. La representación UTF-8 del BOM es la secuencia de bytes EF BB BF, que aparece como los caracteres ISO-8859-1 "ï»¿" en la mayoría de los editores de textos y navegadores no configurados para manejar UTF-8.

Aunque un BOM puede ser empleado con UTF-32, esta codificación casi nunca se usa en la práctica para ningún tipo de transmisión .

UTF 16-BOM

UTF 16-BOM

Es capaz de codificar 1.112.064 símbolos en el espacio de código Unicode de 0 a 0x10ffff Unicode. Se produce un resultado de longitud variable de una o dos unidades de 16 bits de código por code point.

UTF 16

Es una codificación de longitud fija (4 bytes)

Cualquier carácter puede ser representado en UTF-32.

También puede codificarse utilizando BE y LE y se puede especificar como se ve en la imagen de la diapositiva anterior.

UTF 32

www.unicode.org

2^32= 4.294.967.296

Si bien esto permite la codificación de 2 ^ 32 caracteres diferentes, tan solo los valores entre 0 y 0x10ffff se permiten en este sistema (limitada a los 1.114.112 primeros) .

UTF 32

Diferencias en codificaciones UTF

Ejemplo Codificaciones UTF(1)

Ejemplo Codificaciones UTF(2)

UTF 8: Es la mejor elección en lenguas occidentales, donde la mayor parte de los caracteres están entre U+0000 y U+007F, UTF-8 puesto que el documento ocupará poco espacio.

Además UTF 8 se ha hecho coincidir con el estándar ASCII (1byte). De este modo un documento guardado usando UTF-8 que utilice sólo ese rango de caracteres es totalmente compatible con ASCII codificado en 8 bits.

Por esto es el más popular de Unicode.

Observaciones

UTF-8 es el más utilizado en la web. UTF-16 es usado por Java y Windows. UTF-32 es usado en varios sistemas Unix.

La conversión entre estas codificaciones se basa en algoritmos rápidos y sin perdida. Esto permite el manejo de entrada y salida de datos en múltiples formatos.

Observaciones

Probar la herramienta disponible en el paquete GNUWIN32 ICONV. Para ello:

En símbolo de sistema acceder a la carpeta bin de GNUWIN32.Escribir:

Iconv –f codificación original -t codificación destino <fichero de origen> fichero destino

Ej: lconv –f UTF-8 –t UTF-16 <PRUEBA.TXT> PRUEBA16.TXT

Práctica

Probar los siguientes conversores disponibles en internet:

– http://www.fileformat.info/convert/text/utf2utf.htm– http://www.fileformat.info/convert/text/charset.htm

A partir del fichero idalumno-Grupo-Idgrupo probar en NotePad++ y guardarlo con codificación UTF-8 y UTF 16. Nota: Para ver ficheros en hexadecimal con NotePad++ se necesita el plugin HexEditor_0_9_4_UNI_dll que se adjunta en el directorio herramientas.

Práctica

Para comprobar que los resultados obtenidos son correctos:

Utilizar la herramienta «file» de GNUWIN32 desde símbolo de sistema.

Ej: file fichero.txt

Nota: la codificación de UTF-32 se muestra como data.

También se puede observar la diferencia de tamaño de los ficheros dependiendo de la codificación utilizada.

Práctica

Procesadores de Lenguajes © Antonio Polo Márquez. DISIT-UEX

Ejercicio Opcional: Conexión con P04-Plantillas

Ampliar los conocimientos adquiridos en la práctica P04-Plantillas. Allí vimos:

– Contenido Estructurado. La estructura interna (XML) de un documento de texto de los sistemas ofimáticos (OpenOffice/ MSOffice Word).

[Transformación ODT <-> XML]+ [Validación sintáctica]– Presentación. Definición y uso de estilos y plantillas – Semántica. Validación semántica del contenido estructurado– Aplicación de plantillas y Procesamiento automático del

contenido de documentos (combinación de correspondencia)

Actividades: Extensión P04-Plantillas

Realizar de forma individual las siguientes actividades:1. Escribir en un fichero P09-idalumno.docx un informe personal sobre el

buen uso de editores de texto. Dicho fichero debe:1. Ejemplificar las propuestas de buen uso del editor2. Incluir al menos 10 Reglas de oro para el buen uso de un editor de texto3. Autoanálisis de la estructura más adecuada de un informe o documento4. Documentar las actividades siguientes (codificación, eml,

compresion/encriptación, RI)

Procesadores de Lenguajes © Antonio Polo Márquez. DISIT-UEX

p16 documentos textuales

Spiritual