tesina insercion de informacion oculta en archivos pdf

Upload: ruben-jonathan-garcia-vargas

Post on 26-Feb-2018

218 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    1/73

    INSTITUTO POLITECNICO NACIONAL

    ESCUELA SUPERIOR DE INGENIERA MECNICA Y ELCTRICA

    SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION

    INSERCIN DE INFORMACIN OCULTA EN ARCHIVOS PDF

    TESINA

    QUE PARA OBTENER EL GRADO DE:

    ESPECIALISTA EN SEGURIDAD INFORMATICA Y TECNOLOGIAS DE LA INFORMACION

    PRESENTA:

    Ing. RUBEN JONATHAN GARCIA VARGAS

    ASESOR: Dr. MARIO GONZALEZ LEE

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    2/73

    ii

    Mxico D.F 2011

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    3/73

    iii

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    4/73

    iv

    Resumen

    En la actualidad las empresas e instituciones de gobierno usan los documentos digitales

    diariamente confiando en que su informacin no ser modificada, sin embargo esto es un riesgo

    ya que no se puede garantizar que alguien que tenga acceso a un documento digital no sea capaz

    de modificarlo. En el presente trabajo se propone un mecanismo para insertar informacin demanera oculta en un archivo PDF utilizando la estructura interna del mismo por medio de una

    llave de insercin que se agrega a los diccionarios de los objetos PDF, y se presenta un mtodo de

    codificacin de caracteres de texto en objetos PDF numricos con un lmite definido por el usuario

    de hasta 8 caracteres por diccionario. As mismo se presenta el mtodo de verificacin y

    decodificacin correspondiente tomando una llave para hacer la revisin de diccionarios y un

    lmite para el proceso de decodificacin de nmeros decimales a caracteres de texto. Tambin se

    presenta una implementacin del modelo de insercin propuesto por medio de un programa

    hecho C# capaz de abrir un archivo PDF, calcular la capacidad e insercin, extraer una lista de

    posibles objetos insertables, y realizar los procesos de insercin, codificacin, verificacin y

    decodificacin usando las llaves y limites que indique el usuario. As mismo la aplicacin puedeintroducir el texto de un archivo txt y recuperarlo posteriormente en otro. Por ltimo se presentan

    las pruebas del sistema y las limitaciones que presenta.

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    5/73

    v

    Agradecimientos

    A mis padres que me apoyan y motivan a seguir adelante, mis amigos que incitan a buscar cosas

    mejores, profesores que con su enseanza me han ayudaron a ser mejor persona y compaeros

    de trabajo que me apoyaron en la realizacin de este proyecto y de todos los que me propongo en

    la vida. A todos gracias.

    Rubn J. Garca V.

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    6/73

    vi

    ndice

    1 Introduccin ................................................................................................................................ 1

    1.1 Definicin del problema ...................................................................................................... 1

    1.2 Justificacin ......................................................................................................................... 11.3 Objetivo ............................................................................................................................... 2

    1.4 Antecedentes ...................................................................................................................... 3

    1.4.1 Contrasea .................................................................................................................. 3

    1.4.2 Permisos sobre el documento ..................................................................................... 4

    1.4.3 Insercin de informacin de control en el documento ............................................... 4

    1.4.4 Control de Documentos Digitales por medio de servicios compartidos ..................... 5

    1.4.5 Resumen electrnico del Documento ......................................................................... 6

    1.4.6 Firma Digital ................................................................................................................ 7

    1.4.7 Servidores de certificacin de archivos ....................................................................... 8

    1.4.8 PDF .............................................................................................................................. 9

    2 Autenticacin y Derechos de Autor en Archivos Digitales ........................................................ 10

    2.1 Marcas de Agua ................................................................................................................. 10

    2.2 Seguridad persistente en los documentos ........................................................................ 12

    2.2.1 Control de Documentos ............................................................................................ 13

    2.2.2 Control Dinmico de documentos ............................................................................ 142.2.3 Rendicin de cuentas ................................................................................................ 15

    2.2.4 Firmas digitales .......................................................................................................... 16

    2.2.5 Integridad .................................................................................................................. 16

    2.2.6 Autenticidad .............................................................................................................. 17

    2.2.7 No repudio................................................................................................................. 17

    2.2.8 Infraestructura de clave pblica (PKI) ....................................................................... 17

    3 Esteganografa y los Medios Digitales ....................................................................................... 18

    3.1 Autenticacin Basada en el Contenido ............................................................................. 18

    3.2 Codificacin por Cambio de Lneas ................................................................................... 19

    3.3 Codificacin por Cambio de Palabras ................................................................................ 19

    3.4 Codificacin de Caractersticas ......................................................................................... 19

    3.5 Aplicaciones de Esteganografa ......................................................................................... 19

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    7/73

    vii

    4 Estructura de los archivos PDF .................................................................................................. 22

    4.1 Caractersticas ................................................................................................................... 22

    4.2 Objetos del Estndar PDF ISO 32000 ................................................................................ 23

    4.2.1 Objetos Lgicos ......................................................................................................... 23

    4.2.2 Objetos Numricos .................................................................................................... 23

    4.2.3 Objetos de Cadena de Texto ..................................................................................... 24

    4.2.4 Objetos Nombre ........................................................................................................ 25

    4.2.5 Objetos Arreglo ......................................................................................................... 26

    4.2.6 Objetos Diccionario ................................................................................................... 26

    4.2.7 Objetos Cadenas........................................................................................................ 27

    4.2.8 Objetos Nulos ............................................................................................................ 29

    4.2.9 Objetos Indirectos ..................................................................................................... 294.3 Estructura .......................................................................................................................... 31

    4.3.1 Cabecera .................................................................................................................... 31

    4.3.2 Cuerpo ....................................................................................................................... 31

    4.3.3 Tabla de referencias cruzadas ................................................................................... 32

    4.3.4 Trailer ........................................................................................................................ 32

    4.4 Actualizaciones Incrementales .......................................................................................... 34

    5 Desarrollo del Sistema............................................................................................................... 36

    5.1 Modelo del Sistema de Insercin ...................................................................................... 40

    5.1.1 Mtodo de Codificacin ............................................................................................ 41

    5.1.2 Mtodo de Insercin ................................................................................................. 41

    5.2 Modelo del Sistema de Verificacin .................................................................................. 43

    5.2.1 Funcin de Verificacin ............................................................................................. 43

    5.2.2 Funcin de Decodificacin ........................................................................................ 44

    5.3 Implementacin ................................................................................................................ 45

    6 Prueba MOS, Anlisis, Conclusiones y Trabajo a Futuro ........................................................... 466.1 Prueba MOS ...................................................................................................................... 46

    6.2 Pruebas de Implementacin ............................................................................................. 47

    6.3 Conclusiones y Trabajo a Futuro ....................................................................................... 48

    Bibliografa .......................................................................................................................................... a

    Referencias .......................................................................................................................................... b

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    8/73

    viii

    ndice de Imgenes .............................................................................................................................. f

    ndice de Tablas .................................................................................................................................... f

    Glosario ............................................................................................................................................... g

    Anexos .................................................................................................................................................. j

    A. Diagramas de Clases de Objetos PDF ...................................................................................... k

    B. Nombres Recomendados para las Entradas en Diccionarios .................................................. n

    C. Parmetros de la Aplicacin PDFAnalizer ............................................................................... o

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    9/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    1

    1 Introduccin

    1.1 Definicin del problemaLos archivos PDF son utilizados con frecuencia por las empresas y entidades de gobierno como una

    forma cotidiana de enviarse informacin, confiando que estos documentos son seguros y difcilesde modificar; sin embargo, para aquellas personas que conocen la estructura interna de los

    archivos PDF, es posible modificar la informacin contenida sin tener que crear un archivo

    diferente; por lo que es necesario desarrollar un algoritmo y encontrar un parmetro para insertar

    informacin oculta dentro la estructura de un archivo PDF de manera tal que no sea perceptible

    para un atacante que intente modificar la informacin y al mismo tiempo no haya modificaciones

    en el documento visibles para el ojo humano.

    1.2 JustificacinEn la actualidad la informacin de las empresas se considera como el bien ms importante y

    valioso que se pueda poseer. Esto provoca que garantizar que la informacin sea exacta, veraz,proceda de quien se diga ser su autor y se mantenga su integridad son problemas muy

    importantes para las empresas. La veracidad de la informacin contenida en un documento de

    texto es de una importancia tal que puede hacer tomar las mejores o peores decisiones cuando la

    informacin es incorrecta o a sido falsificada.

    En la actualidad los documentos de texto son muy susceptibles a ser modificados por terceras

    personas y esto puede provocar errores a las personas que reciben el documento modificado. Los

    archivos PDF no son la excepcin ya que su seguridad se agrega directamente en la estructura de

    documento y dependiendo de que se habr con la aplicacin que le d cumplimiento al esquema

    de seguridad propuesto. Esto hace que si alguien modifica directamente la informacin de laestructura del archivo se corra el riesgo de que la informacin se pierda, dae o se comprometa la

    veracidad de la informacin.

    Para evitar que sea fcil la modificacin de un archivo PDF se propone utilizar las caractersticas de

    la estructura de un archivo PDF y se oculte informacin dentro de sus caractersticas que definen

    contenido o apariencia. Un mtodo de este tipo podra ser utilizado para crear esquemas en los

    que se pueda controlar quien tiene acceso al documento, mtodos de distribucin, control de

    cambios e incluso validacin en contra de modificaciones.

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    10/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    2

    1.3 ObjetivoDisear e implementar un algoritmo para insertar informacin de manera oculta en un archivo

    PDF tal que esta sea imperceptible al sistema visual humano utilizando las caractersticas de la

    estructura del mismo archivo como portadora de la informacin.

    Para esto se proponen los siguientes objetivos particulares:

    Encontrar un parmetro de la estructura del archivo PDF para insertar informacin en l.

    Seleccionar un mtodo de codificacin para la informacin.

    Disear un mtodo de verificacin y decodificacin.

    Implementar los mtodos en una aplicacin de pruebas

    Medir los resultados de la implementacin.

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    11/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    3

    1.4 AntecedentesLa necesidad de autenticar y tener informacin de control dentro documentos digitales ha crecido

    en diferentes formas en los ltimos aos. Algunos proveedores incluyen en sus aplicaciones

    funciones de control de cambios, autenticacin, validacin y firmado de los documentos. Todas las

    funciones que se agregan en las aplicaciones para controlar cambios o validaciones tratan degarantizar la confidencialidad, autenticidad, la integridad, disponibilidad y el no repudio en los

    documentos electrnicos y en las personas que los utilizan.

    Los mtodos que se utilizan son muy variados y van desde un nivel bsico para 1 o dos usuarios

    hasta amplias soluciones que involucran la participacin de varios dispositivos y personas para

    llevar un control de los documentos digitales. A continuacin se mencionan y describen algunos de

    los mtodos ms usados para proteger los documentos electrnicos.

    1.4.1 Contrasea

    Este es uno de los primeros mtodos que se utiliz para dar seguridad en los documentos

    digitales, se basa en la idea que solo las personas que conocen la contrasea pueden abrir el

    documento y hacer los cambios necesarios en l. Usualmente esta opcin incluye un mecanismo

    de cifrado para evitar que se pueda abrir o modificar el documento con alguna otra herramienta

    diferente a la que lo creo.

    Imagen 1-1 Uso de Contraseas en Aplicaciones

    Esta opcin no fue suficiente ya que la seguridad del documento depende de que tan bien se

    guarde la contrasea, adems esta opcin no incluye control de los cambios ni quien tiene acceso

    a editar o ver el documento. Con este esquema no se corre el riesgo de que la informacin dentro

    de un documento sea modificada y nadie lo note despus de que alguien consiga la contrasea.

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    12/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    4

    1.4.2 Permisos sobre el documento

    Esta opcin se agreg a las aplicaciones junto con el control de usuarios de la aplicacin o del

    sistema operativo, dependiendo de la herramienta con que se creen y editen los documentos. Esta

    opcin permite que se asigne permisos de lectura y/o escritura a los diferentes usuarios de un

    equipo o aplicacin. Esta opcin permite que si un usuario quiere abrir o editar un documento

    primero se valida si puede verlo y despus si puede modificarlo.

    Imagen 1-2 Permisos en los Archivos

    Esta opcin, como la anterior, tampoco permite tener un control de cambios en el documento ni

    un registro de quien accede y que se hace con el documento. Tambin existe la posibilidad que un

    usuario con permisos de administrador, ya sea del sistema operativo o de la aplicacin, cambie los

    permisos sobre el documento o cambie al dueo del documento.

    1.4.3 Insercin de informacin de control en el documento

    En esta opcin las aplicaciones empezaron a introducir dentro de la estructura interna del

    documento (separado de la parte visible y editable del documento) informacin de control de los

    cambios realizados en documento. Los datos de control que se guardan corresponden a: La

    posicin del cambio; el usuario que realizo el cambio; la hora del cambio; y el estado anterior.

    Imagen 1-3 Herramientas de Control de Cambios

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    13/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    5

    Junto con este esquema se introdujo la posibilidad de tener control sobre los usuarios que

    acceden a un documento y se agreg la funcin de llevar registro por cuenta de usuario de la

    aplicacin (rendicin de cuentas). Tambin es posible crear roles dentro de un grupo de usuarios

    para controlar uno o ms archivos. Esto permite que algunos usuarios puedan ver el documento

    bloqueando la edicin; que otros usuarios puedan editar ciertas partes del documento; y que

    existan usuarios que validen y aprueben los cambios en los documentos. Incluso es posible llevar

    este esquema a los usuarios de diferentes maquinas que tengan la misma aplicacin.

    Aunque este esquema aumento las posibilidades de control y validacin de un documento solo es

    posible utilizarlo cuando todas las partes que interactan con el documento lo hagan a travs de la

    misma herramienta y que exista una configuracin comn cuando se utilizan diferentes equipos

    para trabajar sobre los documentos. En la actualidad son pocos los proveedores que ofrecen en

    sus aplicaciones un control como este en todas las partes de su sistema y no hay mucha

    compatibilidad entre diferentes proveedores. Este sistema tiene la limitante que no controla la

    distribucin del documento, ni el flujo en su desarrollo distribuido, es decir es posible que varias

    personas estn trabajando el mismo archivo al mismo tiempo y cada uno tenga versionesdiferentes de l. Tambin se corre el riesgo de no saber quien posee la informacin de un

    documento ya que se puede copiar el documento sin que la aplicacin sepa cuantas copias hay en

    circulacin.

    1.4.4 Control de Documentos Digitales por medio de servicios compartidos

    Esta es la ltima opcin que se ofrece en el mercado y permite explotar todas las opciones

    anteriores y pretende solucionar el problema de la distribucin y acceso a los documentos. El

    sistema se basa en la idea de presentar los documentos como un recurso compartido para varios

    usuarios dentro de un equipo servidor que se encarga de centralizar el almacenamiento, acceso y

    distribucin del documento por medio de una o varias aplicaciones.

    El sistema permite que los usuarios autorizados abran el documento en sus equipos, sin embargo

    los cambios se guardan en el servidor y no en el equipo que lo edita para evitar que existan varias

    versiones circulando de un solo documento. Adems el servidor lleva el control de quien puede

    acceder al documento y el registro de quien y que hizo con el documento.

    Este sistema tambin lleva un control de cambios y se pueden guardar las diferentes versiones que

    se crean con los cambios para poder recuperar cualquier estado anterior del documento. Es

    posible tener un control ms estricto sobre los usuarios, sus roles y archivos que pueden ver o

    modificar.

    Este tipo de sistemas empieza a tener auge ya que los servicios por internet lo estn ofreciendo

    como parte de sus prestaciones permitiendo a los usuarios de sus productos compartir

    documentos y controlar la edicin distribuida y versiones de un documento a travs de servicios

    en internet.

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    14/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    6

    Imagen 1-4 Uso de un Servidor de Documentos Compartidos

    Estos son los sistemas ms robustos que existen para controlar el flujo de desarrollo de un

    documento. Sin embargo estos sistemas tiene la limitante que solo funciona dentro del circulo de

    usuarios y equipos que conforman el sistema. No permite tener control sobre personas queadquieran el documento por fuera del sistema, ya sea en un correo electrnico, descarga o una

    copia en caso de que alguien tuviera permisos de guardar una copia local. En un escenario real los

    documentos finales se comparten con personas fuera del sistema de control de edicin, pueden

    ser los jefes que reciben los resultados del documento o clientes que reciben el documento entre

    varias posibilidades. Cuando el documento est terminado y es enviado a alguien fuera del

    sistema, ya no es posible garantizar la integridad del documento ni verificar su autenticidad.

    1.4.5 Resumen electrnico del Documento

    Este es un esquema que es muy utilizado en la actualidad pero no es una parte integral en las

    aplicaciones, fue diseado para la distribucin de los archivos electrnicos y es aplicable para losdocumentos digitales tambin. Se basa en funciones que crean resmenes de los archivos a

    manera de firma.

    Imagen 1-5 Funcin de Resumen

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    15/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    7

    La funcin de resumen est planeada para que siempre que se tenga una entrada especfica se

    logre el mismo resultado, pero con el ms mnimo cambio en la entrada el resultado ser

    totalmente diferente. Estos mtodos son ampliamente aceptados para verificar la autenticidad de

    un archivo, sin embargo ya se ha demostrado que es posible generar el mismo resumen con

    entradas diferentes (Colisin de la funcin) por lo que estos mtodos son susceptibles a ser

    vulnerados.

    1.4.6 Firma Digital

    Es un esquema matemtico que sirve para demostrar la autenticidad de un mensaje digital o de un

    documento electrnico. Consiste en un mtodo criptogrfico que asocia la identidad de una

    persona o de un equipo informtico al mensaje o documento. La Firma Digital utiliza un algoritmo

    de resumen electrnico y algoritmos de criptografa para cifrar el resultado del contenido de un

    documento y garantizar la autenticidad de un documento.

    El sistema de firma digital incluye el uso de certificados digitales, mtodos de renovacin de

    certificados, servicios de estampado de tiempo, algoritmos de criptografa y funciones deresumen.

    Imagen 1-6 Sistema de Firma Digital

    http://es.wikipedia.org/wiki/Documento_electr%C3%B3nicohttp://es.wikipedia.org/wiki/Criptograf%C3%ADahttp://es.wikipedia.org/wiki/Criptograf%C3%ADahttp://es.wikipedia.org/wiki/Documento_electr%C3%B3nico
  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    16/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    8

    Para comprobar la autenticidad de un documento por medio de su firma se necita realizar la

    extraccin de los datos del documento y hacer la misma funcin de resumen para que el resultado

    sea comparado con el resultado de descifrar la firma digital con la llave publica del que firmo el

    documento. Si el resultado del resumen y de la firma digital descifrada es el mismo se puede

    comprobar que el documento es el mismo que fue enviado originalmente.

    Usualmente la Firma Digital y el certificado son adjuntados a los datos para ser enviados al

    destinatario. De esta forma el destinatario puede validar la autenticidad del o los documentos

    enviados. Otra opcin es que el destinatario pueda descargar un certificado con la llave pblica

    para descifrar o cuente con l antes de recibir los datos.

    La seguridad de este esquema se basa tanto en la seguridad del mtodo de cifrado en no poder

    encontrarla llave que cifro los datos como en la funcin de resumen. Sin embargo algunas

    funciones de resumen ya han sido vulneradas por lo que es posible que se generen diferentes

    documentos con el mismo resumen y a este sistema solo le queda confiar en lo bien que se guarde

    la clave de cifrado.

    En este mtodo de autenticacin la informacin de validacin es visible lo que hace evidente que

    se utiliz este esquema de seguridad.

    1.4.7 Servidores de certificacin de archivos

    En Mxico existe la "NORMA Oficial Mexicana NOM-151-SCFI-2002 [A][B][C], Prcticas

    comerciales-Requisitos que deben observarse para la conservacin de mensajes de datos" que se

    encarga de regular la certificacin de documentos digitales para demostrar su autora e integridad.

    Tiene el propsito de regular la prctica de tener documentos electrnicos y/o la digitalizacin de

    documentos originales en papel para demostrar su existencia y poder disponer de los documentos

    originales y mejorar su gestin en sistemas informticos.

    Estos sistemas generalmente se basan en el apsito de una "constancia", tpicamente: los datos

    del prestador, una marca temporal (estampa de tiempo) y una firma electrnica, facilitada por un

    tercero de confianza legalmente autorizado.

    El esquema es muy parecido al de la Firma Digital con la diferencia que se agrega un elemento

    llamado estampa de tiempo que indica la fecha de registro y que los datos de la firma digital y el

    certificado se guardan en un servidor de un tercero ajeno al que genera el documento y al que lo

    recibe. El tercero es una autoridad certificadora autorizada y es esta entidad la que realiza la

    validacin de un documento a peticin de l que recibi el documento.

    La entidad certificadora se encarga de cumplir con todos los lineamientos de la norma y de dar el

    servicio de validacin. Este mtodo depende de que el servicio de validacin est disponible o se

    tenga acceso a l para validar un documento, pero si este estuviera fuera de servicio o no se

    tuviera acceso a l por errores en la red del cliente que desea verificar la autenticidad de un

    documento los usuarios quedan desamparados hasta que se cuente con el servicio. Adems se

    tiene el mismo problema que con los algoritmos de resumen que ya han sido colisionados.

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    17/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    9

    1.4.8 PDFLos Archivos PDF fueron creados por Adobe, utilizan un mtodo de descripcin de pginas

    basado en PostScript y existe toda una solucin implementada a su alrededor utilizando la Suite de

    Adobe para crear y controlar archivos PDF. Su finalidad es el poder intercambiar documentos sin

    importar el entorno en el que hayan sido creados o en el que se visualicen manteniendo el mismo

    aspecto bajo cualquier plataforma.

    Adobe ofrece una solucin muy robusta que contempla y propone un proceso de siclo de vida en

    la creacin y distribucin de un documento. Sin embargo en el da a da de las aplicaciones y de los

    archivos PDF son pocas las empresas que utilizan la Suite de Acrobat para crear sus documentos

    debido al amplio nmero de empresas y soluciones que ofrecen la conversin o creacin de estos

    Archivos. Adems la seguridad y control que ofrece la suite de Acrobat estn limitados a los

    usuarios que cuentan con el sistema en sus equipos. En la seccin Estado del arte de

    Autenticacin y Derechos de Autor se describe con mayor detalle lo que se ofrece como sistema

    de seguridad y control para estos documentos.

    El formato de archivos PDF es usado cotidianamente por muchas aplicaciones ya que la estructura

    es pblica y varios proveedores de aplicaciones de creacin de documentos digitales lo han

    agregado a sus funciones. Por si sola la estructura de un archivo PDF no tiene control de cambios o

    mtodos de validacin, en el presente trabajo se propone un mtodo para incluir informacin

    oculta en la estructura de un documento PDF.

    Los archivos PDF son ampliamente aceptados por entidades de gobierno y privadas como una

    solucin estndar para la representacin de documentos digitales. Existen diferentes

    recomendaciones para utilizarlo dependiendo del mbito en el que se utilice. En enero de 2008 el

    comit tcnico de ISO aprob una versin final de la documentacin para PDF 1.7 como el

    estndar ISO 32000-1[D][E][F][K]. En julio de 2008 puso el archivo a la venta en su pgina Web.

    Hasta ahora se han revisado los diferentes mtodos que se han venido utilizando comercialmente

    para controlar y autenticar documentos electrnicos. En el siguiente captulo se analizan las

    diferentes investigaciones y propuestas que se han diseado para mantener la integridad,

    autenticidad o autora de los documentos electrnicos.

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    18/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    10

    2 Autenticacin y Derechos de Autor en Archivos DigitalesEl dueo de una obra o de los derechos de autor de un documento digital espera poder tener una

    retribucin econmica, social o un reconocimiento a su trabajo; tambin desea que su trabajo no

    sea mal utilizado. La proteccin a los derechos de Autor y Autenticacin son tan importantes y tanantiguos como el papel y a lo largo de la historia han existido diferentes mtodos para garantizar

    que se puede demostrar la autenticidad y el origen de una obra. La importancia de la originalidad y

    veracidad de las cosas a pasado de los medios impresos y se ha convertido en parte vital de los

    medios digitales.

    La definicin ms acepta actualmente para el manejo de derechos de autor digitales fue

    introducida por Iannella de IPR Systems en el W3C (World Wide Web Consortium) Taller de

    Manejo de Derechos Digitales en 2001[H]:

    El manejo de Derechos Digitales (DRM) involucra la descripcin, identificacin, rastreo,

    proteccin, monitoreo seguimiento de todas las formas de uso de derechos sobre ambos activos,

    tangibles e intangibles - en ambas formas, fsicas y digitales incluyendo el manejo de las

    relaciones de los poseedores de los derechos.

    Esta definicin incluye muchas actividades y se requiere de diferentes tipos de procesos y

    herramientas para conseguir cada una de sus partes.

    Existen diferentes formas de medios digitales (audio, video, imgenes y documentos) y en cada

    medio se tienen diferentes formas para realizar la autenticacin y hacer valer los derechos de

    autor. Los mtodos ms estudios son las marcas de agua, los mtodos de firma y los mtodos de

    control de archivos digitales. Tambin existen mtodos que utilizan la estenografa y estos sernabordados en el siguiente captulo.

    2.1 Marcas de AguaLas marcas de agua se crearon con la intensin de poder identificar la originalidad de un objeto,

    son casi tan antiguas como la fabricacin de papel. Durante cientos de aos, cualquiera que

    poseyera o fabricase un documento u obra de arte valiosos lo marcaba con un sello de

    identificacin o marca de agua (visible o no), no slo para establecer su propiedad, origen o

    autenticidad, sino para desalentar a aquellos que pudieran intentar robarlo.

    La importancia de lograr este mismo objetivo pas a los medios digitales y aumento debido al gran

    auge que han tenido los medios de comunicacin digital. Ahora es posible crear copias exactas de

    materiales y distribuirlas por todo el mundo por lo que garantizar la identificacin o control de

    copias y su distribucin es de vital importancia para los dueos intelectuales de un material digital.

    Los materiales digitales se pueden analizar como seales en varios aspectos y muchas de las

    teoras seales aplican en ellos. Es por eso que las marcas de agua se pueden analizar como la

    insercin de una seal de informacin en un material digital.

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    19/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    11

    El objetivo de las marcas de agua es introducir una seal en el material digital de tal forma que

    esta seal sea un mtodo confiable para la proteccin del material digital contra su uso ilegal. Las

    marcas de agua sirven para identificar al origen, destino o autenticidad de un material digital. Las

    caractersticas de una marca de agua dependern de su aplicacin.

    Es posible que para diferentes aplicaciones se tengan caractersticas completamente diferentes.

    Las marcas de agua se clasifican por el dominio de insercin, el tipo de material digital a proteger,

    la percepcin humana y a su aplicacin [G].

    Imagen 2-1 Clasificacion de Marcas de Agua

    El dominio se refiere al lugar en donde se inserta la marca de agua. El dominio espacial se refiere

    al espacio donde la seal digital existe, en una imagen es el nada de bits de brillo de cada punto,

    en un video es parecido a la imagen ms la localizacin de la imagen en el tiempo. En un audio es

    el valor del sonido que se reproduce. El dominio de una trasformacin es el convertir la seal

    digital por medio de una funcin a otra seal con diferentes propiedades.

    La percepcin de refiere a si la marca de agua es visible para el ojo humano o no. Cuando una

    marca de agua es invisible tambin se suele subdividir a las marcas de agua en frgil, semi-frgil y

    robusta dependiendo de su funcin.

    Las marcas de agua que se aplican a los diferentes medios son diferentes entre s por lo que seseparan segn el medio. Las imgenes y los videos son muy parecidos, sin embargo los medios

    digitales de audio y los de texto son diferentes. Tambin es posible agregar marcas de agua a otros

    medios digitales pero su desarrollo no es muy grande.

    Adems de esta clasificacin tambin se encuentran las clasificaciones por objetivo a proteger y

    por medio de deteccin.

    Para detectar una marca de agua se tienen dos formas principales las marcas de agua ciegas y las

    no ciegas. Las ciegas son la que no necesitan de tener el medio digital original para corroborar si

    existe una marca de agua. Las no ciegas son las que necesitan tener el medio digital original para

    compararlo con el medio digital que contenga la marca de agua.

    Las marcas de agua se utilizan para las siguientes funciones:

    Proteccin de derechos de autor: se incluye en los medios digitales una marca de agua que

    permita demostrar u obtener la informacin de la autora u origen de un material digital.

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    20/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    12

    Identificacin: se utiliza para identificar a los usuarios o compradores de un medio y as saber si

    alguien hace mal uso de un material digital.

    Control de Copias: las marcas de agua pueden contener informacin que evite que los equipos o

    sistemas de reproduccin puedan copiar el material protegido por la marca de agua.

    Monitorio de la Difusin: se pueden disear mtodos de supervisin automatizados que puedan

    revisar si un material est siendo distribuido de la manera en que se haya contratado el servicio de

    publicacin.

    Autenticacin: Se agrega la marca de agua frgil para poder garantizar que un medio no ha sido

    modificado son el consentimiento de su autor.

    Las marcas de agua son frgiles cuando al ms mnimo cambio en la seal portadora, la marca de

    agua se destruye y ya no es detectable. Esto sirve para garantizar que un medio no ha sido

    alterado en su composicin.

    Las marcas de agua son robustas cuando se disean para que soporten un gran nmero de

    cambios en la seal portadora haciendo que la marca de agua persista y sea detectable hasta que

    la seal deje de ser til debido al nmero de modificaciones. Esto nos ayuda a mantener los

    derechos de autor de un material.

    Las marcas de agua son semi-frgiles cuando estn planeadas para soportar las modificaciones

    ms comunes sin desaparecer pero con cambios ms notorios la marca se destruya.

    En la actualidad existen muchos usos para las marcas de agua en diferentes medios (imgenes,

    audio y video), sin embargo en el mbito del texto o los documentos electrnicos no existen

    grandes avances al respecto.

    2.2 Seguridad persistente en los documentosUna solucin mucho ms eficaz para la proteccin de un documento electrnico es asignar los

    parmetros de seguridad como una parte integral del propio documento. Los criterios siguientes

    se definen la seguridad persistente de los documentos.

    1. Confidencialidad- Quin debe tener acceso al documento?

    2. Autorizacin- Qu permisos tiene el usuario tiene para trabajar con el documento?

    3. Rendicinde cuentas - Qu ha hecho con el destinatario del documento?

    4. Integridad- Cmo sabes si el documento ha sido alterado?

    5. Autenticidad- Cmo sabes que el documento de vino?

    6. Norepudio- Puede el firmante negar la firma del documento?

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    21/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    13

    Imagen 2-2 Ciclo de vida de la seguridad persistente de un documento

    2.2.1 Control de DocumentosConfidencialidad - Cifrado

    El cifrado es el proceso de transformacin de la informacin (texto plano) en una forma

    incomprensible (texto cifrado). La encriptacin es una tcnica eficaz para la gestin de acceso a los

    documentos.

    El descifrado es el proceso inverso que transforma el texto cifrado de nuevo al texto original.

    La criptografa se refiere a los dos procesos de cifrado y descifrado y su aplicacin se conoce como

    un sistema de cifrado.

    Los sistemas de cifrado ms populares utilizan el concepto de llaves. Una clave de cifrado son

    datos que se combinan con un algoritmo de cifrado para; crear un texto cifrado a partir de texto;

    y recuperar texto plano de un texto cifrado. Hoy en da, los expertos en seguridad estn de

    acuerdo con los principios de "Kerckhoff" como la base de un sistema de cifrado eficaz. Los

    Principios de Kerckhoff establecen que la clave es la nica parte de un sistema criptogrfico que

    debe permanecer en secreto para que todo el sistema sea seguro. Si la fuerza del sistema de

    cifrado se basa en el hecho de que un atacante no sabe cmo funciona el algoritmo, entonces es

    slo cuestin de tiempo antes de que se pueda hacer la ingeniera inversa y romper el mtodo de

    cifrado.

    Existen dos tipos de mtodos de cifrado, los simtricos y los asimtricos

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    22/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    14

    Claves simtricas: la criptografa de llave simtrica utiliza la misma clave para cifrar y para

    descifrar y es muy rpido y difcil de romper cuando se usan llaves grandes. Sin embargo, como

    ambas partes tienen la misma llave para una comunicacin efectiva que se produzca, la

    distribucin de llaves se convierte en un problema. Hoy en da los algoritmos simtricos comunes

    son AES, DES, 3DES, y RC4.

    Claves asimtricas: la criptografa de llave asimtrica, tambin llamada criptografa de llave

    pblica, utiliza un par de llaves para el cifrado y descifrado. Por ejemplo, si la primera llave cifra el

    contenido, entonces la segunda llave de la pareja descifra el contenido. Del mismo modo, si la

    segunda llave se utiliza para cifrar la informacin, a continuacin, la primera llave se debe utilizar

    para descifrar el contenido.

    Normalmente, una de las claves del par se etiqueta como la llave pblica y la otra como la llave

    privada. Un individuo mantiene en secreto la llave privada, mientras que la llave pblica se

    distribuye gratuitamente a otros que deseen comunicarse con la persona que tiene la privada.

    Cuando alguien desea enviar a la persona con la llave privada un mensaje confidencial, l o ellapueden cifrar con la llave pblica libremente disponible y enviar el texto cifrado al individuo.

    Debido a que el individuo es el nico que tiene la llave privada, l o ella es el nico que puede

    descifrar el contenido.

    Las llaves asimtricas ayudan a resolver el problema de distribucin de claves, pero los algoritmos

    tienden a ser ms lentos. Algunos algoritmos asimtricos comunes son RSA, DSA y El Gamal.

    Autorizacin

    Adems de manejar quien puede abrir un documento, las organizaciones obtienen proteccin

    adicional a travs de la autorizacin. La autorizacin especfica lo que un usuario puede hacer conun documento y se logra a travs de permisos y control dinmico de documentos.

    Permisos

    Los permisos rigen la actuacin de un usuario al trabajar con un documento protegido. Los

    permisos se pueden especificar si un destinatario que tiene acceso al documento est autorizado a

    imprimir o copiar el contenido, rellenar campos, aadir comentarios o anotaciones en el

    documento, insertar o eliminar pginas, remitir el documento, firmar digitalmente el documento,

    y as sucesivamente con cada accin posible en el documento.

    2.2.2 Control Dinmico de documentosEl control dinmico documento mantiene los derechos de acceso y permisos asignados a un

    documento electrnico una vez que ha sido publicado y distribuido. El autor de un documento

    puede realizar cambios en un documento dado a conocer sin tener que redistribuirlo

    manualmente ya que los cambios se envan automticamente a todas las versiones existentes del

    documento, sin importar su lugar de residencia. Usando el control de documentos dinmicos, las

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    23/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    15

    organizaciones pueden gestionar y supervisar el uso de documentos electrnicos dentro y fuera

    del firewall, en lnea o no, y en varios documentos.

    El control dinmico documento incluye las siguientes capacidades:

    1.

    Caducidad de Documento y revocacin

    El control posterior a la publicacin del documento se puede mantener a travs de la

    aplicacin de fechas de vencimiento y la posibilidad de revocar el acceso a un documento.

    Por ejemplo, un autor puede enviar un documento que expirar dentro de dos semanas

    para que los destinatarios no puedan tener acceso a l una vez que la fecha de caducidad

    ha pasado. O bien, el acceso a un documento puede ser revocado automticamente si un

    destinatario autorizado abandona el proyecto o cambia de departamento.

    2. Gestin de acceso fuera de lnea

    Las organizaciones pueden administrar la duracin que un destinatario autorizado puede

    tener un documento fuera de lnea. Una vez que la longitud de tiempo ha pasado, el

    destinatario ya no puede ver el documento y tiene que ir de nuevo al sistema en lnea para

    obtener el acceso. Cualquier cambio de acceso o permisos que el autor haya realizado en

    el documento distribuido se aplicar cuando el destinatario este de nuevo en lnea.

    3. Control persistente de versiones

    Los sistemas de gestin de documentos y de contenido proporcionan un mecanismo eficaz

    de control de versiones, siempre y cuando un documento se Mantenga dentro de loslmites del sistema. El control persistente de versiones funciona manteniendo el control de

    versiones fuera del sistema y fuera de lnea. Permite a los autores del documento realizar

    cambios en las polticas de uso de un documento y evitar que la versin obsoleta se

    acceda por los usuarios finales mientras se actualiza la versin.

    2.2.3 Rendicin de cuentasLa auditora de documentos permite a las organizaciones mantener la responsabilidad de los

    usuarios con respecto a la utilizacin de documentos protegidos, ya que se pueden conocer con

    precisin a los involucrados con un documento:

    Cmo un destinatario ha utilizado un documento? Con qu frecuencia se produjo cada tipo de

    uso? Cuando ocurri el uso del documento?

    La rendicin de cuentas se logra cuando un autor puede rastrear el uso de cada destinatario de un

    documento para cada permiso asignado (por ejemplo, permitir que un usuario rellene los campos

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    24/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    16

    en un formulario, imprimir, reenviar, guardar una copia, etc.) La auditora debe incluir

    notificaciones automticas sobre el uso de los documentos protegidos.

    Por ejemplo, un representante de servicio al cliente enva un cliente una declaracin electrnica

    con tiempo crtico que requiere una accin por parte del cliente, como una respuesta o firma

    digital. Una vez que el cliente recibe el documento electrnico, se notifica automticamente alrepresentante cuando el cliente lo abre. Si el cliente no puede abrir el documento, el se notifica al

    representante 24 horas despus.

    2.2.4 Firmas digitalesCuando las empresas distribuyen documentos electrnicamente, a menudo es importante que los

    destinatarios puedan verificar lo siguiente:

    Que el contenido no ha sido alterado (integridad)

    Que el documento proviene de la persona real que lo envi (autenticidad)

    Que un individuo que ha firmado el documento no puede negar la firma (no repudio)

    Las firmas digitales son una buena solucin frente a estos requisitos de seguridad al ofrecer

    mayores garantas para la integridad de los documentos, la autenticidad y no repudio.

    2.2.5 IntegridadLas firmas digitales permiten a los beneficiarios verificar la integridad de un documento

    electrnico que se utiliza en un solo sentido o flujos de trabajo de ida y vuelta. Por ejemplo,

    cuando una firma digital se aplica a los estados financieros trimestrales, los beneficiarios tienen

    ms seguridad de que la informacin financiera no se ha modificado desde que fue enviado.

    Los mtodos para mantener la integridad son:

    Bits de paridad o funciones de comprobacin de redundancia cclica (CRC)

    Funciones del CRC funcionan bien para las modificaciones no intencionales, pero pueden

    ser eludidas por un atacante inteligente de modificacin.

    Hash unidireccionales

    Un hash de un solo sentido crea un valor de longitud fija, llamada el valor hash o resumen del

    mensaje de un documento de cualquier longitud. Un hash es como una huella digital nica. Con un

    hash adjunto al mensaje original, un receptor puede determinar si el mensaje ha sido alterado al

    volver a calcular el hash y comparar su respuesta con el hash adjunto. Los algoritmos comunes de

    hash son MD5, SHA-1 y SHA-256. Adobe ha adoptado los algoritmos SHA-1 y SHA-256, debido a suamplia aceptacin como un estndar de seguridad.

    Cdigos de autenticacin de mensajes (MAC)

    Un MAC evita que un atacante pueda obtener el mensaje original, modificarlo, y adjuntar un

    nuevo hash. En este caso, una clave simtrica est contenida en el MAC y luego se realiza un hash

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    25/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    17

    (HMAC). Sin la llave, un atacante no puede crear un nuevo mensaje. Adobe utiliza HMAC en su

    caso. Las firmas digitales permiten verificar la integridad de un documento electrnico.

    2.2.6 AutenticidadLas firmas digitales proporcionan la autenticidad de un documento mediante la verificacin de la

    identidad digital de un firmante. Por ejemplo, una firma digital de los estados financierostrimestrales permite a los beneficiarios verificar la identidad del remitente y les asegura que la

    informacin financiera no se ha modificado desde que fue enviado.

    Las firmas digitales se crean utilizando criptografa de clave asimtrica. Para el cifrado de

    documentos, el autor de un documento cifra un documento usando una clave pblica. Debido a

    que el receptor es la nica persona con la clave privada, l o ella es el nico que puede descifrar el

    mensaje. El autor cifra el hash del mensaje con una clave privada. Slo la clave pblica

    correctamente puede descifrar el hash y lo utilizan para ver si coincide con un nuevo hash del

    documento. Debido a que los destinatarios del documento tienen la clave pblica del autor, que

    obtienen una mayor seguridad de que la persona que firm el documento era la persona que cifrel valor hash original.

    El proceso que constituye una firma digital es el siguiente:

    Un hash se crea son el documento original.

    La firma digital es creada al cifrar el hash con una clave privada.

    La firma se incluye en el documento.

    2.2.7 No repudioNo repudio es un servicio de seguridad de los documentos que impide que el firmante del

    documento pueda negar que firm el documento. El apoyo a este servicio es a menudo impulsadopor la autentificacin y las capacidades de marcado de tiempo.

    2.2.8 Infraestructura de clave pblica (PKI)La infraestructura de clave pblica (PKI), principalmente ofrece un certificado digital que permite a

    los receptores de un documento saber si una clave pblica especfica pertenece realmente a un

    individuo especfico. Los certificados digitales se unen a una persona (o entidad) y a una clave

    pblica. La autoridad certificadora (CA) expide los certificados y los receptores deben confiar en la

    CA que emiti el certificado. X.509 es un estndar ampliamente aceptado y es el metido de

    certificado de Adobe utiliza.

    Si el certificado caduca o una clave privada se ve comprometida, la autoridad competenterevocar el certificado y registra la revocacin. Como parte del proceso de autenticacin de un

    certificado digital, los receptores pueden verificar el estado del certificado. Certificado de validez

    se puede comprobar mediante los mtodos estndar siguientes:

    Certificado de lista de revocacin (CRL)

    Protocolo de estado de certificados en lnea (OCSP)

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    26/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    18

    3 Esteganografa y los Medios DigitalesEl manejo de los derechos de autor dentro de los documentos digitales es abordable por

    diferentes mtodos y tcnicas para garantizar varias de las partes del manejo de derechos

    digitales. La esteganografa es una herramienta que permite crear mtodos de control para las

    diferentes partes que se contemplan en un mtodo persistente para la seguridad de los

    documentos.

    La esteganografa es el arte de ocultar informacin dentro de un medio de tal forma que esta sea

    imperceptible dentro del medio oculto. La imperceptibilidad que conlleva la esteganografa es la

    propiedad que permite crear sistemas con alto grado de seguridad para evitar que algn atacante

    sea capaz de modificar los mecanismos internos que se establecen para proteger un documento.

    La esteganografa se puede utilizar para autenticar un documento introduciendo informacin de

    control en el mismo, incluso es posible introducir otros mtodos de seguridad como marcas de

    agua para autenticar un documento. Tambin es posible utilizar la esteganografa para introducirinformacin sobre el origen del documento y sobre el mtodo de distribucin para validar

    permisos o integridad.

    Otro mtodo posible es el de embeber el mismo documento en s mismo para poder validar su

    integridad e incluso indicar el lugar donde existan las modificaciones. Tambin es posible crear un

    mtodo en el que se pueda rastrear los diferentes cambios que se le han hecho al documento por

    los diferentes usuarios con acceso al documento.

    Los posibles sistemas que permite crear la esteganografa son capases de cubrir todos los aspectos

    del manejo de derechos digitales y crear sistemas de seguridad persistentes que no usen

    estructuras especificas dentro del documento que puedan ser modificadas o burladas por los

    atacantes.

    Entre las diferentes opciones para poder insertar informacin oculta dentro de un documento

    podemos encontrar el uso de cdigos para representar datos, la modificacin de parmetros del

    formato del documento para indicar bits de datos, la modificacin de imgenes o la insercin de

    informacin oculta de dentro de los parmetros de creacin del mismo documento. Adems de las

    investigaciones, tambin existen aplicaciones comerciales que utilizan medios digitales como

    portadoras de mensajes ocultos. Primero analizaremos las diferentes investigaciones y

    posteriormente enumeraremos algunas de las aplicaciones que existen actualmente.

    3.1 Autenticacin Basada en el ContenidoLa autenticacin basada en el contenido es el mtodo de autenticar un documento utilizando la

    misma informacin que describe al documento, en lugar de utilizar una cadena binaria que

    represente al documento. Este mtodo permite tener una robustez en el autenticador que

    permanece valida a pesar de cualquier cambio en el formato o transformacin que ocurra en el

    documento.

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    27/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    19

    En el presente trabajo abordamos la opcin de insertar informacin dentro de los parmetros que

    describen y crean un documento PDF.

    3.2 Codificacin por Cambio de LneasEn esta codificacin se pretende modificar la distancia en la que pintan los renglones entre s. Para

    poder decodificar el mensaje contenido en un archivo es necesario digitalizarlo si se a impreso ymedir la distancia entre los renglones para determinar si se a insertado informacin. De esta

    forma es posible insertar N bits de informacin dependiendo de N lneas que tenga una hoja. En

    este proceso se tiene un nmero limitado de espacios para colocar informacin.

    3.3 Codificacin por Cambio de PalabrasEn esta aproximacin fue presentada junto a la codificacin por cambio de lneas pero en esta se

    necesita cambiar la posicin de las palabras acercndolas o alejndolas entre s. Este mtodo

    permite tener ms espacio para introducir informacin, sin embargo como muchos programas

    utilizan espacios dinmicos para mostrar las palabras se necesita tener el texto original para poder

    comparar si ha habido cambios en el documento. Un atacante a este mtodo necesita masesfuerzo para eliminar la seguridad.

    3.4 Codificacin de CaractersticasEn este mtodo se aprovechan las caractersticas de las fuentes, letras, coles y tamaos que tiene

    un documento. En este mtodo se modifican las caractersticas de algunas de las letras para

    codificar informacin. En el archivo se incluyen las fuentes modificadas y no es necesario modificar

    todas las partes del documento. Para que un atacante pueda modificar la informacin en este

    mtodo es necesario que sepa cuales letras han sido modificadas y tener la fuente original para

    comparar.

    En esta codificacin de caractersticas es posible explotar cualquier caracterstica que describa el

    texto a mostrarse. Un ejemplo es el manejo de las mtricas de las palabras para insertar

    informacin. Las mtricas son los espacios que utilizan el programa o lenguaje descriptor para

    indicar la distancia entre un carcter y otro.

    Dentro de estas mtricas es posible introducir ms informacin que en cualquier otra

    aproximacin ya que es posible insertar la informacin de un carcter completo en lugar de un bit

    por cada letra.

    Adems es posible indicar un desorden en el pintado de los caracteres del documento de tal forma

    que al abrirlo directamente no se pueda entender el orden de pintado y sea solo visible el texto alabrirlo a travs de la aplicacin intrprete comn disuadiendo a los posibles atacantes a modificar

    el archivo.

    3.5 Aplicaciones de EsteganografaEn la actualidad existen varios programas que ofrecen servicios de esteganografa en diferentes

    medios digitales como imgenes, archivos y videos. Algunos de ellos se muestran en la Tabla 3-1.

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    28/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    20

    Programa Plataforma Descripcin

    Steganoptic 0.1[1] Windows/Linux Permite agregar mensajes ocultos en imgenes GIF

    Cloack 7.0[2] Windows Permite cifrar y ocultar archivos dentro de imgenesBMP. Utiliza algoritmos de cifrado Cloak-128,Blowfish y Mercury

    CryptoMX[3] Windows / Linux /Mac Es una coleccin de herramientas de criptografa yesteganografa que se utiliza en aplicaciones WEBpor medio de JavaScript en cualquier explorador deinternet. Genera una secuencia aleatoria de texto dela cual extrae el texto original.

    DoundsSteganography[4]

    Windows Permite guardar texto en imgenes

    Hide in Picture(HIP) 2.1[5]

    Windows Permite guardar archivos en mapas de bits utilizandouna contrasea.

    UnderMP3Cover[6] Linux Permite ocultar archivos o texto en archivos MP3dependiendo de su tamao

    S-Tools[7] Windows Es una herramienta que permite ocultar archivosdentro de imgenes, videos o archivos de audio. Sepueden ocultar varios archivos e incluso ocultarlos almismo tiempo.

    Wodax[8] Linux Es una aplicacin que permite guardar un archivo detexto plano en una imagen PNG. Est escrito en C++y ha sido probado en Gentoo, Debian y Ubuntu.

    MP3Stego[9] Windows Es un Programa que permite ocultar informacindentro de un archivo MP3. La informacin escomprimida y cifrada antes de introducirla en elarchivo.

    Invisible Secret[10] Windows Es un programa que permite esconder informacin

    dentro de archivos de imgenes, de audio y HTML.La informacin se cifra antes de guardarla en elarchivo.

    InvisibleInk[11] Windows/Linux/MAC Es un Programa hecho en Java que permiteintroducir informacin dentro de archivos BMP ycifrarlos con una contrasea.

    Hermetic Stego[12] Windows Es un programa que permite introducir un archivo decualquier tipo dentro de una o varias imgenes BMPutilizando un mtodo aleatorio por medio de unaclave. El mtodo aleatorio permite evitar ladeteccin de la informacin por aplicaciones de

    anlisis estadstico.BitCrypt[13] Windows Es u programa que cifra texto plano y lo introduce

    dentro de imgenes de mapa de bits.

    Bon Kyu Bon[14] Windows Es un programa que permite introducir texto dentrode archivos de diferentes tipos; BMP, GIF, TIF, PNG,WAV, MID and .NET Assemblies.

    SteganoG[15] Windows Es un programa que guarda informacin en mapasde bit y permite utilizar algoritmos de cifrado; RC4,

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    29/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    21

    Blowfish, TEA, Twofish y Skipjack.PicCrypto[16] Windows Es un programa que cifra y convierte cualquier

    archivo en una Imagen BMP utilizando una llave. Laimagen se puede convertir de nuevo en archivoindicando la llave del cifrado.

    Camouflage[17] Windows Es una aplicacin que permite ocultar cualquierarchivo en cualquier otro archivo, es posible utilizaruna clave para ocultar y recuperar el archivo.

    P2Stego[18] Windows Es un programa que Permite Guardar texto en unArchivo cualquiera. Se puede indicar una contraseapara recuperar el mensaje.

    XiaoSteganography[19]

    Windows Es un programa que permite guardar informacin enarchivos BMP o de Audio.

    Tabla 3-1Programas de Esteganografa

    En la tabla anterior se enumeraron varios programas que utilizan esteganografa, La mayora de los

    programas son parecidos en los mtodos que utilizan y los archivos que puede utilizar; por lo

    general se utilizan archivos de imgenes, audio y video [20]. Los programas que pueden insertar

    informacin en documentos de texto son pocos y en el caso de Archivos PDF no hay una

    implementacin especfica.

    En el captulo siguiente se describen las caractersticas y partes de un archivo PDF.

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    30/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    22

    4 Estructura de los archivos PDFEl formato de documento porttil (PDF) fue inventado por Adobe Systems y ha sido perfeccionado

    durante 17 aos; es el estndar mundial que permite capturar y revisar informacin sofisticada

    desde cualquier aplicacin y en cualquier sistema informtico, as como compartirla con

    prcticamente cualquier persona en cualquier sitio.

    4.1 CaractersticasLas caractersticas que los archivos PDF ofrecen son:

    Estndar abierto:el formato PDF es ahora un estndar formal abierto conocido como ISO 32000.

    Mantenida por la Organizacin Internacional de Estandarizacin (ISO), la norma ISO 32000 seguir

    desarrollndose para cumplir los objetivos de proteger la integridad y longevidad del formato PDF,

    lo que proporciona un estndar abierto para los ms de mil millones de archivos PDF que existen

    hoy en da. se han generado herramientas de software libre que permiten crear, visualizar o

    modificar documentos en formato PDF. Un ejemplo es la suite ofimtica OpenOffice.org y elprocesador de textosLaTeX.

    Multiplataforma:los archivos PDF se pueden visualizar e imprimir desde prcticamente todas las

    plataformas, incluidas Windows, Mac OS y plataformas mviles como Android.

    Extensible:ms de 2.000 proveedores en todo el mundo ofrecen soluciones basadas en PDF, que

    incluyen creacin, plug-ins, consultoras, formacin y herramientas de soporte tcnico.

    Fiable:el hecho de que haya ms de 150 millones de documentos PDF para uso pblico circulando

    en la red hoy en da, junto con los innumerables archivos PDF en administraciones pblicas y

    negocios, es la prueba de la cantidad de organizaciones que confan en este formato paratransmitir informacin.

    Sofisticado en cuanto a la integridad de la informacin: los archivos PDF tienen el mismo aspecto

    y muestran la misma informacin que los archivos originales como, por ejemplo, texto, dibujos,

    contenidos multimedia, vdeos, 3D, mapas, grficos en color, fotos e incluso lgica empresarial,

    independientemente de la aplicacin utilizada para crearlos y de si se han compilado en una sola

    cartera PDF a partir de mltiples formatos.

    Capacidad de bsqueda:las funciones de bsqueda de texto en documentos y metadatos facilitan

    las bsquedas en los documentos PDF.

    Accesible: los documentos PDF utilizan tecnologas de asistencia para facilitar el acceso a la

    informacin a personas con discapacidades.

    Flexible: Puede ingerir cualquier combinacin de texto, elementos multimedia como vdeos o

    sonido, elementos de hipertexto como vnculos y marcadores, enlaces y miniaturas de pginas.

    Seguridad:Puedecifrarse para proteger su contenido e inclusofirmarlo digitalmente.

    http://es.wikipedia.org/wiki/Software_librehttp://es.wikipedia.org/wiki/LaTeXhttp://es.wikipedia.org/wiki/Criptograf%C3%ADahttp://es.wikipedia.org/wiki/Firma_digitalhttp://es.wikipedia.org/wiki/Firma_digitalhttp://es.wikipedia.org/wiki/Criptograf%C3%ADahttp://es.wikipedia.org/wiki/LaTeXhttp://es.wikipedia.org/wiki/Software_libre
  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    31/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    23

    Portabilidad: Los ficheros PDF son independientes del dispositivo, el mismo archivo puede

    imprimirse en una impresora de inyeccin de tinta o una filmadora. Para la optimizacin de la

    impresin podremos configurar las opciones de creacin del fichero PDF.

    Un archivo PDF est definido por el estndar ISO 32000 en el que se especifican las partes, formas

    de creacin de un archivo PDF y de los objetos que lo componen.

    4.2 Objetos del Estndar PDF ISO 32000Los archivos PDF incluyen ocho tipos bsicos de objetos; valores lgicos, nmeros enteros y reales,

    cadenas de texto, nombres, arreglos, diccionarios, cadenas y objetos nulos. Los objetos en un

    archivo PDF se escriben con ciertas reglas que aplican para cualquier tipo de objeto.

    Los objetos deben de ser marcados para poder ser referenciados por otros objetos. Un objeto

    marcado es llamado un objeto indirecto. Todo el texto contenido en un Archivo PDF se analiza

    para determinar si es un objeto y que tipo de objeto es.

    Cada objeto tiene una sintaxis que lo identifica y ayuda al lector a decodificar el archivocorrectamente. Cuando se desea agregar un comentario se utiliza el smbolo de porcentaje al

    principio de la lnea, todo el texto que siga despus de este smbolo y hasta el fin de la lnea se

    descarta del proceso de anlisis; siempre y cuando el smbolo de porcentaje no se encuentre

    dentro de un objeto de cadena de texto ni de cadena.

    4.2.1 Objetos LgicosLos Objetos Lgicos se representan por los valores de verdadero y falso. En un archivo PDF

    aparecen indicados por las palabras claves de true y false.

    4.2.2 Objetos NumricosPDF provee de dos tipos de objetos numricos; enteros y reales. El rango y la precisin pueden ser

    limitados por la representacin interna usada por la computadora en la que se ejecuta el lector

    compatible.

    Un Entero se escribe como uno o ms dgitos decimales opcionalmente precedidos por signo. El

    valor ser tratado como un entero decimal con signo y debe ser convertido a un objeto entero.

    Ejemplo 1 Objetos Enteros

    123 43445 +17 -98 0

    Un valor Real se escribe con uno o ms dgitos decimales con un signo opcional y un punto inicial,final o incrustado. El valor debe ser tratado como un nmero real y debe ser convertido a un

    objeto real.

    Ejemplo 2 Objetos Reales

    34.5 -3.62 +123.6 4 -.002 0.0

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    32/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    24

    Aunque Objeto Numrico es parte del estndar, este puede significar cualquiera de los dos

    anteriores.

    4.2.3 Objetos de Cadena de TextoUn Objeto de Cadena de Texto consiste en una serie de cero o ms bytes. Los Objetos de Cadena

    de Texto no son objetos de tipo entero pero son almacenados en un formato ms compacto. Estetipo de objetos se puede escribir utilizando una de estas opciones.

    Como una secuencia de caracteres literales encerrados por parntesis.

    Como una informacin hexadecimal encerrada en llaves de Angulo

    4.2.3.1 Cadenas Literales

    Una cadena literal debe de ser escrita como un nmero arbitrario de caracteres encerrados entre

    parntesis. Cualquier carcter puede aparecer en una cadena, excepto parntesis no balanceados,

    ni el smbolo de barra invertida \ (5Ch).

    Ejemplo 1 Los siguientes son valores de literales validos

    (This is a string)

    (Strings may contain newlines

    and such.)

    (Strings may contain balanced parentheses ( ) and

    special characters (*!&}^% and so on).)

    (The following is an empty string.)

    ()

    (It has zero (0) length.)

    Dentro de una cadena literal se utiliza la barra invertida como carcter de escape. El siguiente

    carcter al smbolo de escape (\) determina la interpretacin que el lector le dar como se en la

    tabla 4-1. Si el carcter subsecuente a la barra invertida no pertenece a ninguno de los mostrados

    en la tabla se ignorara al smbolo de escaque (\).

    Secuencia Interpretacin

    \n Salto de lnea (0Ah) (LF)

    \r Vuelta de Carro (0Dh) (CR)

    \t Tabulador Horizontal (09h) (HT)

    \b Retroceso (08h) (BS)

    \fEntrada de Formulario (FF)

    \( Parntesis Izquierdo (28h)

    \) Parntesis derecho (29h)

    \\ Barra Inversa (5Ch) (Backslash)

    \ddd Cdigo de caracter ddd (octal)Tabla 4-1 Secuencia de escape en cadenas literales

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    33/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    25

    Un programa compatible que escriba archivos PDF debe de dividir las cadenas Literales en varias

    lneas. La barra invertida al final de una lnea indica que la cadena literal contina en la siguiente

    rengln. UN lector compatible ignora la barra invertida seguida del smbolo de fin de lnea para

    crear una cadena de texto que no ha sido segmentada.

    Ejemplo 2 These \two strings \

    are the same.)

    (These two strings are the same.)

    4.2.3.2 Cadenas Hexadecimales

    Las cadenas tambin pueden ser escritas de forma hexadecimal que es til para guardar

    informacin binaria arbitraria en un archivo PDF. Una cadena hexadecimal debe escribirse como

    una secuencia de dgitos hexadecimales codificados como caracteres ASCII y encerrado entre

    smbolos .

    Ejemplo 1

    Cada par de dgitos hexadecimales definen un byte de la cadena, los espacios, tabuladores vuelta

    de carro, entrada de lnea y entrada de formulario son ignorados. En caso de la falta de un digito

    para completar un par se sobre entiende que es 0.

    4.2.4 Objetos NombreComenzando en la versin 1.2 los objetos nombre son smbolos atmicos definidos nicamente

    por una secuencia con cualquier carcter, excepto el carcter nulo (0h). nicamente definidos

    significa que dos objetos nombres hechos con la misma secuencia de caracteres denotan al mismo

    objeto. Atmico significa que no posee estructura interna.

    Cuando se escribe un Objeto Nombre en un Archivo PDF se debe de comenzar con el smbolo debarra (/). La barra no forma parte del nombre es un prefijo que indica que la siguiente secuencia

    de caracteres representa un nombre en el archivo PDF y debe seguir las siguientes reglas:

    Un smbolo numrico en un nombre debe de ser escrito usando su cdigo hexadecimal de

    2 caracteres (23h), precedido por el signo de nmeros (#).

    Cualquier carcter regular en un nombre (excepto el smbolo de nmeros) deber ser

    escrito como es o utilizando su cdigo hexadecimal de dos dgitos precedidos por el

    smbolo de nmeros (#).

    Cualquier carcter que no sea regular debe de ser escrito usando su cdigo hexadecimal

    de dos dgitos precedido por el smbolo de nmeros (#).

    Los espacios dentro de un objeto nombre se deben de indicar con la codificacin hexadecimal de

    dos dgitos y no puede haber espacio en blanco entre el smbolo de barra y el comienzo del

    nombre.

    Los caracteres regulares fuera del rango del smbolo de admiracin (21h) () y la tilde (7h) (~)

    deben ser escritos con su cdigo hexadecimal.

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    34/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    26

    El smbolo de barra (sin ningn carcter posterior) introduce un nombre nico vlido definido por

    la secuencia vaca.

    Los ejemplos de la tabla con el smbolo # no son vlidos en las versiones 1.0 y 1.1.

    Sintaxis del nombre literal Nombre resultante/Name1 Name1

    /ASomewhatLongerName ASomewhatLongerName

    /A;Name_With-Various***Characters? A;Name_With-Various***Characters?

    /1.2 1.2

    /$$ $$

    /@pattern @pattern

    /.notdef .notdef

    /lime#20Green Lime Green

    /paired#28#29parentheses paired()parentheses

    /The_Key_of_F#23_Minor The_Key_of_F#_Minor

    /A#42 ABTabla 4-2 Ejemplo de Objetos tipo Nombre

    Los nombres en un archivo PDF son atmicos y nunca son tratados como texto que se mostrara al

    usuario ni a alguna aplicacin externa.

    4.2.5 Objetos ArregloUn objeto arreglo es una coleccin unidimensional de objetos arreglados secuencialmente. A

    diferencia de los arreglos en otros lenguajes de computadora, los arreglos en PDF pueden ser

    heterogneos; esto es que los elementos en el arreglo puede ser de cualquier tipo, incluso ms

    arreglos.

    Un arreglo debe escribirse como una secuencia de objetos encerrados en Parntesis Cuadrados ([

    y ]) (5Bh y 5Dh).

    Ejemplo 1 [549 3.14 false (Ralph) /SomeName]

    El formato PDF solo soporta arreglos unidimensionales. Para crear arreglos con ms niveles se

    necesita introducir arreglos como elementos anidados a cualquier nivel.

    4.2.6 Objetos DiccionarioUn objeto diccionario es una tabla asociativa que contiene pares de objetos, conocidas como

    entradas del diccionario. El primer elemento del de cada entrada es la llave y el segundo elemento

    es el valor. La llave debe ser un objeto nombre mientras que el valor puede ser cualquier tipo de

    objeto PDF. Una entrada de diccionario con valor nulo es tratada como si la entrada no existiera.

    Las entradas de in diccionario representan una tabla asociativa y como tal se encuentra

    desordenada, aunque al momento de ser escrito el archivo se tenga un orden este ser ignorado.

    Mltiples entradas en el mismo diccionario no deben tener el mismo nombre.

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    35/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    27

    Un diccionario debe de ser escrito como una secuencia de pares Llave-Valor encerradas en

    parntesis angulares dobles ().

    Ejemplo

    >>

    Los objetos diccionario son los bloques de construccin principales de un documento PDF. Son

    usados comnmente para reunir y atar juntos los atributos de objetos complejos en cada entrada

    del diccionario, especificando el nombre y valor de un atributo. Por convencin la entrada Type

    en un diccionario, si existe, especifica el tipo de objeto que el diccionario describe. En algunos

    casos la entrada Subtype o S se utilizan para identificar una subcategora especializada del

    objeto general. El valor de la entra Type y Subtype debe de ser un objeto de tipo nombre.

    El valor de la entrada Type puede ser inferido casi siempre por el contexto y su utiliza ms para

    documentacin y correccin de errores. La entrada Type no es requerida a menos que la

    descripcin de un objeto indique sea as. Tampoco existen valores correctos o no para esta

    entrada, por lo que cualquier valor es vlido.

    4.2.7 Objetos CadenasUn Objeto Cadena, al igual que una cadena de texto, es una secuencia de bytes. Sin embargo un

    objeto cadena no tiene limitaciones de longitud a diferencia de la cadena de texto que tienelimitaciones segn la implementacin. Por esta razn, los objetos potencialmente grandes, como

    imgenes o descripciones de pgina, deben ser representados como cadenas. El contexto en el

    que se agrega una cadena determina que es lo que representa la secuencia de bytes.

    Una cadena consiste de un diccionario seguido de cero o ms bytes encerrados entres las palabras

    clave stream(seguida de una nueva lnea) y endstream.

    Ejemplo dictionary

    Stream

    Zero or more bytes

    endstream

    Todas las cadenas deben ser objetos indirectos mientras que el diccionario debe ser un objeto

    directo. La palabra clave stream, despus del diccionario, debe estar seguida de un marcador de

    fin de lnea consistiendo de un smbolo de vuelta de carro y salto de lnea, o de un salto de lnea

    solo; y no solo por una vuelta de carro. La secuencia de bytes que dan forma a la cadena residen

    entre un marcador de lnea despus de stream y la palabra clave endstream; el diccionario de

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    36/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    28

    la cadena especifica el largo de la cadena. Debe existir un marcador de fin de lnea entre la cadena

    y la palabra endstream; este marcador no se contempla en el tamao de la cadena. Por ultimo

    no debe haber ningn byte adicional diferente del espacio blanco entre endstream y endobj.

    Cada diccionario de cadena debe contener una entrada Length que indica cuantos bytes del

    archivo PDF se usan para la informacin de la cadena. En la tabla 4-3 se muestra la lista deentradas comunes del diccionario de cadena junto con su tipo correspondiente.

    Llave Tipo Valor

    Length Entero (Requerido) El nmero de bytes desde el principio de la lineaposterior a la palabra clave stream hasta el ltimo byte antes de lapalabra clave endstream.(Debe existir un marcador de fin de lneaadicional precediendo a endstream, que no es considerado en lacuenta y no es parte de la informacin de la cadena.)

    Filter Nombre o Arreglo (Opcional) El nombre de un filtro que debe ser aplicado al procesarla informacin de la Cadena, o un arreglo de nombres de diferentesfiltros ordenados en la secuencia en que sern usados.

    DecodeParms Diccionario oArreglo

    (Opcional) Un parmetro diccionario o un arreglo de diccionarios,utilizados por los filtros especificados por Filter. Si slo hay un

    filtro y ese filtro tiene parmetros, DecodeParms debe estar

    establecido por el diccionario de los parmetros del filtro a menos

    que todos los parmetros del filtro tengan sus valores por defecto,

    en cuyo caso puede ser omitida la entrada DecodeParms. Si hay

    varios filtros y cualquiera de ellos tiene valores diferentes a los

    predeterminados, DecodeParms ser una matriz con una entrada

    para cada filtro: tambin un diccionario de parmetros para el filtro

    o el objeto nulo si el filtro no tiene parmetros (o si todos sus

    parmetros tienen valores por defecto). Si ninguno de los filtros

    tiene parmetros, o si todos los parmetros tienen valores por

    defecto, la entrada DecodeParms puede ser omitida

    F Especificacin deArchivo

    (Opcional; PDF 1.2) El archivo que contiene la cadena deinformacin. Si existe esta entrada, los bytes entre stream yendstream deben ser ignorados. Sin embargo la entrada deLength debe seguir especificando el nmero de esos bytes.. Losfiltros que son aplicados a la informacin del archivo deben serespecificados por FFiltery los parmetros del filtro se especificanen FDecodeParms.

    FFilter Nombre o Arreglo (Opcional; PDF 1.2)El nombre de un filtro que debe ser aplicado alprocesar la informacin encontrada en el archivo externo de lacadena, o un arreglo de nombres de filtros. Aplica las mismasreglas que Filter.

    FDecodeParm

    s

    Diccionario o

    Arreglo

    (Opcional; PDF 1.2)Un diccionario de parmetros o un arreglo de

    diccionarios de parmetros usados por los filtros especificados enFFilter. Se aplican las mismas reglas que usa DecodeParms.

    DL Entero (Opcional; PDF 1.5) Un entero no negativo representando elnmero de bytes en la cadena decodificada o filtrada. Puede serusada para determinar, por ejemplo, si hay suficiente espacio endisco duro para escribir una cadena en un archivo. Este valor debeser considerado como una pista para ciertos filtros de cadena. Talvez no sea posible determinar este valor con precisin.

    Tabla 4-3 Entradas Comunes al Diccionario de Cadena

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    37/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    29

    4.2.8 Objetos NulosEl objeto nulo tiene un tipo y valor que son diferentes a aquellos de cualquier otro objeto Solo

    debe de haber un objeto de tipo nulo y se denota por la palabra clave null. Una referencia a un

    objeto indirecto que no exista se tratara igual que un objeto nulo. Especificar al valor nulo como el

    valor de una entrada de diccionario es equivalente a omitir la entrada.

    4.2.9 Objetos IndirectosCualquier objeto en un archivo PDF puede ser rotulado como un objeto indirecto. Esto da al objeto

    un identificador nico de objeto al cual otros objetos pueden referirse. El identificador de objeto

    consta de dos partes:

    Un entero Positivo llamado Numero de Objeto. Los objetos indirectos pueden estar

    numerados secuencialmente dentro del archivo PDF. Pero esto es un requisito, los

    nmeros de objeto pueden ser asignados en cualquier orden arbitrario.

    Un entero no negativo llamado Numero de Generacin. En un archivo PDF nuevo, todos

    los objetos indirectos poseen un nmero de generacin igual a cero. Nmeros degeneracin diferentes de cero pueden ser introducidos cuando el archivo es actualizado

    posteriormente.

    Juntos, la combinacin de un numero de objeto y un numero de generacin debe identificar

    nicamente a un objeto indirecto.

    La definicin de un objeto indirecto debe consistir en su nmero de objeto y su nmero de

    generacin separados por un espacio en blanco, seguidos del valor del objeto encerrado entre las

    palabras clave obj y endobj.

    Ejemplo 1 Definicin de objeto indirecto

    12 0 obj

    (Brillig)

    Endob

    El ejemplo se define un objeto con nmero de objeto 12 y numero de generacin 0. El valor de

    este objeto es la cadena de texto Brillig

    Un objeto puede ser referenciado desde cualquier parte del archivo con una referencia indirecta.

    Una referencia indirecta debe de consistir de nmero de objeto, numero de generacin y de la

    palabra clave R (con espaciosblancos separando cada parte).

    Ejemplo 2 Definicin de referencia Indirecta

    12 0 R

    A partir de PDF 1.5 pueden residir objetos indirecto dentro de cadenas. Se referencian igual, sin

    embargo su definicin no debe incluir las palabras clave obj y endobj, y su nmero de

    generacin debe de ser cero.

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    38/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    30

    Una referencia indirecta a un objeto indefinido no debe de ser tratada como un error por un lector

    compatible, debe de ser tratada como una referencia al objeto nulo.

    Ejemplo 3 Uso de objetos indirectos para indicar la longitud de una cadena en un

    diccionario.

    7 0 obj

    > % Una referencia Indirecta al objeto 8

    stream

    BT/

    F1 12 Tf

    72 712 Td

    (A stream with an indirect length) Tj

    ET

    Endstream

    Endobj

    8 0 obj

    77 %La longitud de la cadena precedente.

    endobj

    En el ejemplo 3 se muestra el uso de una referencia indirecta en la segunda lnea para indicar la

    longitud de un objeto cadena. El valor de la entrada del diccionario de cadena es el valor entero

    que se encuentra despus de la cadena. Esto permite a la aplicaciones que generan PDF en un solo

    paso dejar la especificacin de la longitud de las cadenas despus de haberlas terminado de

    escribir.

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    39/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    31

    4.3 EstructuraTodos los archivos PDF comparten la misma estructura interna independientemente de con que

    aplicacin se haya creado. EL estndar ISO 32000 define a los Archivos PDF en cuatro partes

    principales que se muestran en la figura 4-1.

    Imagen 4-1 Partes de un Archivo PDF

    4.3.1 CabeceraEs la primera lnea de un archivo PDF y consiste de 5 caracteres (%PDF -) seguidos del nmero de

    versin de PDF utilizada para crear el archivo.

    Si el archivo PDF contiene informacin binaria, la cabecera debe estar seguida de una lnea

    comentada con, por lo menos, cuatro caracteres binarios cuyo valor se igual o mayor a 128. Esto

    garantiza un comportamiento correcto para las aplicaciones de transmisin de archivos que

    analizan el principio de los archivos para determinar si manejarlos como texto o como datos

    binarios

    4.3.2 CuerpoEl cuerpo de un archivo PDF consiste de una secuencia de objetos indirectos que representan el

    contenido de un archivo. Los objetos, que describiremos en la siguiente seccin, representas

    componentes de un documento como fuentes, pginas e imgenes. Desde la versin 1.5 se cuenta

    con cadenas de objetos que se vern ms adelante.

  • 7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF

    40/73

    Insercin de Informacin Oculta en Archivos PDF 2011

    32

    4.3.3 Tabla de referencias cruzadasLa tabla de referencias cruzadas contiene la informacin que permite el acceso aleatorio a los

    objetos indirectos en el archivo y as no tener que leer el archivo completo para encontrar un

    objeto en particular. La tabla se compone de entradas de una sola lnea para cada objeto indirecto,

    indicando el desfase en Bytes dentro del cuerpo del archivo.

    Esta parte del archivo es la nica con un formato explicito, lo que permite el acceso aleatorio a las

    entradas de la tabla. Un archivo puede contener varias secciones conteniendo la tabla de

    referencias cruzadas, esto se debe a que los archivos PDF pueden ser actualizados.

    Ejemplo 1 Tabla de referencias cruzadas

    xref0 60000000003 65535 f

    0000000017 00000 n

    0000000081 00000 n

    0000000000 00007 f

    0000000331 00000 n

    0000000409 00000 n

    Cada parte de la tabla de referencias debe de comenzar indicada por el texto xref. Despus de

    esta indicacin puede haber una o ms subsecciones conteniendo las entradas de la tabla. Para los

    archivos que nunca han sido actualizados de manera incremental, en la seccin de la tabla, solo

    debe existir una sola subseccin en la que los objetos comiencen con el nmero cero.

    Cuando se indica una subseccin de la tabla se debe indicar el nmero del primer objeto y el

    nmero de objetos que contiene la seccin. Los numero de Objeto son consecutivos dentro de

    cada subseccin, por eso solo se indica el nmero de objeto del primero de la subseccin.

    La tabla de referencias cruzadas indica el estado del objeto en e