estandar mpeg4

Visión general de ejecutivo

MPEG-4 es un estándar ISO / IEC desarrollado por MPEG (Moving Picture Experts Group), el comité que desarrolló la ganadora del premio Emmy normas conocido como MPEG-1 y MPEG-2. Estas normas se vídeo interactivo en CD-ROM y Digital La televisión es posible. MPEG-4 es el resultado de otro esfuerzo internacional con participación de cientos de investigadores e ingenieros de todo el mundo. MPEG-4, cuyo formal ISO / IEC designación es la norma ISO / IEC 14496, se finalizó en octubre de 1998 y se convirtió en una norma internacional en los primeros meses de 1999. Las extensiones totalmente compatible con el título de MPEG-4 Versión 2 se congelaron a finales de 1999, para adquirir la norma internacional oficial Estado de principios de 2000. Algunos trabajos, en las extensiones en áreas concretas, está aún en curso.

MPEG-4 se basa en el éxito demostrado de tres campos:

La televisión digital; Aplicaciones gráficas interactivas (el contenido sintético);

Multimedia interactivo (World Wide Web, la distribución y el acceso a contenido)

MPEG-4 proporciona los elementos estándar tecnológico que permite la integración de la producción, distribución y paradigmas de acceso al contenido de los tres campos.

Más información acerca de MPEG-4 se puede encontrar en la página de inicio MPEG (mayúsculas y minúsculas):. Esta página web contiene enlaces a una gran cantidad de información acerca de MPEG, incluyendo tanto de MPEG-4, muchos de los documentos a disposición del público, varias listas de "preguntas más Preguntas y enlaces a otros MPEG-4 páginas web.

El estándar se puede comprar en la ISO, envíe un correo a [email protected]. En particular, el software completo para MPEG-4 versión 1 se puede comprar en un CD ROM, por 56 francos suizos (aproximadamente 40 dólares EE.UU.). Este software es libre de restricciones de derechos de autor cuando se utilizan para la aplicación de tecnología MPEG-4 compatible. (Esto no significa que el software es la cuota de las patentes.

Este documento ofrece una visión general del estándar MPEG-4, explicando que las piezas de tecnología que incluye y qué tipo de aplicaciones son compatibles con esta tecnología.

1. Ámbito de aplicación y las características del estándar MPEG-4

El estándar MPEG-4 ofrece un conjunto de tecnologías para satisfacer las necesidades de los autores, los proveedores de servicios y usuarios finales.

Para los autores, MPEG-4 permite la producción de contenido que tiene aptitud para la reutilización es mucho mayor, tiene mayor flexibilidad que la que hoy hacen posibles las distintas tecnologías como la televisión digital, gráficos animados, World Wide Web (WWW), las páginas y sus extensiones. Además, ahora es posible gestionar y proteger mejor los derechos de propietario del contenido.

Para los proveedores de servicio de red MPEG-4 ofrece una información transparente, que puede ser interpretado y traducido a los nativos los mensajes de señalización adecuada de cada red con la ayuda de los órganos pertinentes de las

normas. Lo anterior, sin embargo, excluye de las consideraciones de calidad de servicio, para que MPEG-4 proporciona un descriptor de calidad de servicio genérico para MPEG-4 diferentes medios de comunicación. Las traducciones exactas de los parámetros de calidad de servicio establecidos para cada uno de los medios de comunicación a la calidad de servicio de red están más allá del ámbito de aplicación de MPEG-4 y se dejan a los proveedores de red. Señalización de los medios de MPEG-4 descriptores de calidad de servicio de extremo a extremo permite la optimización del transporte en redes heterogéneas.

Para los usuarios finales, MPEG-4 ofrece niveles más altos de interacción con los contenidos, dentro de los límites establecidos por el autor. También lleva el contenido multimedia a las nuevas redes, incluidos los que utilizan bitrate relativamente bajo, y los móviles. MPEG-4 aplicaciones de documento existe en la página principal de MPEG (www.cselt.it / mpeg), que describe las aplicaciones de usuario final muchos, incluyendo la transmisión multimedia interactivos y las comunicaciones móviles.

Para todas las partes implicadas, MPEG trata de evitar una multiplicidad de propietarios, no interfuncionamiento de los formatos y los jugadores.

MPEG-4 logra esos objetivos, proporcionando formas estándar para:

1. representan las unidades de contenido auditivo, visual o audiovisual, llamados "objetos de medios". Estos objetos de medios de comunicación pueden ser de origen natural o sintético, lo que significa que podría ser grabado con una cámara o micrófono, o generadas con un ordenador;

2. describir la composición de estos objetos para crear objetos multimedia compuesto de forma que las escenas de audiovisuales;

3. multiplex y sincronizar los datos asociados con los objetos medios de comunicación, de modo que puedan ser transportados a través de canales de la red proporcionando una calidad de servicio adecuado para la naturaleza de los objetos específicos de medios de comunicación y

4. interactuar con la escena audiovisual generado en el extremo receptor.

Las siguientes secciones ilustran el estándar MPEG-4 funcionalidades descritas anteriormente, utilizando el panorama audiovisual se muestra en la Figura 1.

1,1 Representación codificada de objetos multimedia

MPEG-4 escenas audiovisual se componen de varios objetos de los medios de comunicación, organizado en forma jerárquica. En las hojas de la jerarquía, nos encontramos con objetos primitivos medios de comunicación, tales como:

imágenes fijas (por ejemplo, como un fondo fijo), objetos de vídeo (por ejemplo, una persona que habla - sin el fondo)

los objetos de audio (por ejemplo, la voz asociado con esa persona);

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://www.itu.int/ITU-D/tech/digital-broadcasting/kiev/References/mpeg-4.html&prev=/search%3Fq%3DISO/IEC%2BJTC1/SC29/WG11%26hl%3Des&rurl=translate.google.com.ec&usg=ALkJrhj8V_MZVhKERB1z7lt7ncYRV8sp8A#I13

etc

MPEG-4 normaliza una serie de estos objetos primitivos medios de comunicación, capaz de representar los tipos de contenido, tanto naturales como sintéticas, que pueden ser de 2 - o 3-dimensional. Además de los objetos de los medios mencionados anteriormente y se muestra en la Figura 1, MPEG-4 define la representación codificada de objetos tales como:

texto y gráficos; Talking Heads sintéticas y el texto asociado utilizado para sintetizar la voz y la

animación de la cabeza;

sonido sintético

Un objeto multimedia en su forma de código se compone de elementos descriptivos que permiten la manipulación del objeto en una escena audiovisual, así como de flujo de datos asociados, si es necesario. Es importante señalar que, en su forma codificada, cada uno de los medios de comunicación objeto puede ser representado independiente de su entorno o de fondo.

La representación codificada de objetos de medios de comunicación es lo más eficiente posible, teniendo en cuenta las funcionalidades deseadas. Ejemplos de dichas funcionalidades son la robustez de error, la extracción fácil y edición de un objeto, o tener un objeto en una forma escalable.

1,2 Composición de objetos multimedia

Figura 1 se explica la forma en que el panorama audiovisual en formato MPEG-4 se describe como un compuesto de objetos individuales. La cifra contiene compuestos objetos multimedia que el grupo de medios objetos juntos primitiva. Objetos primitivos medios de comunicación corresponden a las hojas en el árbol descriptivo en tanto que objetos multimedia compuesto de abarcar toda la sub-árboles. Como ejemplo: el objeto visual que corresponde a la persona que habla y la voz correspondientes están unidos para formar un compuesto nuevo objeto de los medios de comunicación, que contengan tanto los componentes fonético y visual de esa persona que habla.

Esta agrupación permite a los autores para construir escenas complejas, y permite a los consumidores para manipular significativa (conjuntos de) los objetos.

Más en general, MPEG-4 proporciona una forma estándar de describir una escena, permitiendo por ejemplo a:

coloque los medios de comunicación en cualquier lugar en un determinado sistema de coordenadas;

aplicar las transformaciones para cambiar la apariencia geométrica o acústicas de un objeto multimedia;

El grupo de medios primitivos objetos para formar compuestos objetos multimedia;

aplicar los datos transmitidos a los objetos medios de comunicación, a fin de modificar sus atributos (por ejemplo, un sonido, una textura, movimiento



perteneciente a un objeto, los parámetros de animación de la conducción de un rostro sintético);

cambio, de forma interactiva, de visión del usuario y puntos de escucha en cualquier lugar de la escena.

La descripción de la escena se basa en varios conceptos de la Virtual Reality Modeling Language (VRML) en términos de su estructura y la funcionalidad de los nodos de composición de objetos y la amplía a habilitar completamente las características antes mencionadas.

Figura 1 - un ejemplo de un archivo MPEG-4 Escena

1,3 Descripción y sincronización de la transmisión de datos de objetos de los medios de comunicación

Objetos multimedia pueden necesitar transmisión de datos, que se transmite en uno o más flujos elementales. Un descriptor de objeto identifica a todos los flujos asociados a un objeto multimedia. Esto permite el manejo de datos jerárquica codificados, así como la asociación de meta-información sobre el contenido (denominado "información sobre el contenido objeto") y los derechos de propiedad intelectual asociados con ella.

Cada curso mismo está caracterizado por un conjunto de descriptores para la información de configuración, por ejemplo, para determinar los recursos necesarios decodificador y la precisión de la información de tiempo codificado. Además, los descriptores pueden realizar sugerencias a la Calidad de Servicio (QoS) que las peticiones de transmisión (por ejemplo, la tasa de bits máxima, la tasa de error de bit, prioridad, etc)

La sincronización de los flujos de primaria se realiza a través de las unidades de sellado de tiempo de acceso individual de los streams de primaria. La capa de sincronización administra la identificación de las unidades de acceso, así como el sellado de tiempo. Independiente del tipo de medio, esta capa permite la identificación del tipo de la unidad de acceso (por ejemplo, vídeo o audio marcos, descripción de los comandos de escena) de flujos elementales, la recuperación de los medios de comunicación objeto o la base de tiempos descripción de la escena, y que permite la sincronización entre ellos. La sintaxis de esta capa se puede configurar en un gran número de formas, lo que permite su uso en un amplio espectro de sistemas.

1,4 Entrega de transmisión de datos de

La entrega sincronizada de transmisión de información desde el origen al destino, la explotación de QoS diferentes disponibles en la red, se expresa en términos de la capa de sincronización antes mencionados y la entrega de una capa que contiene un multiplexor de dos capas, como se muestra en la Figura 2.

La capa de multiplexación primera es manejada de acuerdo a la especificación DMIF, parte 6 del estándar MPEG-4. (DMIF representa para el suministro de Integración de Multimedia Framework) este múltiplex pueden ser incluidas por el MPEG-definidos


FlexMux herramienta, que permite la agrupación de Primaria Streams (ESS), con una sobrecarga de multiplexación bajo. De multiplexación en esta capa se puede utilizar, por ejemplo, ES grupo con similares requisitos de calidad de servicio, reducir el número de conexiones de red o el retraso de extremo a extremo.

El "TransMux" (Transportes Multiplexing) de la capa en la figura 2 modelos de la capa que ofrece servicios de transporte de emparejar la calidad de servicio requerida. Sólo la interfaz de esta capa se especifica en MPEG-4, mientras que la asignación concreta de los paquetes de datos y control de la señalización debe hacerse en colaboración con los organismos que tienen jurisdicción sobre el protocolo de transporte respectivos. Cualquier protocolo de transporte adecuados existentes, tales como la pila (RTP) / UDP / IP, (AAL5) / ATM, o MPEG-2 Transport Stream través de un vínculo adecuado capa puede convertirse en un ejemplo TransMux específicos. La elección se deja al usuario final o proveedor de servicios, y permite a MPEG-4 para ser utilizado en una amplia variedad de entornos de operación.

El uso de la herramienta de FlexMux multiplexación es opcional y, como se muestra en la Figura 2, esta capa puede estar vacía si la instancia TransMux subyacente proporciona toda la funcionalidad requerida. La capa de sincronización, sin embargo, está siempre presente.

Con respecto a la figura 2, es posible:

identificar las unidades de acceso, marcas de tiempo de transporte y la información de referencia de reloj y determinar la pérdida de datos.

opcionalmente intercalar datos procedentes de diferentes corrientes de primaria en los arroyos FlexMux

transmitir información de control a:

indicar la calidad de servicio requerida para cada flujo de corriente primaria y FlexMux;

traducir esos requisitos de QoS en los recursos de red real;

asociar a los medios de flujos elementales de objetos

transmitir la asignación de los flujos elementales de FlexMux y TransMux canales de

Partes de las funciones de control están disponibles sólo en combinación con una entidad de control de transporte, como el marco DMIF.

1,5 Interacción con objetos multimedia

En general, el usuario observa una escena que está compuesto siguiendo el diseño de autor de la escena. Dependiendo del grado de libertad permitido por el autor, sin embargo, el usuario tiene la posibilidad de interactuar con la escena. Operaciones de un usuario pueden ser autorizados a realizar incluyen:




cambiar el ver / escuchar el punto de la escena, por ejemplo, la navegación a través de una escena;

arrastrar objetos en la escena a una posición diferente;

desencadenar una cascada de eventos haciendo clic sobre un objeto específico, por ejemplo, iniciar o detener un flujo de vídeo;

seleccionar el idioma deseado cuando las pistas están disponibles en varios idiomas;

Más tipos complejos de comportamiento también puede ser activado, por ejemplo, suena un teléfono virtual, el usuario contesta y un enlace de comunicación se ha establecido.

1,6 De gestión y de identificación de la Propiedad Intelectual

Es importante tener la posibilidad de identificar la propiedad intelectual en formato MPEG-4 objetos multimedia. Por lo tanto, el MPEG ha trabajado con representantes de diferentes industrias creativas en la definición de la sintaxis y herramientas para apoyar esto. La elaboración completa de los requisitos para la identificación de la propiedad intelectual se pueden encontrar en "Gestión y Protección de la Propiedad Intelectual en formato MPEG-4, que está públicamente disponible en la página de inicio MPEG.

MPEG-4 incorpora la identificación de la propiedad intelectual mediante el almacenamiento de identificadores únicos, que son emitidos por los sistemas internacionales de numeración (por ejemplo, ISAN, ISRC, etc [ISAN: International Audiovisual Number, ISRC: International Standard Recording Code]). Estos números se pueden aplicados para identificar a un titular actual de los derechos de un objeto multimedia. Dado que no todo el contenido está identificado por un número tan, MPEG-4 Versión 1 ofrece la posibilidad de identificar la propiedad intelectual por un par de claves de valor (por ejemplo: »« compositor »John Smith«). Además, MPEG-4 ofrece una normalización interfaz que se integra bien en la capa de sistemas para las personas que quieren utilizar los sistemas que controlan el acceso a la propiedad intelectual. Con esta interfaz, los sistemas de control de propiedad pueden ser fácilmente fusionado con la parte estandarizada del decodificador.

2. Funciones principales en MPEG-4 Versión 1

Esta sección contiene, en forma detallada, las funciones principales que las diferentes partes de la especificación MPEG-4 estándar ofrece en el formato MPEG-4 finalizado Versión 1. Descripción de las funcionalidades se encuentran arriba.

2,1 DMIF

DMIF soporta las siguientes funcionalidades:

A transparente MPEG-4 DMIF interfaz de aplicación con independencia de si el par es un par interactivo a distancia, televisión o medios de almacenamiento locales.

Control de la creación de canales de FlexMux

El uso de redes homogéneas entre pares interactivo: IP, ATM, móviles, PSTN, ISDN de banda estrecha.

2,2 Sistemas

Descripción de la escena de la composición (espacio-temporal de sincronización con el comportamiento de tiempo de respuesta) de varios objetos de medios de comunicación. La descripción de la escena proporciona un rico conjunto de nodos de 2-D y 3-D y los operadores de la composición de gráficos primitivos.

Texto con el apoyo de lengua internacional, selección de fuente y estilo de fuente, el calendario y la sincronización.

Interactividad, incluyendo: cliente y el servidor basado en la interacción, un modelo de eventos en general para activar eventos o enrutamiento de las acciones del usuario, caso general de manipulación y de enrutamiento entre los objetos en la escena, al usuario o escena desencadenó los acontecimientos.

Una herramienta para el entrelazado de las corrientes múltiples en una sola corriente, incluyendo información sobre los tiempos (herramienta FlexMux).

La independencia de la capa de transporte. Asignaciones a las pilas de protocolos pertinentes de transporte, como (RTP) / UDP / IP o MPEG-2 Transport Stream puede ser o que son definidos conjuntamente con los organismos de normalización responsables.

La inicialización y la gestión continua de los buffers de la terminal de recepción de:

La identificación de temporización, sincronización y mecanismos de recuperación.

Los conjuntos de datos en materia de identificación de derechos de propiedad intelectual relativas a los objetos medios de comunicación.

2,3 Audio

MPEG-4 Audio facilita una amplia variedad de aplicaciones que podrían ir desde el habla inteligible para audio multicanal de alta calidad, y de sonidos de la naturaleza a los sonidos sintetizados. En particular, apoya la representación de alta eficiencia de los objetos de audio compuesto por:

De señales de voz: Codificación de voz se puede hacer usando tasas de bits de 2 kbit / s de subida a 24 kbit / s utilizando el lenguaje de codificación de herramientas. Bitrates bajos, como un promedio de 1,2 kbit / s, también es posible que se permite la codificación de tipo de interés variable. Bajo retardo es posible para aplicaciones de comunicaciones. Cuando utilice las herramientas HVXC, la velocidad y el tono puede ser modificado bajo el control del usuario durante la reproducción. Si se

utilizan las herramientas CELP, un cambio de la velocidad de reproducción se puede lograr mediante el uso y herramienta adicional para el procesamiento de efectos.

Voz sintetizada: Scalable TTS codificadores rango de bitrate de 200 bits / s a 1,2 Kbit / s que permite que un texto o un texto con parámetros prosódicos (contorno de campo, la duración de los fonemas, y así sucesivamente), como sus aportes para generar voz sintética inteligible. Incluye las siguientes funcionalidades.

La síntesis de voz utilizando la prosodia de la lengua original

El control de la sincronización de labios con la información fonema.

Funcionalidad de modo truco: pausar, reanudar, saltar hacia delante y hacia atrás.

El idioma internacional y el apoyo dialecto para el texto. (es decir, puede ser señalado en el flujo de bits que la lengua y dialecto se deben usar)

De apoyo símbolo internacional de los fonemas.

de apoyo para la especificación de la edad, sexo, tipo de discurso del orador

de apoyo para la transmisión de parámetros de animación facial (FAP) de favoritos.

General de señales de audio: soporte para la codificación de audio en general que van desde muy bajas tasas de bits de hasta de alta calidad es proporcionada por transformar las técnicas de codificación. Con esta funcionalidad, se cubre una amplia gama de velocidades de bits y anchos de banda. Se inicia a una tasa de bits de 6 kbit / s con un ancho de banda por debajo de 4 kHz, pero también incluye la calidad de transmisión de audio mono hasta multicanal.

Sintetizadas de audio: soporte de audio sintético es proporcionada por una aplicación de audio estructurado descodificador que permite la aplicación de la puntuación basada en la información de control a los instrumentos musicales descritos en un lenguaje especial.

Delimitadas complejidad sintética de audio: Este es proporcionada por una aplicación de audio estructurado descodificador que permite el procesamiento de un formato de tabla de ondas normalizadas.

Ejemplos de funciones adicionales de control de velocidad y cambio de tono de la señal de voz y capacidad de ampliación en términos de tasa de bits, ancho de banda, la robustez de error, la complejidad, etc tal como se definen a continuación.

La funcionalidad de cambio de velocidad permite el cambio de la escala de tiempo sin alterar el terreno de juego durante el proceso de decodificación. Esto puede, por ejemplo, ser usado para implementar un "avance rápido", function (búsqueda de bases de datos) o para adaptar la longitud de una secuencia de audio a una secuencia de vídeo dado, o para practicar pasos de baile a menor velocidad de reproducción.

La funcionalidad de cambio de paso permite el cambio del terreno de juego sin alterar la escala de tiempo durante el proceso de codificación o descodificación.

Esto puede ser usado, por ejemplo, para la alteración de la voz o las aplicaciones de tipo karaoke. Esta técnica sólo se aplica a los parámetros y métodos de codificación de audio estructurado.

Bitrate escalabilidad permite un flujo de bits que se analiza en un flujo de bits de baja tasa de bits de tal manera que el conjunto todavía puede ser decodificado en una señal significativa. El análisis indirecto puede ocurrir ya sea durante la transmisión o en el descodificador.

La escalabilidad de ancho de banda es un caso particular de la escalabilidad de bitrate, por lo que parte de una secuencia de bits que representan una parte del espectro de frecuencias puede ser descartado durante la transmisión o decodificación.

Escalabilidad de la complejidad del codificador permite codificadores de diferente complejidad para generar corrientes de bits válida y significativa.

Escalabilidad de la complejidad decodificador permite un flujo de bits dada a ser decodificado por los descodificadores de los diferentes niveles de complejidad. La calidad de audio, en general, se relaciona con la complejidad del codificador y decodificador utilizado.

Los efectos de audio proporcionan la capacidad de proceso de descodificar las señales de audio con precisión calendario completo de funciones para lograr la mezcla, la reverberación, espacialización, etc

2,4 Visual

El estándar MPEG-4 Visual permite la codificación de los híbridos naturales (basado en píxeles) y las imágenes de vídeo junto con el equipo de síntesis (generado) escenas. Esto, por ejemplo, permitir la presencia virtual de los participantes en la videoconferencia. Para ello, la norma visual incluirá herramientas y algoritmos de apoyo a la codificación de los recursos naturales (basado en píxeles) de imágenes fijas y secuencias de vídeo, así como herramientas de apoyo a la compresión de 2 sintético D y 3-D gráfico de los parámetros de la geometría (es decir, la compresión de los parámetros de la malla de alambre, el texto de síntesis).

Las siguientes subsecciones dan una visión general detallada de las funcionalidades que las herramientas y algoritmos del estándar MPEG-4 Visual apoyará.

2.4.1 Formatos admitidos

Los siguientes formatos y bitrates se apoyará en MPEG-4 Versión 1:

bitrates: normalmente entre el 5 kbit / s y 10 Mbit / s Formatos: progresiva, así como el vídeo entrelazado

Resoluciones: normalmente de sub-QCIF a allá de la TV

2.4.2 eficiencia de compresión

Eficiente de compresión de vídeo contará con el apoyo de todos los tipos de poco abordado. Esto incluye la codificación compacta de texturas con una calidad ajustable entre "aceptable" para las relaciones de compresión muy altas, hasta "casi sin pérdidas".

Eficiente de compresión de texturas de mapeado de texturas en 2-D y 3-D mallas.

De acceso aleatorio de video que le permite funciones tales como pausa, avance rápido y retroceso rápido de vídeo almacenados.

2.4.3 basado en el contenido Funcionalidades

Basado en el contenido de codificación de imágenes y de vídeo para permitir la decodificación por separado y la reconstrucción de objetos de vídeo de forma arbitraria.

De acceso aleatorio del contenido en las secuencias de video que le permite funciones tales como pausa, avance rápido y retroceso rápido de los objetos de vídeo almacenados.

Extendido de la manipulación del contenido en las secuencias de video que le permite funciones tales como la deformación del texto sintético o natural, las texturas, la imagen y las capas de vídeo de contenido de vídeo reconstruido. An example is the mapping of text in front of a moving video object where the text moves coherently with the object.

2.4.4 Scalability of Textures, Images and Video

Complexity scalability in the encoder allows encoders of different complexity to generate valid and meaningful bitstreams for a given texture, image or video.

Complexity scalability in the decoder allows a given texture, image or video bitstream to be decoded by decoders of different levels of complexity. The reconstructed quality, in general, is related to the complexity of the decoder used. This may entail that less powerful decoders decode only a part of the bitstream.

Spatial scalability allows decoders to decode a subset of the total bitstream generated by the encoder to reconstruct and display textures, images and video objects at reduced spatial resolution. For textures and still images, a maximum of 11 levels of spatial scalability will be supported. For video sequences, a maximum of three levels will be supported.

Temporal scalability allows decoders to decode a subset of the total bitstream generated by the encoder to reconstruct and display video at reduced temporal resolution. A maximum of three levels will be supported.

Quality scalability allows a bitstream to be parsed into a number of bitstream layers of different bitrate such that the combination of a subset of the layers can still be decoded into a meaningful signal. The bitstream parsing can occur either during

transmission or in the decoder. The reconstructed quality, in general, is related to the number of layers used for decoding and reconstruction.

2.4.5 Shape and Alpha Channel Coding

Shape coding will be supported to assist the description and composition of conventional images and video as well as arbitrarily shaped video objects. Applications that benefit from binary shape maps with images are content based image representations for image data bases, interactive games, surveillance, and animation. Efficient techniques are provided that allow efficient coding of binary shape. A binary alpha map defines whether or not a pixel belongs to an object. It can be 'on' or 'off'.

'Gray Scale' or 'alpha' Shape Coding

An alpha plane defines the 'transparency' of an object, which is not necessarily uniform. Multilevel alpha maps are frequently used to blend different layers of image sequences. Other applications that benefit from associated binary alpha maps with images are content based image representations for image databases, interactive games, surveillance, and animation. Efficient techniques are provided, that allow efficient coding of binary as well as gray scale alpha planes. A binary alpha map defines whether or not a pixel belongs to an object. It can be 'on' or 'off'. A gray scale map offers the possibility to define the exact transparency of each pixel.

2.4.6 Robustness in Error Prone Environments

Capacidad de recuperación de error contará con el apoyo para ayudar al acceso de imagen y vídeo a través de una amplia gama de almacenamiento y medios de transmisión. Esto incluye la operación útil de la imagen y los algoritmos de compresión de vídeo en entornos propensos a error a las bajas tasas de bits (es decir, menos de 64 Kbps). Se proporcionan las herramientas que se ocupan tanto de la naturaleza de banda limitado y los aspectos de la resiliencia de error de acceso a través de redes inalámbricas.

2.4.7 Cara Animación

La parte "Face Animación 'de la norma permite el envío de los parámetros que se enfrenta sintéticas calibrar y animar. Estos modelos en sí no son estandarizados por MPEG-4, sólo los parámetros son.

Definición y codificación de los parámetros de animación de la cara (modelo autónomo):

Posiciones de los puntos de características y orientaciones para animar las mallas cara definición

Visemes, visual o configuraciones labio equivalentes a los fonemas del habla

Definición y codificación de los parámetros de definición de la cara (para el modelo de calibración):

3-posiciones de la letra D característica

3-D mallas de calibración para la animación de la cabeza

Mapa de textura de la cara

Las características personales

De codificación de textura facial

2.4.8 Codificación de las mallas 2-D con la estructura implícita

De malla basada en la predicción y la transfiguración de textura animada 2-D Delaunay o el formalismo de malla regular con el seguimiento del movimiento

de los objetos animados

De predicción de movimiento y de transmisión de textura suspendido con mallas dinámicas.

Geometría de compresión para los vectores de movimiento:

2-D con malla de compresión de estructura implícita y reconstrucción decodificador de

3. Funciones principales en MPEG-4 Versión 2

En octubre de 1998, el primer conjunto de estándares MPEG-4 fue congelado. El trabajo en MPEG-4 continuo para la versión 2, que añade herramientas para el estándar MPEG-4. La versión 2 fue congelado en diciembre de 1999. Las herramientas existentes y los perfiles de la versión 1 no será reemplazado en la versión 2, la tecnología será añadido a MPEG-4 en forma de nuevos perfiles. Figura 3 a continuación ilustra la relación entre las dos versiones. La versión 2 es una extensión compatible con versiones anteriores de la versión 1.

La versión 2 se basa en la versión 1 de MPEG-4. La capa de Sistemas de la versión 2 es compatible con la versión 1. En el área de audiovisuales, Versión 2 añadirá perfiles a la Versión 1. El trabajo en MPEG-4 no se detiene después de MPEG-4, más funciones se añadirán, si bien en particular, áreas bien definidas. El mismo principio se aplica, y nuevas herramientas encontrarán su camino en la norma en la forma de nuevos perfiles. Esto significa que los sistemas existentes siempre serán conformes, porque los perfiles no se cambiará en retrospectiva.

3,1 Sistemas

La versión 2 del MPEG-4 Systems amplía la versión 1 a cubrir temas como la extendida funcionalidades BIFS, y Java (MPEG-J) de apoyo. La versión 2 también se especifica un formato de archivo para almacenar contenido MPEG-4. Por debajo de los nuevos elementos se hizo una breve presentación.


3.1.1 BIFS avanzada

La versión 2 BIFS (Advanced BIFS) incluye las nuevas funciones siguientes:

Modelado avanzado de sonido en el entorno interactivo de escenas virtuales, donde las propiedades tales como reflejos de la sala, reverberación, efecto Doppler, y la obstrucción de sonido causado por objetos que aparecen entre la fuente y el oyente se calculan para fuentes de sonido en un entorno dinámico en tiempo real. También mejora el modelado de directividad fuente es posible que permita la inclusión de las fuentes de sonido realistas en escenas de 3-D.

Consejo de la animación ya sea de un modelo de cuerpo presente por defecto en el descodificador o de un modelo de cuerpo descargables. La animación del cuerpo se realiza mediante el envío de los parámetros de animación a la misma en una secuencia de bits. (Véase también Sección 3.2.2)

Chroma Key, que se utiliza para generar una forma de máscara y un valor de transparencia de una imagen o una secuencia de vídeo.

La inclusión de 3-D jerárquica mallas a escenas BIFS.

La asociación de comandos interactivos a los ganglios medios de comunicación. Los comandos se pasan al servidor a través de un canal de nuevo para el tratamiento especificado.

Protos y EXTERNPROTOs

3.1.2 MPEG-4 Formato de archivo

El formato de archivo MP4 está diseñado para contener la información de los medios de comunicación de un archivo MPEG-4 la presentación en un formato flexible y extensible que facilita el intercambio, la gestión, edición y presentación de los medios de comunicación. Esta presentación puede ser "local" para el sistema que contiene la presentación, o puede ser a través de una red o mecanismo de entrega de corriente (a TransMux). El formato de archivo está diseñado para ser independiente de cualquier protocolo de entrega especial la vez que permite un apoyo eficiente para la entrega en general. El diseño está basado en el formato QuickTime ® de Apple Computer Inc.

El diagrama siguiente da un ejemplo de un simple intercambio de archivos, que contiene tres arroyos.

El formato de archivo MP4 se compone de estructuras orientadas a objetos llamados "átomos". Una etiqueta única y una longitud de identificar a cada átomo. La mayoría de los átomos de describir una jerarquía de información que permita el metadatos tales como puntos de índice, duración, y punteros a los datos medios de comunicación. Esta colección de átomos está contenida en un átomo llamado el "átomo de película". Los datos propios medios de comunicación se encuentra en otros lugares, sino que puede estar en el archivo MP4, que figura en uno o más 'MDAT o soportes de datos, los átomos, o estén situados fuera del archivo MP4 y referencia a través de URL's.


El diagrama siguiente muestra un archivo más complejo, con los medios de comunicación de datos externos:

El formato de archivo es un formato de streamable, en oposición a un formato de streaming. Es decir, el formato de archivo no se define un control sobre el protocolo de alambre, y nunca es realmente escuchados por un medio de transmisión. En cambio, los metadatos en el archivo conocido como "pistas pista" dar instrucciones, diciendo a una aplicación de servidor cómo entregar los datos de los medios de comunicación sobre un protocolo de entrega en particular. No puede ser indicio de múltiples pistas para una presentación, que describe cómo entregar a través de protocolos de entrega distintos. De esta manera, el formato de archivo facilita la transmisión sin ser escuchados directamente

El siguiente diagrama muestra la relación de contenedores con pista de protocolo RTP pistas para escuchar una película de vídeo simple:

Los metadatos en el archivo, junto con el almacenamiento flexible de los soportes de datos, permite al formato MP4 para apoyar transmisión, edición, reproducción local y el intercambio de contenidos, de tal modo que cumplan los requisitos para el formato MPEG4 Intermedia.

estandar mpeg4

Documents