tecnicas de compresión de audio

22

Click here to load reader

Upload: batiar2d2

Post on 03-Jul-2015

552 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tecnicas de compresión de audio

CODECS DE AUDIO EN H.323

En el caso de VoIP estricto, tan solo vamos a enviar voz, ya que habitualmente querremos contactar con terminales de la RTB. Empecemos pues con los codificadores soportados por el estándar.

Estos van a ser de dos tipos: Waveform Codecs o Vocoders. Los primeros van a tratar de comprimir la forma de onda que tengan a la entrada, muestreándola y tratando con dichos valores. Naturalmente, van a funcionar con cualquier voz, ruido o sonido que introduzcamos. Los Vocoders en cambio van a ser capaces de “entender” la voz humana, adaptando la onda de entrada a un modelo vocal. Los parámetros de dicho modelo se enviarán al receptor, el cual sintetizará una voz basada en ese modelo vocal. Típicamente, los Vocoders van a basar su funcionamiento en filtrar una señal base. Esto es análogo a tomar el sonido emitido por las cuerdas vocales y filtrarlos con labios, dientes o posición de la lengua). Los Vocoders tendrán pues problemas para adaptar sonidos que no sean voces a su modelo vocal.

WAVEFORM CODECS

Destacaremos de estos que:

Se utilizan circuitos estándar muy conocidos, rápidos y poco complejos.

No introducen prácticamente retardo algorítmico.

Son muy adecuados para emplear en sistemas TDM.

No són tan útiles para voz paquetizada, ya que una sola muestra es demasiada poca información como para justificar la cabecera de un paquete entero, y tener que reunir varias muestras implica introducir un retardo.

De este tipo se permiten G.711 y G.722

G.711

Es el estándar para enviar audio en un canal de 64kbps. Muestrea la señal a 8Khz, es decir, transmitirá la banda de 0 a 4KHz de la voz. A una muestra cada 0.125ms es comprensible que no podamos esperar mucho para llenar varios paquetes. Se usan 8 bits por muestra, de forma fija. Trabaja en PCM (Pulse Code Modulation)

Modulación de código de pulso (PCM) de las frecuencias de la voz. Audio hasta 3KHZ a 48, 56 ó 64 kbps.

Sobre paquetes, se suelen usar tramas de 40 muestras (5 ms de voz) o de 80 (10ms).

Los algoritmos de la ocultación de la pérdida del paquete (PLC), también conocidos como algoritmos de la ocultación de la borradura del marco, pérdidas de transmisión de la piel en un sistema audio donde la señal de entrada se codifica y packetized en un transmisor, enviaron sobre una red, y recibido en un receptor que descifra el paquete y los juegos fuera de la salida.

Page 2: Tecnicas de compresión de audio

Usos:

WIFI telefona VoWLAN Sistemas sin hilos del BORDE de GPRS. Comunicaciones Personales Telefonía wideband del IP Comunicación audio y video Telefonía wideband del IP

Características:

Interfaz comprimido común de la corriente del marco del discurso a los sistemas de ayuda con los codificadores múltiples del discurso (G.729, G.728, G.726 et al).

Optimizado para el alto rendimiento en arquitecturas principales del borde DSP. Ambiente de los trabajos múltiple compatible. Se pueden integrar con G.168 y G.165 los cancellers de eco, y el tono

detection/regeneration. Multi puesta en práctica del canal Quéjese con la especificación G.711 Puesta en práctica optimizada tarifa de la entrada del ampliador de 64 kbit/s tarifa de salida del ampliador de 104 o 112 kbit/s entrada del ampliador de la Uno-ley o de la mu-ley Salida uniforme del ampliador del PCM tarifa de la entrada del compresor de 104 o 112 kbit/s tarifa de salida del compresor de 64 kbit/s Entrada uniforme del compresor del PCM salida del compresor de la Uno-ley o de la mu-ley El tamaño de la memoria seleccionable de frame/buffer según el sistema necesita

G.722

Tambien conocido como SB-ADPCM (SubBand – Adaptative Diferential Pulse Code Modulation), nos aportará mejores respecto al G.711. Su velocidad de muestreo se dobla, a 16KHz, ofreciendo un ancho de banda de 8KHz. En realidad, la señal se va a dividir en dos bandas, y cada una de ellas se enviará mediante un ADPCM, que al ser diferencial, funciona mejor para bandas reducidas. Encontraremos tres velocidades posibles:

64 kbps (2 bpm para la banda inferior y 6 bpm para la banda superior).

56 kbps (con 8 kbps libres opcionales para datos) (2 y 5 bits/muestra).

48 kbps (con16 kbps para datos) (2 y 4 bits/ muestra). pág. 22 Voz Sobre IP

7 kilociclos de codificación audio dentro de usar de 64 kbit/sModulación De Código De Pulso Diferenciado Adaptante Del Sub-Band (Sb-adpcm-adpcm)

Usos:

WIFI telefona VoWLAN Sistemas sin hilos del BORDE de GPRS. Comunicaciones Personales Telefonía wideband del IP Comunicación audio y video Telefonía wideband del IP

Page 3: Tecnicas de compresión de audio

Características:

Modo de operación por completo y a medias a dos caras. Vectores de la prueba de los pasos ITU. Interfaz comprimido común de la corriente del marco del discurso a los sistemas de ayuda

con los codificadores múltiples del discurso (G.729, G.728, G.726 et al). Optimizado para el alto rendimiento en arquitecturas principales del borde DSP. Ambiente de los trabajos múltiple compatible. Se pueden integrar con G.168 y G.165 los cancellers de eco, y el tono

detection/regeneration. Multi puesta en práctica del canal Quéjese con la especificación G.722 Puesta en práctica optimizada

CODIFICACORES MEDIANTE VOCODERS

Resultan mucho más eficaces con el ancho de banda, puesto que nos permitirán eliminar o comprimir los silencios, generar ruido de comfort (hace la conversación más apacible al usuario) y ocultar las tramas perdidas. Sin embargo, a veces la voz se oirá mal, debido a la mala codificación o a la falta de recursos de envío, y definitivamente tendremos problemas con otros sonidos que no sean voz. En concreto, no vamos a poder transmitir fax o datos de MODEM.

Encontraremos típicamente, los siguientes algoritmos:

LPC (Linear Predictive Coding): Este modelo convierte el trato vocal en un filtro excitado por una señal de entrada. El señal generado será simplemente el resultado de filtrar dicha señal. Así pues, el LPC codificará la señal de excitación y el filtro.

CELP (Code Excited Linear Predictor): La idea básica es la del LPC, pero la señal de excitación se codifica mejor, diferenciando entre sonidos sonoros, con intervención de las cuerdas vocales, de las sordas, que no són más que ruido blanco. Para las excitaciones sonoras definimos un codebook de señales de excitación, de modo que tan solo tendremos que enviar el índice dentro de dicha tabla. Por otro lado, el filtro se codifica con predicción lineal, es decir, como variación respecto al filtro anterior.

ACELP (Algebraic CELP): Se trata de un CELP para DSP’s más simples, y usa un codebook simplificado.

CS-ACELP (Conjugate Structure - ACELP): Divide la señal de excitación en dos contribuciones: "adaptative codebook" (una versión retrasada de la excitación usada en la trama anterior) y "fixed codebook" (tabla prefijada).

MP-MLQ (Multipulse maximum likelihood quantization): Usa un conjunto de pulsos (o ruido) como señal de excitación.

G.722.1Codificación en 24 y 32 kbit/s para la operación sin manosen sistemas con pérdida baja del marco

G.722.1 describe un algoritmo wideband digital del codificador que proporcione una anchura de banda audio de 50 hertzios a 7 kilociclos, funcionando en un índice binario de 24 kbit/s o de 32 kbit/s. La entrada digital al codificador puede ser 14, 15 o 16 formato del complemento del pedacito 2 en un índice de la muestra de 16 kilociclos (manejados de la misma manera que en la recomendación G.722). El trazado de circuito del interfaz análogo y digital en la salida de la entrada y del decodificador del codificador se conforma con las mismas especificaciones descritas en la recomendación G.722.

El algoritmo se basa encendido transforma la tecnología, usando modulado traslapado transforma (MLT). Funciona encendido 20 marcos del ms (320 muestras) de audio. Porque la ventana del

Page 4: Tecnicas de compresión de audio

transformar (longitud de la función de la base) es 640 muestras y un traslapo de 50 por ciento (320 muestras) se utiliza entre los marcos, el eficaces miran -a continuacio'n tamaño de almacenador intermediario son el ms 20 por lo tanto que el algorítmico total retrasa de 40 el ms es la suma del tamaño del marco más mira -a continuacio'n. Todo el otro retrasa es debido a de cómputo y la transmisión de la red retrasa.

Usos:

WIFI telefona VoWLAN Sistemas sin hilos del BORDE de GPRS. Comunicaciones Personales Telefonía wideband del IP Comunicación audio y video Telefonía wideband del IP

Características:

Modo de operación por completo y a medias a dos caras. Vectores de la prueba de los pasos ITU. Interfaz comprimido común de la corriente del marco del discurso a los sistemas de ayuda

con los codificadores múltiples del discurso (G.729, G.728, G.726 et al). Optimizado para el alto rendimiento en arquitecturas principales del borde DSP. Ambiente de los trabajos múltiple compatible. Se pueden integrar con G.168 y G.165 los cancellers de eco, y el tono

detection/regeneration. Multi puesta en práctica del canal Quéjese con la especificación G.722.1 Puesta en práctica optimizada

G.722.2Amr-wb Wideband De la Multi-Tarifa Adaptante

Algoritmo De Vocoder

G.722.2 utiliza la venda audio 50 - 7000 hertzios en vez 200 - 3400 hertzios para la telefonía tradicional. La anchura de banda creciente mejora la inteligibilidad y el naturalness del discurso perceptiblemente.

G.722.2 describe traz detallado de los bloques de la entrada de 320 muestras de discurso en formato uniforme del PCM de 16 pedacitos a los bloques codificados de 132, 177, 253, 285, 317, 365, 397, 461 y 477 pedacitos y de los bloques codificados de 132, 177, 253, 285, 317, 365, 397, 461 y 477 pedacitos a los bloques de la salida de 320 muestras de discurso reconstruidas.

La tarifa del muestreo es 16 000 samples/s que conducen a un índice binario para la corriente codificada del pedacito de 6,60, 8,85, 12,65, 14,25, 15,85, 18,25, 19,85, 23,05 o 23,85 kbit/s.

El esquema de codificación para los modos de la codificación de la multi-tarifa es el codificador linear excitado código algebraico supuesto de la predicción, de aquí en adelante designado ACELP. Refieren al codificador wideband de la multi-tarifa ACELP como Amr-wb. G.722.2 también utiliza un detector integrado de la actividad de la voz (VAD).

G.722 se utiliza para la voz sobre usos del IP (VoIP) y del Internet (IP), comunicaciones móviles, usos del PSTN, telefonía wideband del ISDN, videotelephony del ISDN y videoconferencia.

Los anexos A y B y apéndice proveo de funcionalidades suplementales permitiendo interoperabilidad los sistemas de la radio G/M y 3GPP. Estas funcionalidades se han desarrollado

Page 5: Tecnicas de compresión de audio

originalmente para estos sistemas, pero su uso no se limita a los usos móviles. Dos otros anexan D y E describe vectores de la prueba y la estructura del marco respectivamente.

Usos:

WIFI telefona VoWLAN Sistemas sin hilos del BORDE de GPRS. Comunicaciones Personales Telefonía wideband del IP Comunicación audio y video

Características:

Modo de operación por completo y a medias a dos caras. Vectores de la prueba de los pasos ITU. Interfaz comprimido común de la corriente del marco del discurso a los sistemas de ayuda

con los codificadores múltiples del discurso (G.729, G.728, G.726 et al). Optimizado para el alto rendimiento en arquitecturas principales del borde DSP. Ambiente de los trabajos múltiple compatible. Pcm linear del pedacito de los códigos 16 muestreado en 16khz Datos de apoyo 9 kbps de las tarifas de datos (6,6 a 23,85) Generación de ruido de la detección y de la comodidad de la actividad de la voz de las

ayudas Multi puesta en práctica del canal Quéjese con la especificación G.722.2 Puesta en práctica optimizada

G723.

Codificación para Comunicación Multimedia a 5.3 y 6.3 kbps.

La recomendación del codificador del discurso G.723 fue desarrollada para el uso en las plataformas de los multimedia, en detalle ésos especificadas por las recomendaciones de la serie de H.32x. Proporciona dos índices binarios comprimidos de la corriente, 5 1/3k BPS y 6.4k BPS. El índice binario más alto está de mayor calidad.

El codificador procesa señales con 30 marcos del ms y tiene 7,5 que el ms mira -a continuacio'n. Concerniente a los codificadores de G.729/G.729A, los codificadores del discurso G.723 pasan tonos de DTMF a través con menos distorsión.

Ambas las 5 tarifas de 1/3k BPS y de 6.4k BPS son obligatorias para el codificador y el decodificador. Una corriente del marco G.723 puede cambiar entre las dos tarifas en cualquier límite del marco de 30 ms.

El interfaz de línea puede ser un extremo delantero análogo (codec y DAA) o un interfaz digital tal como T1/E1, cambiado 56 e ISDN. El extremo superior de este software ofrece un interfaz binario y del discurso directo del marco.

Características:

Modo de operación por completo y a medias a dos caras. Vectores de la prueba de los pasos ITU. Interfaz comprimido común de la corriente del marco del discurso a los sistemas de ayuda

con los codificadores múltiples del discurso (G.729, G.728, G.726 et al).

Page 6: Tecnicas de compresión de audio

Optimizado para el alto rendimiento en arquitecturas principales del borde DSP. Ambiente de los trabajos múltiple compatible.

Configuraciones: Interfaz del DAA usando codec linear en la tarifa de la muestra de 8,0 kilociclos. Interfaz directo a la secuencia de datos 8,0 del kilociclo del PCM (Uno-ley o - ley). Ayuda del norte de la telefonía de American/International (identificación incluyendo del

llamador) disponible. Operación simultánea del detector de DTMF disponible - (menos de 150 golpes en la cinta

de la prueba de Bellcore típica). Detectores del tono de la frecuencia intermedia, tono programable de fines generales

detectors/generators disponible. Cancelación del eco de la línea (G.165 obediente) disponible. Donde codificadores múltiples del discurso (G.729, G.728, G.726 et al.) está disponible, el

codificador que la selección puede ocurrir en el tiempo de pasada. Distinción de Data/Facsimile/Voice disponible. Termine los sistemas de facsímil disponibles - las modulaciones (V.34fax, V.17, et el al.) y

protocolos (T.30) como configuración del relais del terminal de facsímil o del facsímil. Termine los sistemas del módem de los datos disponibles - las modulaciones (V.90, V.34,

et el al.) y protocolos (V.42, PPP que enmarca, et al.). Sistemas de comando de Data/Facsimile/Voice disponibles. Varios procedimientos de lanzamiento disponibles (V.8 y V.8bis). Los puertos múltiples se pueden ejecutar en un solo DSP.

Requisitos De Recurso Del Ejemplo (Adsp-2181): El codificador 5 1/3k BPS requiere 18 MIPS El codificador 6.4k BPS requiere 26 MIPS

El decodificador (5 1/3k BPS o 6.4k BPS) requiere 2 MIPS

Los permitidos por el estándar son: G.723.1, G.728 y G.729

G.723.1

Usa dos algoritmos, en función de si es la versión de 5.3Kbps o 6.3Kbps. Para la primera, un MP-MLQ, y para el segundo un ACELP. El bloque de voz codificado es de 30ms y 158bits o 189bits para 5.3Kbps o 6.3Kbps respectivamente.

De por sí, el algoritmo introduce un retardo de 47.5ms, a los que habrá que añadir los retardos de transmisión.

Por otro lado, el algoritmo incluye VAD (Voice Activity Detection) que detectará cuando no se está hablando, para ahorrar el ancho de banda; CNG (Comfort noise Generation) que generará ruido aleatorio de fondo durante esos instantes de silencio, en beneficio del oyente. Durante los silencios se mandarán tramas SID (Silence Insertion Descriptor) que solo ocupan 5bytes por trama, y llevan los parámetros necesarios para generar el ruido de confort.

G.727diferencial adaptante encajado muestra de 5, 4, 3 y 2 pedacitos

Modulación De Código De Pulso (ADPCM)

Las tecnologías VOCALES, bibliotecas del software del Ltd. incluyen una gama completa de ETSI/de ITU/de IEEE obediente y de otros algoritmos estándares y propietarios del vocoder, optimizada para la ejecución en ANSI C y arquitecturas de DSP que conducen (la lógica ZSP del ADI, de AMD, del BRAZO, de CEVA, de la LSI, las MIPS y TI). G.727 es algoritmos adaptantes encajados de pulso diferenciado de una modulación de código (ADPCM) con 5 -, 4 -, 3 y 2-bits por

Page 7: Tecnicas de compresión de audio

muestra (es decir, en los índices de 40, 32, 24 y 16 kbit/s). G.727 define la ley cuando la señal de la fuente es una señal de la modulación del pulso-co'digo en un pulso de 64 kbit/s desarrollados de señales análogas de la frecuencia de la voz según lo especificado completamente por el volumen Blue Book, recomendación G.711 de la transcodificación.

Los usos donde está enterado el codificador y el decodificador no está enterados de la manera de la cual se han alterado los pedacitos del codeword de ADPCM, o cuando el codificador y el decodificador están enterados de las maneras se alteran los codewords, o donde ni está enterado el codificador ni el decodificador de las maneras de las cuales se han alterado los pedacitos pueden beneficiar de otros algoritmos encajados de ADPCM. Los algoritmos encajados de ADPCM especificados aquí son extensiones de los algoritmos de ADPCM definidos en la recomendación G.726 y se recomiendan para el uso adentro packetized los sistemas del discurso que funcionan según el protocolo de la voz de Packetized (PVP) especificado en el proyecto de recomendaciones G.764. PVP puede relevar la congestión modificando el tamaño de un paquete del discurso cuando se presenta la necesidad.

Los algoritmos encajados de ADPCM son algorthms variables de la codificación del índice binario con la capacidad del pedacito que cae fuera de los bloques del codificador y del decodificador. Consisten en una serie de algoritmos tales que los niveles de la decisión de los quantizers más bajos de las tarifas son subconjuntos del quantizer en la tarifa más alta. Esto permite reducciones del pedacito en cualquier punto en la red sin la necesidad de la coordinación entre el transmisor y el receptor. En contraste, los niveles de la decisión de los algoritmos convencionales de ADPCM tales como ésos en la recomendación G.726, no son subconjuntos de uno otros y por lo tanto, el transmisor debe informar al receptor la tarifa de la codificación el algoritmo de codificación.

Los algoritmos encajados pueden acomodar las características imprevisibles y bursty de los patrones de tráfico que requieren la relevación de la congestión. Porque la relevación de la congestión puede ocurrir después de que se realice la codificación, la codificación encajada es diferente de la codificación variable de la tarifa donde el codificador y el decodificador deben utilizar el mismo número de pedacitos en cada muestra. En ambos casos, el decodificador se debe decir el número de los pedacitos a utilizar en cada muestra. Los algoritmos encajados producen las palabras de código que contienen pedacitos del realce y pedacitos de la base. La trayectoria Alimentar-Delantera (FF) utiliza pedacitos del realce y de la base, mientras que la trayectoria de la regeneración (FB) utiliza pedacitos de la base solamente. El quantizer inverso y el predictor del codificador y del decodificador utilizan los pedacitos de la base. Con esta estructura, los pedacitos del realce se pueden desechar o caer durante la congestión de red. Sin embargo, el número de los pedacitos de la base en las trayectorias del FB del codificador y del decodificador debe seguir siendo igual a evitar de desalinear.

Las cuatro tarifas encajadas de ADPCM son 40, 32, 24 y 16 kbit/s, donde la decisión nivela para los 32, 24 y 16 quantizers de kbit/s son subconjuntos de ésos para el quantizer de 40 kbit/s. Los algoritmos encajados de ADPCM se refieren por (x, y) se aparea donde x refiere a los pedacitos del FF (realce y base) ADPCM y y refiere a los pedacitos del FB (base) ADPCM. Por ejemplo, si y se fija a 2 pedacitos, (5.2) representará el algoritmo encajado 40 kbits/s, (4.2) representará el algoritmo encajado 32 kbit/s, (3.2) representará los 24 algoritmos encajados kbit/s y (2.2) el algoritmo de 16 kbit/s. El índice binario nunca es menos de 16 kbit/s porque el número mínimo de los pedacitos de la base es 2. G.727 proporciona índices de la codificación de 40, 32, 24 y 16 índices de kbit/s y de base de 32, 24 y 16 kbit/s. Esto corresponde a los pares siguientes: (5.2), (4.2), (3.2), (2.2); (5.3), (4.3), (3.3); (5.4), (4.4).

En el codificador, después de la conversión de la señal de entrada del PCM de la Uno-ley o de la mu-ley al PCM del uniforme, una señal de la diferencia es obtenida restando una estimación de la señal de entrada de la señal de entrada sí mismo. 4 adaptantes -, 8 -, 16- o el quantizer 32-level se utiliza para asignar 2, 3, 4 o 5 dígitos binarios al valor de la diferencia señalan para la transmisión al decodificador. (no todos los pedacitos llegan necesariamente el decodificador puesto que

Page 8: Tecnicas de compresión de audio

algunos de estos pedacitos se pueden caer para relevar la congestión en la red del paquete. Para una muestra recibida dada, sin embargo, los pedacitos de la base son llegada garantizada si no hay errores de la transmisión y los paquetes llegan la destinación.) Los pedacitos del FB se alimentan al quantizer inverso. El número de los pedacitos de la base depende del algoritmo encajado seleccionado. Por ejemplo, (los 5.2) algoritmos contendrán siempre 2 pedacitos de la base. El quantizer inverso produce una señal quantized de la diferencia de estos dígitos binarios. La estimación de la señal se agrega a esta señal quantized de la diferencia de producir la versión reconstruida de la señal de entrada. La señal reconstruida y la señal quantized de la diferencia son funcionadas sobre por un predictor adaptante que produzca la estimación de la señal de entrada, de tal modo terminando el lazo de regeneración.

El decodificador incluye una estructura idéntica a la porción del FB del codificador. Además, hay también una trayectoria del FF que contiene un PCM del uniforme a la conversión de la Uno-ley o de la mu-ley. La base así como los pedacitos del realce es utilizada por el bloque síncrono del ajuste de la codificación para prevenir la distorsión acumulativa en codificaciones en tándem síncronas bajo ciertas condiciones. El ajuste síncrono de la codificación es alcanzado ajustando los códigos de salida del PCM para eliminar cuantificar el distorsion en la etapa de codificación siguiente de ADPCM.

Usos:

WIFI telefona VoWLAN Sistemas sin hilos del BORDE de GPRS. Comunicaciones Personales Telefonía wideband del IP Comunicación audio y video Telefonía wideband del IP

Características:

Modo de operación por completo y a medias a dos caras. Vectores de la prueba de los pasos ITU. Interfaz comprimido común de la corriente del marco del discurso a los sistemas de ayuda

con los codificadores múltiples del discurso (G.723, G.726, G.728, G.729 et al). Optimizado para el alto rendimiento en arquitecturas principales del borde DSP. Ambiente de los trabajos múltiple compatible. Se pueden integrar con los cancellers de eco G.168 y G.165, y el tono

detection/regeneration. Multi puesta en práctica del canal Quéjese con la especificación G.727 Puesta en práctica optimizada

G.728

Usará algoritmo Low Delay CELP (LD-CELP) con un bitrate de 16Kbps, 12.8Kbps o 9.6Kbps. La trama es de 0.625sm y 10 bits. El retardo algorítmico es mínimo: 0.625ms y a la práctica nunca es mayor que 2 o 3 ms.

Page 9: Tecnicas de compresión de audio

Voz Sobre IP

Codificación de 15 kbps usando Low-Delay code Excited Linear Prediction.

El CCITT aprobó la recomendación G.711 en µ-Ley o Uno-Ley Pulso-Cifrada de la modulación (PCM) en 1984. Es 64 kbps comprimidos fluye y es una referencia común para la calidad de la compresión de discurso. G.711 encoding/decoding se hace generalmente dentro de codecs aunque una técnica para convertir muestras lineares al PCM (Uno-Ley o µ-Ley) es directa.

G.721 es un algoritmo adaptante de la compresión de discurso de la modulación de código de pulso diferenciado de 32 kbps (ADPCM). Produce discurso de la calidad del peaje. Bajo transmisión libre del error, G.721 tiene una calidad percibida levemente peor que G.711. La calidad de G.721 deteriora perceptiblemente cuando varios tales acoplamientos se utilizan en tándem. Con las tarifas de error de la transmisión más arriba de 10,4, la calidad percibida de G.721 es mejor que G.711.

G.726 amplía el G.721 ADPCM para incluir 40, 24 y 16 kbps, así como 32 kbps. G.726 en 40 kbps realiza comparable a G.711.

G.728 Bajo-Retrasa código que la compresión linear excitada de la predicción (Ld-celp-celp) es una compresión de 16 kbps. Esto tiene una codificación algorítmica retrasa de 0,625 ms comparados con G.721, G.728 tiende para anotar peor en objetivo, pero mejora en testes subjetivos. Una característica de los algoritmos de CELP es que tienden para realizar más pobre que ADPCM en la presencia del ruido de fondo.

Características:

Modo de operación por completo o a medias a dos caras. Pase los vectores de la prueba de ITU. Interfaz comprimido común de la corriente del marco del discurso a los sistemas de ayuda

con los codificadores múltiples del discurso (G.723, G.729, et al.). Optimizado para el alto rendimiento en arquitecturas principales del borde DSP. Ambiente de los trabajos múltiple compatible.

Configuraciones: Interfaz del DAA usando codec linear en la tarifa de la muestra de 8,0 kilociclos. Interfaz directo a la secuencia de datos 8,0 del kilociclo del PCM (Uno-ley o - ley). Ayuda del norte de la telefonía de American/International (identificación incluyendo del

llamador) disponible. Operación simultánea del detector de DTMF disponible - (menos de 150 golpes en la cinta

de la prueba de Bellcore típica). Detectores del tono de la frecuencia intermedia, tono programable de fines generales

detectors/generators disponible. Cancelación del eco de la línea (G.165 obediente) disponible. Donde codificadores múltiples del discurso (G.723, G.729 et al.) está disponible, el

codificador que la selección puede ocurrir en el tiempo de pasada. Distinción de Data/Facsimile/Voice disponible. Termine los sistemas de facsímil disponibles - las modulaciones (V.34fax, V.17, et el al.) y

protocolos (T.30) como configuración del relais del terminal de facsímil o del facsímil. Termine los sistemas del módem de los datos disponibles - las modulaciones (V.90, V.34,

et el al.) y protocolos (V.42, PPP que enmarca, et al.). Sistemas de comando de Data/Facsimile/Voice disponibles. Varios procedimientos de lanzamiento disponibles (V.8 y V.8bis). Los puertos múltiples se pueden ejecutar en un solo DSP.

Page 10: Tecnicas de compresión de audio

Requisitos De Recurso Del Ejemplo (ADSP-21xx): G.728 en 16 kbps requiere 30 MIPS El codificador G.726/G.721 requiere 3,5 MIPS, decodificador requiere 3,7 Una configuración no estándar popular del codificador G.726/G.721 requiere 3,2 MIPS,

decodificador requiere 3,0 MIPS

G.729

Dispone de varios bitrates: (8kbps: G.729, G.729A. 6.4Kbps: G.729D. 11.8Kbps G.729E). Usa el algoritmo CS-ACELP. G.729A es una versión ligeramente más simple de G.729. D y E son extensiones para otros bitrates.

En G.729, la trama es de 10ms, o sea, 10bytes. El retardo algorítmico es de 15ms, y una vez implementado en la realidad, de unos 20ms. En caso de perder una trama, el algoritmo repite la última trama, pero ligeramente atenuada para que no se note tanto. Usa también VAD, CNG y SID.

Las tramas SID, en este caso, serán de 15 bits (contra los 80 de la trama de voz) pero solo se envían si el ruido de fondo ha cambiado.

Voz Sobre IP

Codificación para Transmisión Multimedia a 8 ó 13 kbps.

G.729 es una compra aprobada algoritmo linear Algebraico-Co'digo-Excitada Conjugar-Estructura Itu-t de la compresión de discurso de la predicción de 8 kbps (cs-acelp-acelp). G.729 el anexo A es una versión reducida de la complejidad del codificador G.729.

G.729 desarrollaron al codificador del discurso del anexo A para el uso en usos simultáneos de la voz y de los datos de los multimedia como DSVD. El codificador procesa señales con 10 marcos del ms y tiene 5 que el ms mira -a continuacio'n que da lugar a un total de 15 el ms algorítmico retrasa. La entrada-salida de este algoritmo es 16 muestras lineares del PCM del pedacito que son secuencia de datos comprimida los kbps convertida de from/to 8.

El interfaz de línea puede ser un extremo delantero análogo (codec y DAA) o un interfaz digital tal como T1/E1, cambiado 56 e ISDN. El extremo superior de este software ofrece un interfaz binario y del discurso directo del marco

Características:

Modo de operación por completo y a medias a dos caras. Vectores de la prueba de los pasos ITU. Interfaz comprimido común de la corriente del marco del discurso a los sistemas de ayuda con los codificadores múltiples del discurso (G.723, G.728, G.726 et al). Optimizado para el alto rendimiento en arquitecturas principales del borde DSP. Ambiente de los trabajos múltiple compatible. Configuraciones:

Interfaz del DAA usando codec linear en la tarifa de la muestra de 8,0 kilociclos. Interfaz directo a la secuencia de datos 8,0 del kilociclo del PCM (Uno-ley o µ-Ley). Ayuda del norte de la telefonía de American/International (identificación incluyendo del

llamador) disponible. Operación simultánea del detector de DTMF disponible - (menos de 150 golpes en la cinta

de la prueba de Bellcore típica). Detectores del tono de la frecuencia intermedia, tono programable de fines generales

detectors/generators disponible. Cancelación del eco de la línea (G.165 obediente) disponible.

Page 11: Tecnicas de compresión de audio

Donde codificadores múltiples del discurso (G.723, G.728, G.726 et al.) está disponible, el codificador que la selección puede ocurrir en el tiempo de pasada.

Distinción de Data/Facsimile/Voice disponible. Termine los sistemas de facsímil disponibles - las modulaciones (V.34fax, V.17, et el al.) y

protocolos (T.30) como configuración del relais del terminal de facsímil o del facsímil. Termine los sistemas del módem de los datos disponibles - las modulaciones (V.90, V.34,

et el al.) y protocolos (V.42, PPP que enmarca, et al.). Sistemas de comando de Data/Facsimile/Voice disponibles. Varios procedimientos de lanzamiento disponibles (V.8 y V.8bis). Los puertos múltiples se pueden ejecutar en un solo DSP.

Requisitos De Recurso Del Ejemplo (Adsp-2181): El anexo G.729 un codificador requiere 8,7 MIPS, 6762 palabras del P.M., y 1512 palabras

del DM El anexo G.729 un decodificador requiere 2,1 MIPS, 3950 palabras del P.M., y 725

palabras del DM G.729 el anexo A Encoder/Decoder requiere 10,8 MIPS, 7720 palabras del P.M., y 1918

palabras del DM

CÓDECS DE VÍDEO EN H.323

El envío de vídeo no es exactamente parte de VoIP, pero lo comentamos para redondear la explicación sobre H.323, y porque cada vez más van a querer ampliarse las funcionalidades de VoIP hacia la imagen y la transmisión de datos.

Los estándares permitidos són: H.261 y H.263.

H.261

H.261 es un estándar de codificación de la ITU, publicado en 1990. Está diseñado para bitrates múltiples de 64Kbps, típicamente entre 1 y 30 veces 64Kbps.

El algoritmo es un híbrido de predición cuadro a cuadro, codificación con transformada y compensación de movimiento. La primera, reducirá la redundancia temporal. La segunda, la redundancia espacial. Por último los vectores de movimiento se usan para compensar el movimiento. Para acabar de eliminar la redundancia, se utilizan longitudes de la codificación variables. La transformación es del tipo DCT (Discrete Cosene Transform)

Soportaremos dos resoluciones, QCIF (Quarter Common Interchange format) y CIF (Common Interchange format). Recomendamos visitar la página web [6] para muestras de las diferentes calidades.

H.263

Es específico para canales muy lentos, a menos de 64kbps. El algoritmo es muy parecido al de H.261, pero con numerosas mejoras para mejorar el rendimiento y la recuperación de errores.

Las resoluciones soportadas serán: CIF progresivo a 352 x 288 píxels a 29.97 fps, QCIF progresivo a 176 x 144 píxels a 29.97 fps y Sub-QCIF progresivo a 128 x 96 píxels a 29.97 fps. Recomendamos visitar la página web [6] para muestras de las diferentes calidades.s

G.701: Digitalización PCMG.711: Codificación logarítmica µ-law y A-law

Page 12: Tecnicas de compresión de audio

G.721: ADPCMMuestreo a 8 Khz, muestras de 8 bits: 64 KbpsUtiliza diferencias de 4 bits: tasa de bits final 32 KbpsG.722: Sub-Band ADPCM.Muestreo a 16 Khz, muestras de 14 bits: 224 KbpsCodifica señales de audio de hasta 7 KHz (por el muestreo)Descompone la señal en dos bandas de 4 KHz.A cada banda le aplica ADPCM.Tasas de bits finales: 48, 56 y 64 Kbps.G.723, G.726, G.727:Variantes del G.721 (ADPCM).

Page 13: Tecnicas de compresión de audio

TELEFONÍA ADPCM

En ITU-T G.721 se determina la forma de codificación para reducir la velocidad de 64 kb/s (8 bits por muestra), mediante latécnica Diferencial PCM Adaptativa a una velocidad de 32 kb/s (4 bits por muestra). Pudiéndose usar velocidades aúnmenores (En ITU-T G.726 se dispone de información referida a las velocidades de 40/32/24/16 kb/s). A cambio de lareducción de velocidad se tiene una inferior S/Nq. Por ejemplo, mientras en una codificación PCM ley A la S/Nq es mejorque 33 dB en una amplia gama de señal de entrada, en el caso de ADPCM a 32 kb/s se reduce a 30 dB.En la Fig1 se presenta el diagrama a bloques de funcionamiento. Cada muestra es convertida en una codificación uniformede 12 bit. Se pasa entonces de la señal S(k) a S1(k). Con k se identifica una muestra genérica. Se calcula la señal depredicción Se(k) y se obtiene la diferencia entre ambos d(k). Luego se procesa la señal d(k) mediante un codificadoradaptativo no-uniforme de 16 niveles de cuantificación (4 bit). La señal de salida I(k) consta de un bit de signo y 3 demagnitud.Para calcular el valor de predicción Se(k) se parte de la señal I(k) y mediante un cuantificador inverso se obtiene la señaldq(k). La predicción se calcula mediante la siguiente expresión:Se(k) = 2 ai(k-1).Sr(k-i) + 6 bi(k-1).dq(k-i)En palabras: la señal Se(k) tiene en cuenta 6 diferencias anteriores dq y 2 muestras anteriores de Sr(k). La señal Sr(k) es lamuestra reconstruida por la suma de la predicción y la señal transmitida (Sr+dq). (Se puede asimilar a predecir el tiempometeorológico de un cierto día en base al estado del tiempo de los 2 días anteriores y el error de predicción de los 6anteriores).El cuantificador es adaptativo; es decir, cambia el factor de escala de acuerdo con las características de la señal muestreada.El factor de escala tiene dos posibles estados: el modo rápido y el modo lento. El primer caso ocurre con señales que tienengrandes fluctuaciones (señales de telefonía) y el segundo ocurre con señales de pequeñas fluctuaciones (señales de datos en labanda de frecuencia vocal). La transcodificación desde la ley A a ADPCM a 32 kb/s produce una distorsión pequeña en

Page 14: Tecnicas de compresión de audio

telefonía, nula en facsímil del grupo 3 y elevada en conexiones de datos a velocidad por encima de 4800 b/s mediante modemde datos.

Sistema GSM (Global System for Mobile Communications)

Los primeros años de GSM (desde el punto de vista de un comité con un sistema por definir) se enfocaron principalmente a la selección de las técnicas de radio para la interfaz aérea. En 1986 se llevaron a cabo, en París, pruebas de campo de diversos sistemas propuestos para la interfaz aérea de GSM. Se establecieron criterios (en orden de importancia) para valorar a los sistemas candidatos. Algunos de los criterios que debería cumplir el sistema candidato eran:

Ø Eficiencia espectral.Ø Calidad de voz subjetiva.Ø Costo del móvil.Ø Viabilidad de la unidad móvil.Ø Costo de la Radio Base o Estación Base.Ø Habilidad de soportar nuevos servicios.Ø Coexistencia con sistemas existentes.

La adaptación de GSM a la banda de los 1800 Mhz se denomina DCS 1800 (Digital Cellular System 1800), DCS 1800 también está siendo ampliamente adoptado y utilizado en varios países de Asia y algunos países de sudamérica. PCS 1900 (Personal Communication Services 1900) es una derivación de GSM para Norteamérica, actualmente ya cubre un área substancial de los Estados Unidos de América. Todos estos sistemas tendrán una forma de roaming (internacional-intersistemas, GSM 900, DCS 1800, PCS 1900) basada en el Módulo de Identidad del Suscriptor (SIM, Subscriber Identity Module). Un abonado de cualquiera de estos tres sistemas puede acceder los servicios de telecomunicaciones utilizando la tarjeta SIM en una unidad móvil. Si el abonado tiene una unidad móvil multibanda, entonces la misma unidad móvil se puede utilizar en todo el mundo. Esta globalización está haciendo de GSM y su derivados una de las principales opciones para ofrecer los servicios de comunicaciones personales (PCS) y de comunicaciones digitales en el mundo.

Servicios de GSM

Introducción

Las características y beneficios esperados de GSM son:

1) Calidad de voz superior (igual o mejor que la de los sistemas celulares analógicos existentes),

2) Bajo costo operacional, de compra y de servicio de las unidades móviles,

3) Alto nivel de seguridad (alta confidencialidad y prevención de fraudes),

4) Roaming Internacional (un solo número de directorio en todo el mundo),

5) Terminales portables-personales de baja potencia y…

6) Una gran variedad de nuevos servicios y de facilidades de red.

La base para los servicios de GSM se encuentra en el concepto ISDN, a estos servicios también se les denomina servicios de GSM-PLMN (Public Land Mobile Network). Un servicio de

Page 15: Tecnicas de compresión de audio

telecomunicaciones soportado por GSM-PLMN se define como un conjunto de capacidades y facilidades de que el proveedor del servicios ofrece a los abonados. Los servicios básicos GSM-PLMN se dividen básicamente en tres clases de servicios.

a) Servicios Portadores o de Portadora (Bearer Services).

b) Teleservicios.

c) Servicios Suplementarios (Supplementary Services).

Bearer Service

Estos servicios le dan al abonado la capacidad necesaria para transmitir señales de información entre dos o más puntos de acceso. Las capacidades de estos servicios incluyen:

Transmisón de información a distintas velocidades – comunicación de datos Dúplex con conmutación de circuitos Síncrona y Asíncrona, 300 a 9600 bps.

Acceso a funciones de PAD (Packet Assembler/Disassembler) para comunicación asíncrona, 300 a 9600 bps.

Acceso de redes públicas de datos, protocolo X.25, servicio de conmutación de paquetes para comunicación de datos DDúplex, 200 a 9600 bps.

Transmisión de voz y datos durante una llamada (Speech & Data Swapping), envío alterno de voz y datos.

Selección de módem, selección de servicios de audio de 3.1 Khz cuando se conecte a la ISDN.

Soporte de Solicitud Automática de Retransmisión (ARQ, Automatic Request for Retransmisión) para mejorar la tasa de errores, modo transparente (No ARQ) y modo no transparente (Con ARQ).

Teleservicios

Estos servicios le proporcionan al abonado las capacidades necesarias para comunicarse con otros abonados, incluyendo las funciones de equipo terminal:

Transmisión de voz – Telefonía y llamadas de emergencia. Servicios de Mensajes Cortos (SMS, Short Messging Services) – Punto a punto terminado

en el móvil, punto a punto originado en el móvil, broadcast en las células.

Manejo de los mensajes y servicios de almacenamiento.

Acceso a videotexto.

Transmisión de teletexto.

Transmisión de Fax

Servicios Suplementarios

Page 16: Tecnicas de compresión de audio

Estos servicios modifican o complementan los servicios básicos de telecomunicaciones. Se ofrecen junto con o asociados con los servicios básicos de telecomunicación y se clasifican en los siguientes 8 tipos de servicios:

Servicios de identificación de números. Servicios de ofrecimiento de llamadas.

Servicios de completamiento de llamadas.

Servicios multi-usuario.

Servicios de interés comunitario.

Servicios de cobro.

Servicios de transferencia adicional de información

Servicios de restricción de llamadas.

Calidad requerida en los Servicios de GSM. El estándar GSM impone una variedad de requisitos en la calidad de los servicios ofrecidos al usuario. Algunos de estos requisitos son:

El tiempo que debe transcurrir al activar un servicio hasta que el servicio este disponible debe ser de 4 segundos en el sistema local y de 10 segundos cuando el móvil está en roaming.

Tiempo de conexión de 4 segundos cuando se hacen llamadas a otras redes.

Tiempo de liberación de 2 segundos cuando la llamada a otras redes concluye.

EL tiempo para alertar a un móvil de una llamada entrante debe ser igual a 4 segundos en el primer intento y de 15 segundos en el intento final.

La duración del Hand-Off o Hand-Over debe ser de 150 ms si es de una célula a otra y de 100 ms si es de un sector a otro dentro de la misma célula

Bandas de frecuencia de los distintos sistemas GSM.

GSM-900:

124 canales en dos sub-bandas de 25 Mhz c/u en los rangos 890 Mhz-915 Mhz y 935 Mhz-960 Mhz, con BW por canal de 200 Khz. Cada portadora se divide en frames donde cada frame tiene 8 rebanadas de tiempo (time slot), con una duración de frame de 4.6 ms. Separación entre la portadora del Down Link y del Up Link: 45 Mhz.

DCS-1800:

374 canales en dos sub-bandas de 75 Mhz c/u en los rangos 1710Mhz-1785 Mhz y 1805 Mhz – 1880 Mhz, con BW por canal de 200 Khz. Separación entre la portadora del Down Link y del Up Link: 75 Mhz.

PCS-1900:

Page 17: Tecnicas de compresión de audio

374 canales en dos sub-bandas de 75 Mhz c/u en los rangos 1850Mhz-1925 Mhz y 1930 Mhz – 2005 Mhz, con BW por canal de 200 Khz. Separación entre la portadora del Down Link y del Up Link: 75 Mhz. En USA se asignó parte del rango de la banda de 1800 Mhz a aplicaciones de comunicaciones punto a punto.