manejo de ruido del canal

4
Manejo de ruido del canal Uno de los problemas de la aplicación de reconocimiento de voz y sistema desarrolladores es la naturaleza y la calidad del dispositivo de entrada utilizado para el reconocimiento . La cantidad y las frecuencias del ruido generado por el canal de entrada , sus características de respuesta de frecuencia , y la presencia de más de un canal , afectan a la calidad de reconocimiento . 1 . la calidad del micrófono Micrófonos varían mucho en calidad, así como en la función . Todas las aplicaciones requieren micrófonos direccionales de buena calidad , pero incluso un micrófono de alta calidad pueden ser mal adaptados a un sistema de reconocimiento específico. Para minimizar la incompatibilidad , algunos proveedores ofrecen o recomiendan determinados tipos de micrófonos para sus productos. Si el micrófono suministrado por el proveedor o el otro se utiliza para una aplicación, no es recomendable para entrenar con un micrófono y usar otra cuando la aplicación se ha desplegado . Esta práctica afecta negativamente a la precisión , incluso en buenas condiciones de hablar . 2 . Teléfonos Construcción de aplicaciones de telefonía es particularmente exigente . Las variaciones en la calidad del teléfono, las características del portador, y el tipo de transmisión se ven agravados por el siseo de teléfono que pueden hacer que las palabras como de seis casi incomprensible . En vista de la maldad del canal telefónico , no es sorprendente encontrar vendedores recolectar más de las mil fichas de desarrollar modelos de dígitos para el habla continua. En los Estados Unidos, la calidad de las redes telefónicas es relativamente uniforme. Las diferencias son en gran parte debido a las características que distinguen celular , teléfono fijo , y el uso de satélites . A menos que el reconocimiento está incrustado en el teléfono, la calidad del teléfono representa una segunda capa de la variabilidad . Un teléfono que cuesta menos de diez dólares responderá de manera muy diferente que uno que cuesta más de cien dólares. Esta diferencia se debe a la

Upload: jose-luis-garcia

Post on 17-Dec-2015

218 views

Category:

Documents


1 download

DESCRIPTION

Manual de manejo de ruido

TRANSCRIPT

Manejo de ruido del canalUno de los problemas de la aplicacin de reconocimiento de voz y sistema desarrolladores es la naturaleza y la calidad del dispositivo de entrada utilizado para el reconocimiento . La cantidad y las frecuencias del ruido generado por el canal de entrada , sus caractersticas de respuesta de frecuencia , y la presencia de ms de un canal , afectan a la calidad de reconocimiento .1 . la calidad del micrfonoMicrfonos varan mucho en calidad, as como en la funcin . Todas las aplicaciones requieren micrfonos direccionales de buena calidad , pero incluso un micrfono de alta calidad pueden ser mal adaptados a un sistema de reconocimiento especfico. Para minimizar la incompatibilidad , algunos proveedores ofrecen o recomiendan determinados tipos de micrfonos para sus productos. Si el micrfono suministrado por el proveedor o el otro se utiliza para una aplicacin, no es recomendable para entrenar con un micrfono y usar otra cuando la aplicacin se ha desplegado . Esta prctica afecta negativamente a la precisin , incluso en buenas condiciones de hablar .2 . TelfonosConstruccin de aplicaciones de telefona es particularmente exigente . Las variaciones en la calidad del telfono, las caractersticas del portador, y el tipo de transmisin se ven agravados por el siseo de telfono que pueden hacer que las palabras como de seis casi incomprensible . En vista de la maldad del canal telefnico , no es sorprendente encontrar vendedores recolectar ms de las mil fichas de desarrollar modelos de dgitos para el habla continua.En los Estados Unidos, la calidad de las redes telefnicas es relativamente uniforme. Las diferencias son en gran parte debido a las caractersticas que distinguen celular , telfono fijo , y el uso de satlites . A menos que el reconocimiento est incrustado en el telfono, la calidad del telfono representa una segunda capa de la variabilidad . Un telfono que cuesta menos de diez dlares responder de manera muy diferente que uno que cuesta ms de cien dlares. Esta diferencia se debe a la calidad de los componentes y algoritmos que se encuentran en los dos telfonos .Las aplicaciones diseadas para su uso fuera de los Estados Unidos se debe hacer con cuidado. La mayor fuente de dificultad surge del comportamiento idiosincrsico de los sistemas nacionales de redes telefnicas. Algunas de estas redes se caracterizan por altos niveles de ruido y la mala calidad de la transmisin . Caractersticas de la red tambin pueden variar considerablemente dentro y entre los pases. La mayora de los telfonos fuera de los Estados Unidos el uso de micrfonos de botn de carbono que contribuyen una cantidad considerable de ruido aditivo y la distorsin digital.7.8 el ruido de manejo no discurso de la comunicacinLa preocupacin por los efectos del ruido no discurso de la comunicacin ha surgido que acompaa la aparicin de sistemas de dictado de forma libre . Crecer forma tan libre , sistemas de voz continuas aparecen y se utilizan con diferentes poblaciones de usuarios. Es una cuestin de sistemas de todos los tamaos y funciones , en particular los que utilizan el habla continua enfrentando. Errores de reconocimiento que resulten de la identificacin de la comunicacin no habla respuestas vlidas pueden lanzar el reconocedor fuera de sincronizacin con el software de aplicacin .El ruido no habla de comunicacin , tales como "Uh " y el labio huele , es ms difcil de detectar que el canal y el ruido de fondo . Parte de ella es poco conocida , sobre todo el comportamiento auto correccin como .El nmero es 555 12 no! 555 2134Otro comportamiento no habla comunicativa puede abordarse hoy. La colocacin del micrfono adecuado , sobre todo cerca micrfonos parlantes , puede atenuar los efectos de un poco de ruido del habla , particularmente los soplos de aire asociados con ciertos sonidos del habla . Las aplicaciones bien diseadas , buenos modelos de referencia , y la aclimatacin de los usuarios una aplicacin todos ayudan a reducir los errores de reconocimiento vinculadas a la entrada no discurso de la comunicacin . Modelos de referencia se pueden crear para las formas frecuentes de habla no comunicacin, tales como labio inicial enunciado tortazos y pausas llenas , como " uh". La creacin de modelos de materiales de carga de pausa mejora la robustez de los sistemas de voz continua , en particular. Otros mecanismos de correccin de errores de copia de seguridad y pueden ayudar a los usuarios a extraer el sistema de caminos incorrectos . Informacin visual de las pantallas de vdeo o de confirmacin auditiva de entrada puede ayudar a los usuarios corregir errores tambin. El diseo de sistemas conscientes del habla contribuye en gran medida a la fortaleza de la aplicacin mediante la reduccin de la posibilidad de que la interfaz de voz perder la sincronizacin con la otra ssoftware aplicacin .7,9 manejo discurso LombardEs imperativo que los investigadores de habla se centran en la mejora de los sistemas de modelado de voz con el fin de abordar mejor la amplitud de los movimientos articulatorios dinmicas que se producen cuando los altavoces estn bajo estrs.

Poca atencin se ha prestado a atenuar el impacto de la palabra lombardo en la precisin del reconocimiento . La tcnica se aplica con mayor frecuencia para atenuar discurso Lombard es el entrenamiento de estilo de varios que produce los modelos dependientes de los altavoces que contienen tanto Lombard y el habla no Lombard . Este enfoque funciona mejor si el vocabulario es relativamente pequeo, las condiciones de ruido son uniformes, y los altavoces son cooperativas . Dado que se han encontrado las caractersticas de la voz Lombard a variar con las condiciones de ruido , las condiciones de ruido cambiantes o indeterminados hacen entrenamiento estilo mltiple difcil de lograr. Condiciones de estrs que acompaa la formacin de variables complican an ms el ruido .

En lugar de entrenar en varias condiciones de habla, es ms deseable para desarrollar algoritmos de reconocimiento de que slo utilizan el habla normal para la formacin e implcitamente en cuenta la variacin del habla debido a la carga de trabajo del altavoz y el estrs (Bill Stanton, de la Academia de la Fuerza area EE.UU. , y Leah Jamieson y George Allen , de la Universidad de Purdue, el "reconocimiento robusto del habla en voz alta y Lombard en el entorno de cabina luchador", 1989 ) .

Esta tcnica mejora del habla se aplica en la ejecucin previa . Se hace aparecer la entrada ms como los modelos de referencia dependiente del hablante para el habla normal almacenado en el sistema . Las pruebas realizadas con este enfoque en condiciones controladas de ruido mejorado la precisin del reconocimiento de Lombard discurso de hasta un 42 por ciento. Otro enfoque , diseado para los modelos independientes del altavoz . El STNN est desarrollando en Francia representa otro enfoque para el manejo de discurso Lombard .Hasta el momento, estas tcnicas se han probado en pequeos grupos de hablantes en condiciones controladas. La evaluacin de su eficacia en el manejo de discurso Lombard requiere considerablemente ms pruebas en diversas poblaciones de hablantes que hablan en diferentes condiciones de ruido. Un paso en esa direccin es el sistema ICARUS de la Universidad de Duke . Icarus explota el poder de la tecnologa de procesamiento de seal digital de IBM Mwave para llevar a cabo una amplia pre-procesamiento de la seal de entrada en tiempo real. El pre-procesamiento consta de algoritmos de mejora de discurso reiterativo y compensacin estrs estrecho en la que investigadores de Duke John Hansen y Douglas Cairns encontrado para ser eficaz en la mejora de la precisin de Lombard y estresados discurso. El uso de , la tecnologa comercial en tiempo real se mueve la investigacin sobre Lombard y el habla destac ms cerca de las condiciones que se encontrarn en aplicaciones reales .La informacin tcnica adicional sobre este tema puede encontrarse en Hansen 1993 , Hansen y Applebaum 1990 , Hansen y bria 1990 y 1992 , Hanson y Applebaum 1990 , Junqua y anglade 1990 y Stanton 1989 . Trabajo Hansen incluye el diseo de algoritmos dinmicos para manejar el habla Lombard . Hansen y otros investigadores tambin han estado examinando maneras de manejar una combinacin de discurso Lombard , el estrs y el ruido de fondo .