tratamiento digital de voz prof. luis a. hernández gómez ftp.gaps.ssr.upm.es/pub/tdv/doc/...
TRANSCRIPT
![Page 1: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/1.jpg)
Tratamiento Digital de Voz
Prof. Luis A. Hernández Gómez
ftp.gaps.ssr.upm.es/pub/TDV/DOC/Tema4b.ppt
Dpto. Señales, Sistemas y Dpto. Señales, Sistemas y RadiocomunicacionesRadiocomunicaciones
![Page 2: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/2.jpg)
Tratamiento Digital de VozTratamiento Digital de Voz
Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades
![Page 3: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/3.jpg)
Síntesis de VozSíntesis de Voz
Sintetizadores de VozParamétricos
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980) Modelos Articulatorios
No Paramétricos: Concatenación de unidades Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990)
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)
![Page 4: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/4.jpg)
Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980):
Síntesis por regla: a partir de la secuencia de fonemas genera los parámetros de control del sintetizador. Síntesis por formantes: produce la voz sintética a partir de los parámetros de control.
Text-to-phoneconversiontext
Phonestring Synthesis-
by-rule
Synthesisercontrol
parametersSynthesiser
“letter-to-sound”
rules
Exceptionsdictionary
Speakertable
Rules
Linguisticanalysis
Prosodyparameters
![Page 5: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/5.jpg)
Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control
Unvoiced Excitation
VoicedExcitation
A
A
A
A
F1
F2
F3
F4
ExcitationMixers
FormantAmplitude
Control
FormantResonators
VoicingControl
Speech Out+
![Page 6: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/6.jpg)
Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control
El sintetizador de formantes de mayor éxito comercial fue el DECTalk, basado en MIT Klatt-
talk
![Page 7: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/7.jpg)
Síntesis de VozSíntesis de Voz
Sintetizadores de Voz: No ParamétricosBase de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990)
Dificultad y elevado tiempo de desarrollo de los sistemas de síntesis por regla.
Síntesis por concatenación de unidades:
• Selección de unidades: tipo “dífonos” para representar la coarticulación entre dos sonidos.
• Algoritmo de modificación prosódica (PSOLA: Pitch Synchronous Overlap-Add)
![Page 8: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/8.jpg)
Síntesis de VozSíntesis de VozSintetizadores de Voz: concatenación de unidades
Generación de la base de datos
Lista de Unidades
Voz
Fonemas yProsodia
Informac.unidades
Sintetizador de VozModificación Prosódica
BD Unidadesde síntesis
Concatenación
Síntesis
DecodificaciónDe voz
Segmentaciónde unidades
Corpusde voz
BDUnidades
de VozAnálisis
BD Unidades
Parametriz. Ecualización
Codificaciónde voz
![Page 9: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/9.jpg)
Síntesis de VozSíntesis de VozSintetizadores de Voz: concatenación de unidades: Dífonos
...# L L AA T T A A #
Modificación de paramètrosprosódicos
0 200 400 600 800 1000 1200 1400 1600 1800 2000-2
-1.5
-1
-0.5
0
0.5
1
1.5
2x 10
4
0 500 1000 1500 2000 2500-2
-1.5
-1
-0.5
0
0.5
1
1.5
2x 10
4
![Page 10: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/10.jpg)
PSOLA: Pitch Synchronous Overlap and Add
• PSOLA (Charpentier, 1986)
• Most successful current approach to concatenative synthesis
• In PSOLA, the end regions of windowed waveform samples are overlapped pitch-synchronously and added
• BT’s Laureate is an example
![Page 11: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/11.jpg)
PSOLA
From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001
![Page 12: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/12.jpg)
Speech modification using PSOLA
• In addition to speech synthesis from segments, there are two other common applications of PSOLA:– Pitch modification– Duration modification
![Page 13: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/13.jpg)
Increasing pitch using PSOLA
From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001
![Page 14: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/14.jpg)
Decreasing pitch using PSOLA
From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001
![Page 15: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/15.jpg)
Altering Pitch
X
Hanningwindow
=
Original diphone Extractedpitch period
Hannedpitch period‘C_A’
![Page 16: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/16.jpg)
PSOLA – Pitch Synchronous Overlap and Add
=
Altering Pitch
50% Overlap + Add
Pitch Up > 50%Pitch Down < 50%
![Page 17: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/17.jpg)
PSOLA strengths and weaknesses
• Strengths– Produces good quality speech
• Weaknesses– Large, annotated corpus needed for each ‘voice’– Requires accurate pitch peak detection– Inflexible – new voices can only be produced by
recording and labelling significant speech corpora from new speakers
• Automatic annotation of corpora using techniques from speech recognition
![Page 18: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/18.jpg)
Síntesis de VozSíntesis de Voz
Sintetizadores de Voz: No ParamétricosBase de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990)
Hay otros modelos de síntesis: Modelos Armónicos
Voz como combinación lineal de L sinusoides con amplitudes, fases y frecuencias variantes con el tiempo
![Page 19: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/19.jpg)
Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos
Modelos Articulatorios:
![Page 20: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/20.jpg)
Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)
Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos +
prosodia {ti} (ti: target = sonido + prosodia):
S (silencio) t1 t2 t3 t4 ... ... ...... tn S(silencio)
u1 u2 u3 u4 ... ... ...... un
Gran BD deUnidades
de Voz ui
10 – 150 min.
![Page 21: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/21.jpg)
Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)
Se define:
Coste de ajuste al objetivo:
Coste de concatenación::
j: diferencia de f0, duración, contexto, ...
wjt: peso de cada factor
iit utC ,
iic uuC ,1
P
jii
tj
tjii
t utcwutC1
),(,
![Page 22: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/22.jpg)
Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)
Se define:
Coste de concatenación::
j: distancias en el punto de unión: cepstral, log-energía, f0, ...
wjc: peso de cada factor
iic uuC ,1
Q
jii
cj
iic
uucuuC
11
cj
1 ,w
la BD en existesecuencia la si 0
,
![Page 23: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/23.jpg)
Síntesis de VozSíntesis de Voz
Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos +
prosodia {ti} (ti: target = sonido + prosodia):
S (silencio) t1 t2 t3 t4 ... ... ...... tn S(silencio)
u1 u2 u3 u4 ... ... ...... un
{ui} óptima => mínimo
Gran BD deUnidades
de Voz ui
10 – 150 min. nn utC 11 ,
n
in
cii
cn
iii
tcnn SuCuuCutCuSCutC2
11
111 ),(),(),(,,
![Page 24: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/24.jpg)
Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)
Problemas:
Qué factores y entrenamiento de los pesos: wjc, wj
t
Algoritmo de búsqueda de unidades
![Page 25: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/25.jpg)
Tratamiento Digital de VozTratamiento Digital de Voz
Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades
![Page 26: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/26.jpg)
Síntesis de VozSíntesis de Voz
Sistemas y Dificultades
Dificultades Naturalidad: prosodia, sistemas mixtos por corpus + dífonos
Expresividad: sistemas de diálogo, comunicadores personales: síntesis de emociones
Personalización/Generación rápida de nuevas voces
Síntesis Audio-Visual
![Page 27: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/27.jpg)
Síntesis de VozSíntesis de Voz
Sistemas y DificultadesSistemas Comerciales (castellano):
Telefónica Investigación y Desarrollohttp://oesi.cervantes.es/jsp/noticias/noticia.jsp?xml=/docs/20030424/0001.xml&xsl=/docs/plantillas/noticia.xslTecnología / Diálogo / etc...
ATLAS: http://www.atlas-cti.com/es/download-atlastts.htm
ScanSoft (RealSpeak: http://www.scansoft.com/realspeak/demo/)Loquendo (http://www.loquendo.com/es/demos/demo_tts.htm)ELAN Informatique (http://www.elanspeech.com/demos/sayso.html)Nuance (RealSpeak & Vocalicer: http://www.nuance.com/prodserv/demo_vocalizer.html)
![Page 28: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/28.jpg)
Síntesis de VozSíntesis de Voz
Sistemas y Dificultades
Sistemas Investigación y Distribución Libre: Festivalhttp://www.cstr.ed.ac.uk/projects/festival/MBROLAhttp://tcts.fpms.ac.be/synthesis/mbrola/mbrola.htmlFreeTTS (Festival => Java) http://freetts.sourceforge.net/docs/index.php
Otros Contextos: MPEG-4 & MPEG-7Microsoft Speech API
![Page 29: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/29.jpg)
Síntesis de VozSíntesis de Voz
Sistemas y DificultadesOtros Contextos: Síntesis Audio-Visual
Identificación de Sonidos(Reconocedor de Habla)
sonidos --> visemas
Audio(voz pre-grabada)
Conversor Texto-VozTexto
Animación
Audio
visemas
• Animación 2D o 3D
• Composición de Vídeo
![Page 30: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones](https://reader036.vdocuments.co/reader036/viewer/2022062617/54d46d9b497959a0198b5296/html5/thumbnails/30.jpg)
Síntesis de VozSíntesis de Voz
Sistemas y DificultadesOtros Contextos: Síntesis Audio-Visual
Haptekhttp://www.haptek.comFaceWorkshttp://interface.digital.com/ Lipsync(aplicaciones http://www.annosoft.com/index.htm)
Composición de vídeo: Vir2elle: http://www.vir2elle.com/ Oddcast: http://vhost.oddcast.com/vhost_minisite/
Web bots: Alicebot(aplicaciones http://www.alicebot.org/)