asistente conversacional móvil para la rehabilitación de ... · a la accesibilidad que ofrecen a...

4
Asistente Conversacional M´ovil para la Rehabilitaci´on de la Tartamudez Mobile Conversational Interface for Stuttering Treatment David Griol 1 , Javier Font 1 , Zoraida Callejas 2 1 Univ. Carlos III de Madrid. Avda. de la Universidad, 30. Legan´ es (Espa˜ na) 2 Univ. de Granada. Calle Periodista Daniel Saucedo Aranda, s/n. Granada (Espa˜ na) [email protected], [email protected], [email protected] Resumen: Los dispositivos m´oviles se han convertido en una herramienta de uso diario que ha provocado cambios en las formas de interactuar de las personas gracias a la accesibilidad que ofrecen a grandes contenidos de informaci´on y a servicios de comunicaci´ on de forma continua y pr´acticamente ubicua. La combinaci´ on de estos dispositivos y los interfaces conversacionales ha facilitado el desarrollo de aplicacio- nes en el campo de la salud m´ovil (mHealth en ingl´ es) cada vez m´as avanzadas. En este trabajo presentamos una app que utiliza el potencial de los interfaces con- versacionales para ayudar a mejorar la fluidez en el habla en personas que padecen tartamudez. Palabras clave: Tartamudez, salud m´ovil, interfaces conversacionales, reconoci- miento de emociones Abstract: Mobile devices have become a tool for daily use that has caused changes in people’s ways of interacting, thanks to the accessibility they offer to large contents of information and communication services continuously, regardless of the place and the moment. Thanks to the development of mobile applications, advanced apps have been developed in the area of mobile health (mHealth), a field of eHealth in which the practice of medicine and public health is supported by mobile devices. In this paper we present an app that uses the potential of conversational interfaces for the development of mobile applications that help improve speech fluency in people who suffer from stuttering. Keywords: Stuttering, mobile health, conversational interfaces, emotion recogni- tion 1 Introducci´on Uno de los trastornos de la comunicaci´on m´as conocidos es la tartamudez o disfemia, que est´a asociada a las interrupciones involunta- rias del habla. Se trata de un trastorno de la comunicaci´ on y no del lenguaje que, seg´ un la Fundaci´onEspa˜ nola de la Tartamudez, afec- ta a un 2% de adultos y a un 5% de ni˜ nos. Estos datos se traducen aproximadamente en 800.000 personas en Espa˜ na (Fundaci´on Es- pa˜ nola de la Tartamudez, 2019). Los s´ ıntomas de la tartamudez se manifies- tan, sobre todo, en situaciones en las que un paciente tiene que interactuar en p´ ublico. Sin embargo, si el paciente se encuentra en un en- torno agradable y aislado, puede que sea ca- paz de hablar de forma fluida. Por esta raz´on, existen t´ ecnicas empleadas en Logopedia, que consisten en enga˜ nar al cerebro, de tal forma que el paciente piense que est´a estableciendo una conversaci´on (Jackson, Rodgers, y Rod- gers, 2019). Estas t´ ecnicas emplean disposi- tivos electr´onicos que tienen la capacidad de aplicar un tiempo de retardo a la se˜ nal de voz y de modificar la frecuencia fundamental de esta se˜ nal, cuyo uso provoca una reducci´on de la velocidad en el habla y la prolongaci´on de vocales, minimizando los efectos que pro- duce la tartamudez (Jaramillo y Gil-Lozada, 2014; Salgado-Ru´ ız, 2005). Los avances en las capacidades y senso- res de los dispositivos m´oviles han posibilita- do generar aplicaciones (Apps) destinadas a la salud y a los servicios sociosanitarios que han supuesto una revoluci´on en los ´ ultimos nos gracias a que pueden ofrecer funciona- lidades como las mencionadas anteriormente, basadas en la retroalimentaci´on auditiva con modificaciones del tono, y con cierto retardo de la se˜ nal de voz, ayudando de forma posi- Procesamiento del Lenguaje Natural, Revista nº 63, septiembre de 2019, pp. 185-188 recibido 01-04-2019 revisado 16-04-2019 aceptado 17-05-2019 ISSN 1135-5948. DOI 10.26342/2019-63-26 © 2019 Sociedad Española para el Procesamiento del Lenguaje Natural

Upload: others

Post on 30-Apr-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Asistente Conversacional Movil para laRehabilitacion de la Tartamudez

Mobile Conversational Interface for Stuttering Treatment

David Griol1, Javier Font1, Zoraida Callejas21Univ. Carlos III de Madrid. Avda. de la Universidad, 30. Leganes (Espana)

2Univ. de Granada. Calle Periodista Daniel Saucedo Aranda, s/n. Granada (Espana)[email protected], [email protected], [email protected]

Resumen: Los dispositivos moviles se han convertido en una herramienta de usodiario que ha provocado cambios en las formas de interactuar de las personas graciasa la accesibilidad que ofrecen a grandes contenidos de informacion y a servicios decomunicacion de forma continua y practicamente ubicua. La combinacion de estosdispositivos y los interfaces conversacionales ha facilitado el desarrollo de aplicacio-nes en el campo de la salud movil (mHealth en ingles) cada vez mas avanzadas.En este trabajo presentamos una app que utiliza el potencial de los interfaces con-versacionales para ayudar a mejorar la fluidez en el habla en personas que padecentartamudez.Palabras clave: Tartamudez, salud movil, interfaces conversacionales, reconoci-miento de emociones

Abstract: Mobile devices have become a tool for daily use that has caused changesin people’s ways of interacting, thanks to the accessibility they offer to large contentsof information and communication services continuously, regardless of the place andthe moment. Thanks to the development of mobile applications, advanced apps havebeen developed in the area of mobile health (mHealth), a field of eHealth in whichthe practice of medicine and public health is supported by mobile devices. In thispaper we present an app that uses the potential of conversational interfaces for thedevelopment of mobile applications that help improve speech fluency in people whosuffer from stuttering.Keywords: Stuttering, mobile health, conversational interfaces, emotion recogni-tion

1 Introduccion

Uno de los trastornos de la comunicacion masconocidos es la tartamudez o disfemia, queesta asociada a las interrupciones involunta-rias del habla. Se trata de un trastorno de lacomunicacion y no del lenguaje que, segun laFundacion Espanola de la Tartamudez, afec-ta a un 2% de adultos y a un 5% de ninos.Estos datos se traducen aproximadamente en800.000 personas en Espana (Fundacion Es-panola de la Tartamudez, 2019).

Los sıntomas de la tartamudez se manifies-tan, sobre todo, en situaciones en las que unpaciente tiene que interactuar en publico. Sinembargo, si el paciente se encuentra en un en-torno agradable y aislado, puede que sea ca-paz de hablar de forma fluida. Por esta razon,existen tecnicas empleadas en Logopedia, queconsisten en enganar al cerebro, de tal formaque el paciente piense que esta estableciendo

una conversacion (Jackson, Rodgers, y Rod-gers, 2019). Estas tecnicas emplean disposi-tivos electronicos que tienen la capacidad deaplicar un tiempo de retardo a la senal de vozy de modificar la frecuencia fundamental deesta senal, cuyo uso provoca una reduccionde la velocidad en el habla y la prolongacionde vocales, minimizando los efectos que pro-duce la tartamudez (Jaramillo y Gil-Lozada,2014; Salgado-Ruız, 2005).

Los avances en las capacidades y senso-res de los dispositivos moviles han posibilita-do generar aplicaciones (Apps) destinadas ala salud y a los servicios sociosanitarios quehan supuesto una revolucion en los ultimosanos gracias a que pueden ofrecer funciona-lidades como las mencionadas anteriormente,basadas en la retroalimentacion auditiva conmodificaciones del tono, y con cierto retardode la senal de voz, ayudando de forma posi-

Procesamiento del Lenguaje Natural, Revista nº 63, septiembre de 2019, pp. 185-188 recibido 01-04-2019 revisado 16-04-2019 aceptado 17-05-2019

ISSN 1135-5948. DOI 10.26342/2019-63-26 © 2019 Sociedad Española para el Procesamiento del Lenguaje Natural

tiva a minimizar los efectos de la tartamudeza traves de un dispositivo movil.

En este artıculo presentamos una apli-cacion para dispositivos moviles con siste-ma operativo Android basada en un interfazconversacional hablado (McTear, Callejas, yGriol, 2016; Griol et al., 2014) que incorpo-ra herramientas para mejorar la fluidez ver-bal de personas que padecen tartamudez. Seha desarrollado un sistema con un funciona-miento sencillo e intuitivo que fomenta la co-municacion verbal a traves del habla. El in-terfaz conversacional es el elemento centralde la aplicacion, pues a partir de el, el usua-rio tendra que interactuar de forma oral pa-ra poder ejecutar las diferentes funcionalida-des facilitadas por la aplicacion. Ademas, laaplicacion dispone de un modulo basado enplantear una serie de preguntas que permitanevaluar el estado emocional del usuario. Estainformacion se facilita al agente conversacio-nal para realizar recomendaciones al usuarioentre el conjunto de actividades integradasen la aplicacion, ademas de considerar las ac-tividades completadas por el usuario en in-teracciones anteriores con la aplicacion y losresultados obtenidos.

A partir de la busqueda en Google PlayStore del texto “Tartamudez”, podemos en-contrar un numero muy pequeno de aplica-ciones dedicadas a su tratamiento. Partiendode la informacion sobre las funcionalidadesque ofrecen, se puede comprobar que la ma-yorıa de estas aplicaciones ofrecen funcionali-dades basadas en la retroalimentacion auditi-va retardada con la posibilidad de modificarel tono de la senal de voz. Otras aplicacio-nes simplemente contienen artıculos o permi-ten la realizacion de un test para la detec-cion temprana de la tartamudez. La aplica-cion desarrollada, en cambio, proporciona lassiguientes funcionalidades:

Un modulo de aprendizaje con consejosy contenidos multimedia didacticos paramejorar la fluidez verbal.

Un modulo de juegos para mejorar tantola fluidez verbal, como el control de larespiracion de una forma mas practica yentretenida.

Un modulo de entrenamiento para la lec-tura de textos en voz alta, a partir de laseleccion de un sistema de reconocimien-to, grabacion y sıntesis de de voz, o de

un sistema de retroalimentacion auditi-va de la senal de voz con un tiempo deretardo.

Un modulo de relajacion que facilita me-jorar el estado de animo.

Con la intencion de conseguir una aplica-cion que consuma el menor numero de re-cursos disponibles del dispositivo movil, seha integrado una base de datos en la nube,que almacena el mayor numero de conteni-dos posibles que conforman la interfaz graficade la aplicacion (por ejemplo, los textos quese muestran en pantalla). Ademas, esta basede datos almacena las consultas solicitadasal usuario, los diferentes estados de controly resultados procedentes de las actividadesrealizadas por el usuario, necesarias para queel interfaz conversacional pueda adaptar lainteraccion dependiendo de la evolucion, pre-ferencias y requisitos de cada usuario.

2 App desarrollada

La aplicacion desarrollada esta conformadapor un total de siete modulos principales. Enel modulo inicial es necesario permitir el ac-ceso al microfono para grabar los audios delos usuarios. En caso de que el usuario utili-ce la aplicacion por primera vez, se le solicitaunos datos para su registro en la base de da-tos de la aplicacion en la plataforma para eldesarrollo de aplicaciones web y aplicacionesmoviles Firebase1.

El segundo modulo de la aplicacion estaconformado por un agente conversacional di-senado en la plataforma Dialogflow2, que in-teractua con el usuario en funcion de los va-lores almacenados en la base de datos, la ac-tividad previa del usuario y ultima fecha deuso de la aplicacion, su estado emocional y elmodelo de dialogo disenado para que el agen-te interactue con el usuario segun el tipo deactividad propuesta por la aplicacion.

El modulo de estado emocional se encuen-tra conectado al servicio web de analıtica detextos proporcionado por Meaningcloud3 pa-ra que el agente conversacional pueda esti-mar el estado de animo del usuario. El esta-do emocional se obtiene a partir del analisisde las respuestas proporcionadas por el usua-rio para una serie de preguntas extraıdas del

1https://firebase.google.com/2https://dialogflow.com/3https://www.meaningcloud.com/es

David Griol, Javier Font, Zoraida Callejas

186

Figura 1: Capturas de pantalla de la app (I): asistente conversacional y modulo de practica

Figura 2: Capturas de pantalla de la app (II): modulo de relajacion, modulo de juegos y modulode aprendizaje

nodo correspondiente en la base de datos. Elusuario debe ir contestando a cada una delas preguntas por medio de la voz. Para ga-rantizar que el sistema de transcripcion de lavoz ha funcionado de forma correcta, la appposibilita visualizar la transcripcion y confir-mar la respuesta antes de pasar a la siguientepregunta. El resultado final de evaluacion delestado de animo del usuario se extrae de unafuncion interna de la aplicacion, que se encar-ga de realizar un sistema de puntuaciones enfuncion de la valoracion del texto generadapor Meaningcloud. A partir de los resultadosobtenidos del test emocional, el asistente vir-tual recomendienda al usuario acciones ade-cuadas a su estado de animo.

Para los casos en los que el estado emocio-

nal sea negativo o muy negativo, el asisten-te conversacional inicia de forma automaticael modulo de relajacion, con el objetivo demejorar el estado de animo del usuario. Estemodulo esta conectado al nodo de control deactividad y facilita ejercicios de relajacion decorta duracion basados en audios y vıdeos.Una vez terminada la actividad, se redirigeal usuario a la pantalla de interaccion con elasistente conversacional.

El modulo de juegos esta conformado porjuegos que ayudan a mejorar la respiraciony la fluidez verbal. Estos juegos extraen losenunciados y las soluciones del nodo de labase de datos que administra los contenidosde los mismos. Ademas, este bloque esta co-nectado al nodo de control de actividad del

Asistente conversacional móvil para la rehabilitación de la tartamudez

187

usuario que tambien, va a almacenar los re-sultados obtenidos tras su correspondiente fi-nalizacion. Se han integrado tres tipos de ac-tividades: ordenar palabras para formar unafrase con sentido, sonometro para solicitar alusuario mantener la presion sonora duranteun determinado tiempo, repeticion de la fra-se recitada por el asistente virtual. Para estetipo de actividades se han definido ejerciciosde tres grados de dificultad (baja, media y al-ta). En todos ellos, el usuario interactua conla aplicacion a traves de la voz.

El modulo de practica permite almacenartextos introducidos por el usuario en la ba-se de datos a traves del nodo encargado dela gestion de textos. Estos textos se utilizanposteriormente en un sistema de grabacionde voz o en un sistema de retroalimentacionretardada, de tal modo que el usuario puedarealizar practicas de lectura en voz alta paramejorar la fluidez verbal. En el modo de gra-bacion, el usuario puede grabar su voz paraposteriormente reproducirla. Cada vez que seutilice este modo se genera un archivo multi-media con formato 3GP que se almacena enel el dispositivo movil, pero que puede ser re-emplazado cada vez que se realice una nuevagrabacion del mismo texto, con el objetivo deno consumir grandes cantidades de memoriaque limiten el dispositivo. En el modo de re-troalimentacion auditiva, el usuario podra irescuchando su propia voz con un tiempo deretardo mientras realiza la grabacion de sumensaje. Para que este modo sea de utilidad,el usuario debera de utilizar unos auricularesdurante la practica de lectura en voz alta.

Finalmente, el modulo de aprendizaje estaconformado por actividades con contenidosmultimedia que permitan al usuario mejorarsu fluidez verbal y controlar la respiracion.Este modulo tambien se encuentra conectadoa un nodo de la base de datos que contie-ne una lista de consejos y con el nodo de labase de datos encargado de controlar la acti-vidad del usuario. Se han incluido tres tiposde actividades: articulacion de fonemas (con-tiene archivos de vıdeo que muestran la ar-ticulacion de los diferentes sonidos vocalicosy consonanticos que conforman el abecedarioa traves de ejemplos practicos), respiracion(contiene archivos de vıdeo cuyos contenidosensenan al usuario los beneficios de practicaruna respiracion correcta y controlada) y con-sejos practicos. Las Figuras 1 y 2 muestrandiferentes capturas de pantalla de los modu-

los de la app descritos en esta seccion.

3 Conclusiones y trabajo futuro

En este artıculo hemos descrito una aplica-cion movil cuya funcionalidad es ayudar amejorar los problemas de comunicacion re-lacionados con la fluidez verbal debidos a latartamudez o disfemia. Con respecto a las di-ferentes aplicaciones relacionadas con la tar-tamudez que se pueden encontrar en GooglePlay Store, la aplicacion desarrollada incor-pora funcionalidades novedosas y distintivasde las existentes, destacando la implementa-cion de un agente conversacional con la capa-cidad de interactuar, motivar y basarse en elestado de animo del usuario para recomendaractividades de relajacion, practica de juegosy actividades de aprendizaje y mejora. Comotrabajo futuro, ademas de extender el nume-ro de actividades de la aplicacion, queremosvalidar la aplicacion con usuarios que pade-cen tartamudez, pues hasta ahora solamen-te hemos realizado una evaluacion preliminarcon cuatro pacientes.

Bibliografıa

Fundacion Espanola de la Tartamudez.2019. https://www.fundacionttm.org/la-tartamudez/mas-informacion/. (Consul-tado: Marzo 2019).

Griol, D., Z. Callejas, R. Lopez-Cozar, yG. Riccardi. 2014. A domain-independentstatistical methodology for dialog mana-gement in spoken dialog systems. Compu-ter Speech and Language, 28(3):743–768.

Jackson, E., N. Rodgers, y D. Rodgers. 2019.An exploratory factor analysis of actionresponses to stuttering anticipation. Jour-nal of Fluency Disorders, 60:1–10.

Jaramillo, J. H. y Y. Gil-Lozada. 2014. Efec-tos de la retroalimentacion auditiva retar-dada en los patrones de tartamudez. Re-vista Ciencias de la Salud, 12(2):243–251.

McTear, M., Z. Callejas, y D. Griol. 2016.The conversational interface: Talking tosmart devices. Springer.

Salgado-Ruız, A. 2005. Manual practico tar-tamudez. Sıntesis.

David Griol, Javier Font, Zoraida Callejas

188