quales: estimaci on autom atica de calidad de traducci on...

4
QUALES: Estimaci´on Autom´ atica de Calidad de Traducci´on Mediante Aprendizaje Autom´ atico Supervisado y No-Supervisado QUALES: Machine Translation Quality Estimation via Supervised and Unsupervised Machine Learning Thierry Etchegoyhen 1 , Eva Mart´ ınez Garcia 1 , Andoni Azpeitia 1 , naki Alegria 2 , Gorka Labaka 2 , Arantza Otegi 2 , Kepa Sarasola 2 , Itziar Cortes 3 , Amaia Jauregi 3 , Igor Ellakuria 4 , Eusebi Calonge 5 , Maite Martin 5 1 Vicomtech - {tetchegoyhen, emartinez, aazpeitia}@vicomtech.org 2 IXA taldea, University of the Basque Country (UPV/EHU) {i.alegria, gorka.labaka, arantza.otegi, kepa.sarasola}@ehu.eus 3 Elhuyar - {i.cortes, a.jauregi}@elhuyar.eus 4 ISEA - [email protected] 5 Ametzagai˜ na - [email protected], [email protected] Resumen: La estimaci´ on autom´ atica de calidad (EAC) de la traducci´ on autom´ ati- ca consiste en medir la calidad de traducciones sin acceso a referencias humanas, habitualmente mediante m´ etodos de aprendizaje autom´atico. Un buen sistema EAC puede ayudar en tres aspectos del proceso de traducci´on asistida por medio de tra- ducci´ on autom´ atica y posedici´on: aumento de la productividad (descartando tra- ducciones autom´ aticas de mala calidad), estimaci´ on de costes (ayudando a prever el coste de posedici´ on) y selecci´on de proveedor (si se dispone de varios sistemas de traducci´ on autom´ atica). El inter´ es en este campo de investigaci´on ha crecido signifi- cativamente en los ´ ultimos a˜ nos, dando lugar a tareas compartidas a nivel mundial (WMT) y a una fuerte actividad cient´ ıfica. En este art´ ıculo, se hace un repaso del estado del arte en este ´ area y se presenta el proyecto quales que se est´a realizando. Palabras clave: Estimaci´ on de calidad, Traducci´ on autom´ atica, Aprendizaje au- tom´ atico Abstract: The automatic quality estimation (QE) of machine translation consists in measuring the quality of translations without access to human references, usually via machine learning approaches. A good QE system can help in three aspects of translation processes involving machine translation and post-editing: increasing pro- ductivity (by ruling out poor quality machine translation), estimating costs (by helping to forecast the cost of post-editing) and selecting a provider (if several ma- chine translation systems are available). Interest in this research area has grown significantly in recent years, leading to regular shared tasks in the main machine translation conferences and intense scientific activity. In this article we review the state of the art in this research area and present project quales, which is under development. Keywords: Quality Estimation, Machine Translation, Machine Learning 1 Participantes y entidades financiadoras quales es un proyecto de investigaci´ on sub- vencionado por el Gobierno Vasco a trav´ es de la convocatoria de ayudas elkartek 2017 de la Agencia Vasca de desarrollo empresarial Spri. 1 El proyecto tiene una duraci´ on total de 21 meses, con comienzo el 1 de abril de 2017 y finalizaci´ on el 31 de diciembre de 2018. quales ha sido dise˜ nado y se est´ a lle- 1 http://www.spri.eus Procesamiento del Lenguaje Natural, Revista nº 61, septiembre de 2018, pp. 143-146 recibido 20-03-2018 revisado 28-04-2018 aceptado 03-05-2018 ISSN 1135-5948. DOI 10.26342/2018-61-18 © 2018 Sociedad Española para el Procesamiento del Lenguaje Natural

Upload: others

Post on 12-May-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

QUALES: Estimacion Automatica de Calidad deTraduccion Mediante Aprendizaje Automatico

Supervisado y No-Supervisado

QUALES: Machine Translation Quality Estimation viaSupervised and Unsupervised Machine Learning

Thierry Etchegoyhen1, Eva Martınez Garcia1, Andoni Azpeitia1,Inaki Alegria2, Gorka Labaka2, Arantza Otegi2, Kepa Sarasola2,

Itziar Cortes3, Amaia Jauregi3,Igor Ellakuria4, Eusebi Calonge5, Maite Martin5

1Vicomtech - {tetchegoyhen, emartinez, aazpeitia}@vicomtech.org2IXA taldea, University of the Basque Country (UPV/EHU){i.alegria, gorka.labaka, arantza.otegi, kepa.sarasola}@ehu.eus

3Elhuyar - {i.cortes, a.jauregi}@elhuyar.eus4ISEA - [email protected]

5Ametzagaina - [email protected], [email protected]

Resumen: La estimacion automatica de calidad (EAC) de la traduccion automati-ca consiste en medir la calidad de traducciones sin acceso a referencias humanas,habitualmente mediante metodos de aprendizaje automatico. Un buen sistema EACpuede ayudar en tres aspectos del proceso de traduccion asistida por medio de tra-duccion automatica y posedicion: aumento de la productividad (descartando tra-ducciones automaticas de mala calidad), estimacion de costes (ayudando a preverel coste de posedicion) y seleccion de proveedor (si se dispone de varios sistemas detraduccion automatica). El interes en este campo de investigacion ha crecido signifi-cativamente en los ultimos anos, dando lugar a tareas compartidas a nivel mundial(WMT) y a una fuerte actividad cientıfica. En este artıculo, se hace un repaso delestado del arte en este area y se presenta el proyecto quales que se esta realizando.Palabras clave: Estimacion de calidad, Traduccion automatica, Aprendizaje au-tomatico

Abstract: The automatic quality estimation (QE) of machine translation consistsin measuring the quality of translations without access to human references, usuallyvia machine learning approaches. A good QE system can help in three aspects oftranslation processes involving machine translation and post-editing: increasing pro-ductivity (by ruling out poor quality machine translation), estimating costs (byhelping to forecast the cost of post-editing) and selecting a provider (if several ma-chine translation systems are available). Interest in this research area has grownsignificantly in recent years, leading to regular shared tasks in the main machinetranslation conferences and intense scientific activity. In this article we review thestate of the art in this research area and present project quales, which is underdevelopment.Keywords: Quality Estimation, Machine Translation, Machine Learning

1 Participantes y entidadesfinanciadoras

quales es un proyecto de investigacion sub-vencionado por el Gobierno Vasco a travesde la convocatoria de ayudas elkartek 2017de la Agencia Vasca de desarrollo empresarial

Spri.1

El proyecto tiene una duracion total de 21meses, con comienzo el 1 de abril de 2017 yfinalizacion el 31 de diciembre de 2018.

quales ha sido disenado y se esta lle-

1http://www.spri.eus

Procesamiento del Lenguaje Natural, Revista nº 61, septiembre de 2018, pp. 143-146 recibido 20-03-2018 revisado 28-04-2018 aceptado 03-05-2018

ISSN 1135-5948. DOI 10.26342/2018-61-18 © 2018 Sociedad Española para el Procesamiento del Lenguaje Natural

vando a cabo por el siguiente consorcio: Vi-comtech2, grupo IXA de la UPV/EHU3, El-huyar4, ISEA5 y Ametzagaina6. Son empre-sas adheridas Argia, Mondragon Lingua yEleka. El proyecto tiene asignado el codigoKK-2017/00094 y el sitio web asociado eshttp://quales.eus/

2 Contexto y motivacion

Con los avances obtenidos por los metodosbasados en datos, estadısticos o enmarcadosen redes neuronales profundas, la traduccionautomatica (TA) ha logrado niveles de cali-dad suficientes para su uso en la industria.En particular, los proveedores de servicioslinguısticos de traduccion requieren poder in-tegrar componentes de traduccion automati-ca para dar una respuesta eficiente y de altacalidad a las demandas de traduccion en en-tornos y dominios variados. Pese a estos pro-gresos notables, la calidad de las traduccionesautomaticas puede variar significativamentesegun el dominio, los idiomas considerados ola complejidad de los segmentos individualespor traducir. Esta variabilidad genera pro-blemas bien identificados, entre los cuales losprincipales son:

Productividad : las traducciones au-tomaticas de pesima calidad requierenun esfuerzo cognitivo importante porparte de los traductores profesionales, enparticular para determinar si ciertas par-tes de la traduccion automatica son re-cuperables y que correcciones aplicar. Elenfrentarse a traducciones de baja cali-dad genera ası perdidas de productivi-dad y frustracion para los profesionalesdel sector. De forma similar, traduccio-nes automaticas correctas a nivel grama-tical pero con errores a nivel semanticoimplican un esfuerzo importante de iden-tificacion y correccion de los errores detraduccion.

Estimacion de costes: los proveedores deservicios linguısticos ofertan varios ser-vicios segun las demandas y la compleji-dad de las traducciones. Estos serviciospueden ser traduccion automatica com-pleta, con posedicion humana, o realiza-

2http://www.vicomtech.org3http://ixa.eus4http://www.elhuyar.eus/5http://www.iseamcc.net6http://www.ametza.com

da por completo por traductores huma-nos, con o sin el apoyo de memorias detraduccion existentes. A cada uno de es-tos servicios le corresponde una tarifica-cion precisa segun el esfuerzo necesario,desde el uso de TA unicamente, con cos-te mınimo, hasta la traduccion humanapor completo, con coste maximo. Parapoder establecer los costes correctos, esnecesario poder determinar la calidad decada traduccion automatica y establecerası automaticamente el tipo de serviciooptimo correspondiente.

Seleccion de traducciones: cada indus-tria con necesidades multilingues puedeacceder a una gama variada de serviciosde traduccion automatica, desde siste-mas propietarios entrenados para dife-rentes dominios hasta las ofertas de tra-duccion genericas online. Cada sistemade TA suele producir traducciones dife-rentes debidas a los diferentes datos ymetodos empleados para el modelado delsistema, con niveles de calidad variables.Resulta imprescindible, entonces, la esti-macion automatica de la calidad de cadauna de las traducciones generada por losdiferentes sistemas, para poder seleccio-nar ası el mejor conjunto de traduccio-nes.

Tradicionalmente, la calidad de las tra-ducciones automaticas se ha medido de for-ma estatica, comparando un subconjunto delas traducciones con referencias creadas porprofesionales humanos. Las comparaciones seestablecen usando metricas automaticas quecalculan, con cierta aproximacion, la distan-cia entre las traducciones automaticas y lasreferencias. Este enfoque sigue siendo funda-mental para obtener una medida de la calidadgeneral de los sistemas de TA en los dominiosconsiderados y permitir avances incrementa-les en el desarrollo de los sistemas en funcionde los resultados objetivos obtenidos con es-tas metricas.

Pese a estos aspectos positivos, este tipode medida de calidad es problematico en dosaspectos principales. En primer lugar, la co-rrelacion entre los resultados de las metricasautomaticas y las valoraciones humanas esbaja a nivel de frases o segmentos, lo que nopermite una estimacion adecuada de la ca-lidad de los segmentos individuales. En se-gundo lugar, este enfoque implica disponer

MartinThierry Etchegoyhen, Eva Martínez Garcia, Andoni Azpeitia, et al.

144

de traducciones de referencia, lo cual no esrealista a la hora de evaluar la calidad de losamplios volumenes de traducciones automati-cas generadas.

Esta limitacion de las metricas estaticasa la hora de medir la calidad de las tra-ducciones automaticas impone el desarrollode metodos alternativos. La estimacion au-tomatica de calidad (EAC) (Blatz y otros,2004; Specia, Raj, y Turchi, 2010) se centraen responder a este reto, a traves de siste-mas que permitan medir la calidad de traduc-ciones individuales, sin acceso a referenciashumanas, empleando habitualmente metodosde aprendizaje automatico. Este campo de in-vestigacion y desarrollo ha crecido significa-tivamente en los ultimos anos, dando lugara tareas compartidas a nivel mundial y unafuerte actividad cientıfica.

Una EAC exitosa permitirıa aportar unasolucion a los tres problemas principales in-dicados anteriormente, al ofrecer mecanismosadecuados de medida de calidad para cadasegmento de traduccion automatica genera-do por cualquier sistema de TA. A estos re-tos responde el proyecto Quales, medianteel desarrollo de metodos supervisados y no-supervisados para la estimacion automaticade calidad.

3 Estado del arte

Los enfoques supervisados han sido el pa-radigma dominante en EAC, donde traduc-ciones automaticas anotadas o poseditadasse usan para entrenar clasificadores (Blatz yotros, 2004; Quirk, 2004) o regresores (Spe-cia y otros, 2009). Los sistemas participantesen las tareas compartidas de las conferenciasWMT han sido ası tipicamente basados enenfoques supervisados, con diferencias cen-tradas en diferentes conjuntos de caracterısti-cas (features) o en los metodos de aprendiza-je automatico utilizados, p. ej. Support Vec-tor Machines o Gaussian Processes (Callison-Burch y otros, 2012).

Los sistemas baseline estandares parala tarea se generan habitualmente con lasherramientas quest (Specia et al., 2013),o quest++ (Specia, Paetzold, y Scarton,2015), en base a 17 caracterısticas que in-cluyen puntuacion de perplejidad en base amodelos de lenguaje, probabilidades de tra-duccion lexica, o ratios de ocurrencias de pa-labras, entre otros.

En trabajos recientes, los enfoques basa-

dos en redes neuronales han sido empleadostambien de forma exitosa para la tarea deestimacion automatica de calidad, bien seamediante caracterısticas adicionales (Shah yotros, 2016) o como sistemas EAC comple-tos (Kim, Lee, y Na, 2017; Martins, Kepler,y Monteiro, 2017). En la ultima edicion de latarea compartida en WMT 2017, los mejoressistemas basados en redes neuronales incre-mentaron notablemente las prestaciones dela baseline (Bojar y otros, 2017). Ası, en latraduccion de aleman a ingles los valores delındice de Pearson de los dos mejores siste-mas fueron de 0,728 y 0,715, muy por encimadel valor baseline (0,441). Para el sentido detraduccion inverso, los resultados fueron si-milares con 0,695 y 0,673 para los mejoressistemas, y 0,307 para la baseline.

Aunque permitan obtener las estimacio-nes las mas precisas a dıa de hoy, los enfo-ques supervisados dependen de anotacioneso posediciones humanas. Este aspecto es pro-blematico dada la gran cantidad de diferentesdominios y pares de idiomas en los que se re-quiere aplicar la tecnologıa. Considerando losrecursos y esfuerzos necesarios para anotar oposeditar conjuntos de muestras adecuadospara entrenar sistemas de calidad, el costede los metodos supervisados puede resultarprohibitivo.

Enfoques no-supervisados que no necesi-ten datos anotados, basados estrictamente enlas caracterısticas de las frases de origen y/ode las frases traducidas, tienen la notableventaja de poder adaptarse mas facilmentea distintos dominios y pares de idiomas. Pesea ofrecer este tipo de ventajas, pocos estudiosse han centrado en enfoques no-supervisadospara EAC. Uno de ellos es (Moreau y Vogel,2012), donde la estimacion de calidad se eje-cuta en base a amplios conjuntos de n-gramasy medidas de similitud. (Popovic, 2012) esotra alternativa, basada en la combinacionde puntuaciones obtenidas por modelos delenguaje y probabilidades de traduccion lexi-ca sobre morfemas y categorıas gramaticales.Ninguno de estos enfoques ha logrado supe-rar hasta hoy las baselines supervisadas.

4 QUALES

En el marco de quales, se investigan tan-to metodos supervisados avanzados basa-dos en redes neuronales como metodos no-supervisados que permitan desarrollar esti-madores de calidad de forma eficiente en dis-

QUALES: Estimación Automática de Calidad de Traducción Mediante Aprendizaje Automático Supervisado y No-Supervisado

145

tintos casos de uso.Tras su puesta en marcha en 2017, el pro-

yecto ha logrado los primeros resultados si-guientes:

Creacion de datos de entrenamiento yvalidacion manuales y sinteticos paralos pares de idiomas euskera-castellanoe ingles-castellano en el dominio de lasnoticias.

Despliegue de baselines supervisadas ba-sadas en quest++.

Desarrollo de sistemas de EAC basa-dos en redes neuronales y aprendizajeprofundo, explotando espacios vectoria-les bilingues.

Desarrollo de un sistema de EAC basa-do en caracterısticas mınimas, en ver-sion supervisada y no-supervisada. Am-bas versiones superan significativamentelas baselines sobre los datos de las tareascompartidas WMT 2015, 2016 y 2017.

Los primeros resultados del proyecto sonsatisfactorios, en particular los obtenidos me-diante metodos minimalistas no-supervisadosque superan significativamente a sistemas su-pervisados robustos y permiten un despliegueeficiente de estimadores fiables para nuevosdominios.

quales aportara ademas los primeros re-sultados para el par de idiomas euskera-castellano en el campo de la estimacion au-tomatica de calidad, lo cual constituye un ob-jetivo importante del proyecto.

Durante 2018, el esfuerzo se centrara enextender y mejorar los primeros sistemasdesarrollados, y en validar los resultados ob-tenidos. La convocatoria en la que se enmarcael proyecto apoya a proyectos de investiga-cion con alto potencial industrial y se vali-dara el potencial de los metodos exploradospara un uso en entornos profesionales.

Bibliografıa

Blatz, J. et al. 2004. Confidence estimationfor machine translation. En Proceedingsof COLING, paginas 315–321.

Bojar, O. et al. 2017. Findings of the2017 conference on machine translation.En Proceedings of the Second Conferenceon Machine Translation, paginas 169–214,Copenhagen, Denmark.

Callison-Burch, C. et al. 2012. Findingsof the 2012 Workshop on Statistical Ma-chine Translation. En Proceedings of theSeventh Workshop on Statistical MachineTranslation.

Kim, H., J.-H. Lee, y S.-H. Na. 2017.Predictor-estimator using multilevel tasklearning with stack propagation for neuralquality estimation. En Proceedings of theSecond Conference on Machine Transla-tion, paginas 562–568, Copenhagen, Den-mark.

Martins, A. F. T., F. Kepler, y J. Montei-ro. 2017. Unbabel’s participation in thewmt17 translation quality estimation sha-red task. En Proceedings of the SecondConference on Machine Translation, pagi-nas 569–574, Copenhagen, Denmark.

Moreau, E. y C. Vogel. 2012. Quality esti-mation: an experimental study using un-supervised similarity measures. En Pro-ceedings of the Seventh Workshop on Sta-tistical Machine Translation, paginas 120–126.

Popovic, M. 2012. Morpheme- and pos-based IBM1 and language model scores fortranslation quality estimation. En Procee-dings of the Seventh Workshop on Statisti-cal Machine Translation, paginas 133–137.

Quirk, C. 2004. Training a sentence-levelmachine translation confidence measure.En Proceedings of LREC, paginas 825–828.

Shah, K. et al. 2016. SHEF-LIUM-NN: Sen-tence level Quality Estimation with Neu-ral Network Features. En Proceedings ofthe First Conference on Machine Transla-tion, volumen 2, paginas 838–842.

Specia, L. et al. 2009. Estimating thesentence-level quality of machine transla-tion systems. En 13th Conference of theEuropean Association for Machine Trans-lation, paginas 28–37.

Specia, L., G. Paetzold, y C. Scarton. 2015.Multi-level translation quality predictionwith QUEST++. Proceedings of ACL-IJCNLP 2015 System Demonstrations,paginas 115–120.

Specia, L., D. Raj, y M. Turchi. 2010. Ma-chine translation evaluation versus qua-lity estimation. Machine Translation,24(1):39–50.

MartinThierry Etchegoyhen, Eva Martínez Garcia, Andoni Azpeitia, et al.

146