2012 traducción automática para lsps

37
© 2012 #1 traducción automática para LSPs Diego Bartolomé, CEO

Upload: tauyou

Post on 18-May-2015

70 views

Category:

Technology


3 download

DESCRIPTION

2-hour training on machine translation for Language Service Providers.

TRANSCRIPT

Page 1: 2012 Traducción Automática para LSPs

© 2012 #1

traducción automática

para LSPs

Diego Bartolomé, CEO

Page 2: 2012 Traducción Automática para LSPs

© 2012 #2

presentaciones

Page 3: 2012 Traducción Automática para LSPs

© 2012 #3

¿dónde estamos?

1954 machine translation movie

Page 4: 2012 Traducción Automática para LSPs

© 2012 #4

¡nunca!

no funciona para lo que hacemos

salen errores muy graves

se equivoca en cosas muy sencillas

pierdo más tiempo que empezando de cero

la calidad final siempre será peor

nos va a quitar el trabajo

...

Page 5: 2012 Traducción Automática para LSPs

© 2012 #5

... pero ...

los precios van a la baja

los deadlines son cada vez más ajustados

la competencia es cada vez más dura

hay diferentes niveles de calidad tolerados

cada vez con más contenido para traducir

y en más idiomas

a veces, es necesario traducir en tiempo real

Page 6: 2012 Traducción Automática para LSPs

© 2012 #6

Page 7: 2012 Traducción Automática para LSPs

© 2012 #7

Page 8: 2012 Traducción Automática para LSPs

© 2012 #8

le podemos dar una oportunidad

incrementa la productividad

nos elimina ciertas tareas repetitivas

mejora con el tiempo

reduce los costes

permite acceder a nuevos clientes

proporciona nuevos modelos de negocio

no sirve para todo

Page 9: 2012 Traducción Automática para LSPs

© 2012 #9

Gartner hype cycle

Page 10: 2012 Traducción Automática para LSPs

© 2012 #10

en los 80/90

3 sistemas principales: Systran, Logos, Metal

interés renovado por 3 motivos principales

aumento de la capacidad computacional

reducción del coste de hardware y software

aparición de los modelos estadísticos (IBM)

métodos basados en ejemplos

principalmente en Japón

proyecto de S2S: Verbmobil

Page 11: 2012 Traducción Automática para LSPs

© 2012 #11

boom actual

plena efervescencia de sistemas

reglas

basados en ejemplos

estadísticos

basados en contexto

alternativas: crowdsourcing

importantes compañías involucradas

IBM, SAP, Google, Microsoft ...

Page 12: 2012 Traducción Automática para LSPs

© 2012 #12

Page 13: 2012 Traducción Automática para LSPs

© 2012 #13

modelo SMT

Page 14: 2012 Traducción Automática para LSPs

© 2012 #14

sobre la SMT

ventajas

rapidez de desarrollo de idiomas y dominios

superioridad en aplicaciones acotadas

alto volumen de texto multilingüe disponible

no necesita intervención lingüística

inconvenientes

metodología estadística

cómo particularizar

Page 15: 2012 Traducción Automática para LSPs

© 2012 #15

productividad en Autodesk

Page 16: 2012 Traducción Automática para LSPs

© 2012 #16

productividad según longitud

Page 17: 2012 Traducción Automática para LSPs

© 2012 #17

¿qué tenemos en tauyou?

demo ttext

Page 18: 2012 Traducción Automática para LSPs

© 2012 #18

características<idiomas _ dominios _ palabras traducidas>

ilimitadas

<glosarios>

traducciones y palabras prohibidas

<formatos de ficheros>

tmx, ttx, xliff, Déjà Vu, doc, docx, ppt, pptx,

xls, xlsx, xml, html, rtf, InDesign, ...

<y mucho más>

aprendizaje

dinos lo que necesitas y lo hacemos

Page 19: 2012 Traducción Automática para LSPs

© 2012 #19

creación de dominio

<LSP> <tauyou>

memorias de traducción corpus open-source

documentos previos alineación documentación

webs de clientes información pública

reglas programación de reglas

otros datos extracción de terminología

<algunas cuestiones>

mínimo número de palabras

necesidad de clasificación de datos

pares de idiomas

Page 20: 2012 Traducción Automática para LSPs

© 2012 #20

y más

<selección y limpieza de datos>

tablas de traducción y modelos de lenguaje

datos y parámetros para ajuste fino

medidas de test

<creación de motores>

varios + purga

<validación>

por traductores profesionales

<mejora continua>

nuevos ficheros, corpus, reglas, etc...

Page 21: 2012 Traducción Automática para LSPs

© 2012 #21

el proceso de producción (I)

decodificación SMT

conversiónformato

segmentartexto

tareasNLP

tokenizarreescribirorigen

minúsculas

Page 22: 2012 Traducción Automática para LSPs

© 2012 #22

el proceso de producción (II)

decodificación SMT

fichero traducido

reformatear detokenizar

reescribir destino

mayúsculasevaluación

Page 23: 2012 Traducción Automática para LSPs

© 2012 #23

minimización del riesgo

<tauyou>cálculo medidas calidad

<LSP>análisis de coste y tiempo

<LSP> + <tauyou>medir la evolución

Page 24: 2012 Traducción Automática para LSPs

© 2012 #24

Niveles de calidad

Nivel Traducción Contenido Calidad

1111 HumanaHumanaHumanaHumana Marketing, traducciones con Marketing, traducciones con Marketing, traducciones con Marketing, traducciones con

certificcicertificcicertificcicertificcióóóón, documentacin, documentacin, documentacin, documentacióóóón n n n

ttttéééécnica muy especializada cnica muy especializada cnica muy especializada cnica muy especializada

para uso externo, webs de para uso externo, webs de para uso externo, webs de para uso externo, webs de

mucho trmucho trmucho trmucho trááááficoficoficofico

AltaAltaAltaAlta

2222 MT posteditadaMT posteditadaMT posteditadaMT posteditada DocumentaciDocumentaciDocumentaciDocumentacióóóón e uso interno, n e uso interno, n e uso interno, n e uso interno,

ppppááááginas web de trginas web de trginas web de trginas web de trááááfico mediofico mediofico mediofico medio

MediaMediaMediaMedia

3333 MT +terminologMT +terminologMT +terminologMT +terminologíííía, a, a, a,

TM y/o diccionariosTM y/o diccionariosTM y/o diccionariosTM y/o diccionarios

InformaciInformaciInformaciInformacióóóón bn bn bn báááásica, conocer el sica, conocer el sica, conocer el sica, conocer el

contenido del textocontenido del textocontenido del textocontenido del texto

Debajo de la Debajo de la Debajo de la Debajo de la

mediamediamediamedia

4444 MT en brutoMT en brutoMT en brutoMT en bruto Medios sociales/digitales, Medios sociales/digitales, Medios sociales/digitales, Medios sociales/digitales,

informaciinformaciinformaciinformacióóóón para clienten para clienten para clienten para cliente

PobrePobrePobrePobre

Page 25: 2012 Traducción Automática para LSPs

© 2012 #25

postedición suficientemente buena

Se intenta obtener una traducción correcta desde el punto de vista semántico.

Se asegura que no se haya añadido ni omitido ninguna información accidentalmente.

Se modifica todo contenido ofensivo, inadecuado o no aceptable culturalmente.

Se utiliza tanto como sea posible del resultado “en bruto” de la traducción automática.

Se aplican las reglas básicas con respecto a la ortografía.

No hay que implementar correcciones de naturaleza estilística.

No hay que reestructurar oraciones solo para mejorar el flujo natural del texto.

Page 26: 2012 Traducción Automática para LSPs

© 2012 #26

postedición de calidad

Se intenta obtener una traducción correcta desde el punto de vista gramatical, sintáctico y semántico.

Se asegura que la terminología clave esté correctamente traducida y que los términos no traducidos sean los que aparecen en la lista de “Términos que no se deben traducir“ del cliente.

Se asegura que no se haya añadido ni omitido ninguna información.

Se modifica todo contenido ofensivo, inadecuado o no aceptable culturalmente.

Se utiliza tanto como sea posible del resultado “en bruto” de la traducción automática.

Se aplican reglas básicas con respecto a la ortografía, puntuación y guiones.

Se asegura que el formato sea el correcto.

Page 27: 2012 Traducción Automática para LSPs

© 2012 #27

casos habituales

Page 28: 2012 Traducción Automática para LSPs

© 2012 #28

datos 1

<gran volumen de datos heterogéneos>

entrenamiento con todo

clasificación semántica por dominios

ajuste fino para cada cliente

priorización por glosarios

aprendizaje continuo

Page 29: 2012 Traducción Automática para LSPs

© 2012 #29

datos 2

<datos escasos>

añadir diccionarios al corpus

completar con segmentos complementarios

combinar datos del cliente con texto genérico

adaptación a dominio en base a genérico

aumentar el número de frases con reglas

Page 30: 2012 Traducción Automática para LSPs

© 2012 #30

datos 3

<datos sucios>

eliminar traducciones múltiples

detectar texto en otros idiomas

corregir ortografía

seleccionar frases con gramática correcta

alineación con terminología del cliente

filtrar otros segmentos indeseados

Page 31: 2012 Traducción Automática para LSPs

© 2012 #31

datos 4

<creación y mejora de datos>

cliente final definido

documentos traducidos sin alinear

traducciones genéricas

creacion del corpus/memorias óptimas

extensión y filtrado basado en reglas

Page 32: 2012 Traducción Automática para LSPs

© 2012 #32

cuestiones lingüísticas 1

<palabras no traducidas>

creación de diccionarios

<errores gramaticales>

reglas de post-proceso

<filtrado de calidad>

eliminar aquellas que no cumplan requisitos

Page 33: 2012 Traducción Automática para LSPs

© 2012 #33

cuestiones lingüísticas 2

<limpieza del texto original>

ortografía y gramática

simplificación de frases

homogeneización terminológica

<detección de palabras especiales>

personas, lugares, organizaciones

códigos alfanuméricos

Page 34: 2012 Traducción Automática para LSPs

© 2012 #34

caso de uso ...<volumen recurrentes>

traducciones frecuencues

clientes de diferentes dominios

<flujo>

conseguir cuanto más datos mejor

recibir un nuevo fichero para traducir

crear un dominio ad-hoc para ese fichero

entrenar la solución y reglas básicas

<salida>

adaptación óptima en alrededor 4 horas

Page 35: 2012 Traducción Automática para LSPs

© 2012 #35

algunos consejos

clientes más grandes

idiomas

con volúmenes más altos

con estructura similar

con necesidades o terminología específica

involucrar a traductores innovadores

empezar ... probar

Page 36: 2012 Traducción Automática para LSPs

© 2012 #36

otras soluciones<author>

mejorar la calidad del texto original

coherencia y simplificación

ortografía, gramática, semántica

<web>

traducción de páginas web

MT + postedición automática

<API>

integración en otras aplicaciones

posibilidad de tiempo real

Page 37: 2012 Traducción Automática para LSPs

© 2012 #37

¡Gracias!

// Diego Bartolomé, PhD

<dirección> C/ Les Planes 39 – 08201 Sabadell

<teléfono> +34 93 711 29 96

<móvil> +34 670 331 225

<email> [email protected]

<www> tauyou.com