2012 traducción automática para lsps

Post on 18-May-2015

70 Views

Category:

Technology

3 Downloads

Preview:

Click to see full reader

DESCRIPTION

2-hour training on machine translation for Language Service Providers.

TRANSCRIPT

© 2012 #1

traducción automática

para LSPs

Diego Bartolomé, CEO

© 2012 #2

presentaciones

© 2012 #3

¿dónde estamos?

1954 machine translation movie

© 2012 #4

¡nunca!

no funciona para lo que hacemos

salen errores muy graves

se equivoca en cosas muy sencillas

pierdo más tiempo que empezando de cero

la calidad final siempre será peor

nos va a quitar el trabajo

...

© 2012 #5

... pero ...

los precios van a la baja

los deadlines son cada vez más ajustados

la competencia es cada vez más dura

hay diferentes niveles de calidad tolerados

cada vez con más contenido para traducir

y en más idiomas

a veces, es necesario traducir en tiempo real

© 2012 #6

© 2012 #7

© 2012 #8

le podemos dar una oportunidad

incrementa la productividad

nos elimina ciertas tareas repetitivas

mejora con el tiempo

reduce los costes

permite acceder a nuevos clientes

proporciona nuevos modelos de negocio

no sirve para todo

© 2012 #9

Gartner hype cycle

© 2012 #10

en los 80/90

3 sistemas principales: Systran, Logos, Metal

interés renovado por 3 motivos principales

aumento de la capacidad computacional

reducción del coste de hardware y software

aparición de los modelos estadísticos (IBM)

métodos basados en ejemplos

principalmente en Japón

proyecto de S2S: Verbmobil

© 2012 #11

boom actual

plena efervescencia de sistemas

reglas

basados en ejemplos

estadísticos

basados en contexto

alternativas: crowdsourcing

importantes compañías involucradas

IBM, SAP, Google, Microsoft ...

© 2012 #12

© 2012 #13

modelo SMT

© 2012 #14

sobre la SMT

ventajas

rapidez de desarrollo de idiomas y dominios

superioridad en aplicaciones acotadas

alto volumen de texto multilingüe disponible

no necesita intervención lingüística

inconvenientes

metodología estadística

cómo particularizar

© 2012 #15

productividad en Autodesk

© 2012 #16

productividad según longitud

© 2012 #17

¿qué tenemos en tauyou?

demo ttext

© 2012 #18

características<idiomas _ dominios _ palabras traducidas>

ilimitadas

<glosarios>

traducciones y palabras prohibidas

<formatos de ficheros>

tmx, ttx, xliff, Déjà Vu, doc, docx, ppt, pptx,

xls, xlsx, xml, html, rtf, InDesign, ...

<y mucho más>

aprendizaje

dinos lo que necesitas y lo hacemos

© 2012 #19

creación de dominio

<LSP> <tauyou>

memorias de traducción corpus open-source

documentos previos alineación documentación

webs de clientes información pública

reglas programación de reglas

otros datos extracción de terminología

<algunas cuestiones>

mínimo número de palabras

necesidad de clasificación de datos

pares de idiomas

© 2012 #20

y más

<selección y limpieza de datos>

tablas de traducción y modelos de lenguaje

datos y parámetros para ajuste fino

medidas de test

<creación de motores>

varios + purga

<validación>

por traductores profesionales

<mejora continua>

nuevos ficheros, corpus, reglas, etc...

© 2012 #21

el proceso de producción (I)

decodificación SMT

conversiónformato

segmentartexto

tareasNLP

tokenizarreescribirorigen

minúsculas

© 2012 #22

el proceso de producción (II)

decodificación SMT

fichero traducido

reformatear detokenizar

reescribir destino

mayúsculasevaluación

© 2012 #23

minimización del riesgo

<tauyou>cálculo medidas calidad

<LSP>análisis de coste y tiempo

<LSP> + <tauyou>medir la evolución

© 2012 #24

Niveles de calidad

Nivel Traducción Contenido Calidad

1111 HumanaHumanaHumanaHumana Marketing, traducciones con Marketing, traducciones con Marketing, traducciones con Marketing, traducciones con

certificcicertificcicertificcicertificcióóóón, documentacin, documentacin, documentacin, documentacióóóón n n n

ttttéééécnica muy especializada cnica muy especializada cnica muy especializada cnica muy especializada

para uso externo, webs de para uso externo, webs de para uso externo, webs de para uso externo, webs de

mucho trmucho trmucho trmucho trááááficoficoficofico

AltaAltaAltaAlta

2222 MT posteditadaMT posteditadaMT posteditadaMT posteditada DocumentaciDocumentaciDocumentaciDocumentacióóóón e uso interno, n e uso interno, n e uso interno, n e uso interno,

ppppááááginas web de trginas web de trginas web de trginas web de trááááfico mediofico mediofico mediofico medio

MediaMediaMediaMedia

3333 MT +terminologMT +terminologMT +terminologMT +terminologíííía, a, a, a,

TM y/o diccionariosTM y/o diccionariosTM y/o diccionariosTM y/o diccionarios

InformaciInformaciInformaciInformacióóóón bn bn bn báááásica, conocer el sica, conocer el sica, conocer el sica, conocer el

contenido del textocontenido del textocontenido del textocontenido del texto

Debajo de la Debajo de la Debajo de la Debajo de la

mediamediamediamedia

4444 MT en brutoMT en brutoMT en brutoMT en bruto Medios sociales/digitales, Medios sociales/digitales, Medios sociales/digitales, Medios sociales/digitales,

informaciinformaciinformaciinformacióóóón para clienten para clienten para clienten para cliente

PobrePobrePobrePobre

© 2012 #25

postedición suficientemente buena

Se intenta obtener una traducción correcta desde el punto de vista semántico.

Se asegura que no se haya añadido ni omitido ninguna información accidentalmente.

Se modifica todo contenido ofensivo, inadecuado o no aceptable culturalmente.

Se utiliza tanto como sea posible del resultado “en bruto” de la traducción automática.

Se aplican las reglas básicas con respecto a la ortografía.

No hay que implementar correcciones de naturaleza estilística.

No hay que reestructurar oraciones solo para mejorar el flujo natural del texto.

© 2012 #26

postedición de calidad

Se intenta obtener una traducción correcta desde el punto de vista gramatical, sintáctico y semántico.

Se asegura que la terminología clave esté correctamente traducida y que los términos no traducidos sean los que aparecen en la lista de “Términos que no se deben traducir“ del cliente.

Se asegura que no se haya añadido ni omitido ninguna información.

Se modifica todo contenido ofensivo, inadecuado o no aceptable culturalmente.

Se utiliza tanto como sea posible del resultado “en bruto” de la traducción automática.

Se aplican reglas básicas con respecto a la ortografía, puntuación y guiones.

Se asegura que el formato sea el correcto.

© 2012 #27

casos habituales

© 2012 #28

datos 1

<gran volumen de datos heterogéneos>

entrenamiento con todo

clasificación semántica por dominios

ajuste fino para cada cliente

priorización por glosarios

aprendizaje continuo

© 2012 #29

datos 2

<datos escasos>

añadir diccionarios al corpus

completar con segmentos complementarios

combinar datos del cliente con texto genérico

adaptación a dominio en base a genérico

aumentar el número de frases con reglas

© 2012 #30

datos 3

<datos sucios>

eliminar traducciones múltiples

detectar texto en otros idiomas

corregir ortografía

seleccionar frases con gramática correcta

alineación con terminología del cliente

filtrar otros segmentos indeseados

© 2012 #31

datos 4

<creación y mejora de datos>

cliente final definido

documentos traducidos sin alinear

traducciones genéricas

creacion del corpus/memorias óptimas

extensión y filtrado basado en reglas

© 2012 #32

cuestiones lingüísticas 1

<palabras no traducidas>

creación de diccionarios

<errores gramaticales>

reglas de post-proceso

<filtrado de calidad>

eliminar aquellas que no cumplan requisitos

© 2012 #33

cuestiones lingüísticas 2

<limpieza del texto original>

ortografía y gramática

simplificación de frases

homogeneización terminológica

<detección de palabras especiales>

personas, lugares, organizaciones

códigos alfanuméricos

© 2012 #34

caso de uso ...<volumen recurrentes>

traducciones frecuencues

clientes de diferentes dominios

<flujo>

conseguir cuanto más datos mejor

recibir un nuevo fichero para traducir

crear un dominio ad-hoc para ese fichero

entrenar la solución y reglas básicas

<salida>

adaptación óptima en alrededor 4 horas

© 2012 #35

algunos consejos

clientes más grandes

idiomas

con volúmenes más altos

con estructura similar

con necesidades o terminología específica

involucrar a traductores innovadores

empezar ... probar

© 2012 #36

otras soluciones<author>

mejorar la calidad del texto original

coherencia y simplificación

ortografía, gramática, semántica

<web>

traducción de páginas web

MT + postedición automática

<API>

integración en otras aplicaciones

posibilidad de tiempo real

© 2012 #37

¡Gracias!

// Diego Bartolomé, PhD

<dirección> C/ Les Planes 39 – 08201 Sabadell

<teléfono> +34 93 711 29 96

<móvil> +34 670 331 225

<email> dbc@tauyou.com

<www> tauyou.com

top related