xv trobada de serveis lingüístics universitaris barcelona, 1 i 2 de juny de 2006 el projecte...

30
XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

Upload: victor-rivas-agueero

Post on 24-Jan-2016

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

El projecte RESTADEines per al buidatge automatitzat

de corpus textuals

Page 2: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

2

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Índex

Participants Objectius Tipus d’eines Processos

Obtenció de memòries de traducció Obtenció de terminologia (bilingüe)

Explotació

Page 3: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

3

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Participants

Serveis lingüístics universitaris Universitat Autònoma de Barcelona Universitat de Girona Universitat Oberta de Catalunya Universitat Politècnica de Catalunya

Institucions públiques DURSI (Departament d’Universitats, Recerca i Societat de la Informació)

Page 4: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

4

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Objectius

Disposar de materials multilingües Desenvolupar recursos que facilitin i millorin la traducció automatitzada

al català dels documents docents. Facilitar que l’alumnat universitari pugui disposar dels materials docents

almenys en català.Automatitzar els processos de treball Homogeneïtzar i automatitzar els processos de treball fent servir les

mateixes eines de suport lingüístic i compartint recursos (memòries de traducció i terminologia).

Reaprofitar la informació lingüística generada a les nostres universitats gràcies a eines informàtiques de suport lingüístic.

Disposar de recursos gratuïts Distribuir gratuïtament eines i recursos a totes les universitats,

institucions, empreses que hi estiguin interessades (descàrregues des d’Internet). Les aplicacions informàtiques seran de programari lliure.

Page 5: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

5

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Tipus d’eines

Eines bàsiques de buidatge Alineador automàtic de textos Extractor de terminologia

Utilitats: portabilitat (comunicació entre programes) Base de dades terminològica => Lèxic sistema TA Corpus paral·lel => Memòria de traducció Creació de formats estàndard: text tabulat => TMX/TBX

Page 6: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

6

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Flux de buidatge

Page 7: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

7

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Article 80.

Competències

1. Són competències del secretari

general:

- Redactar i custodiar les actes de les sessions del Claustre, del Consell de Govern, de l’Equip de Govern i de la Junta Consultiva, així com expedir certificacions de llurs acords.

Eina d’alineació: AlinUOC

Artículo 80.

Competencias

1. Son competencias del secretario

general:

- Redactar y custodiar las actas de las sesiones del Claustro, del Consejo de Gobierno, del Equipo de Gobierno y de la Junta Consultiva, así como expedir certificaciones de sus acuerdos.

Page 8: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

8

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Alineació de documents DOC

Articles català

Articles anglès

Articles espanyol

doc2txt

Articles català

Articles anglès

Articles espanyol

Articles cat-ang alineats

Articles cat-esp alineats

AlinUOC

DOC TXT

Page 9: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

9

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Alineació de documents HTML

Articles català

Articles anglès

Articles espanyol

html2txt

Articles català

Articles anglès

Articles espanyol

Articles cat-ang alineats

Articles cat-esp alineats

AlinUOC

HTML TXT

Page 10: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

10

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Alineació de documents PDF

PDF TXT

Articles català

Articles anglès

Articles espanyol

Pdf2txt

Articles català

Articles anglès

Articles espanyol

Resums cat-ang alineats

Resums cat-esp alineats

AlinUOC

Resums català

Resums anglès

Resums espanyol

Page 11: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

11

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Tractament de documents PDF

Problemes per a tractar documents PDF Recuperar paraules tallades per un salt de línia amb guionet. Ajuntar línies separades per peus de pàgina, encapçalaments,

peus de figura, etc.

Page 12: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

12

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Tractament de documents PDF

Page 13: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

13

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Tractament de documents PDF

Page 14: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

14

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Creació de memòries de traducció

Corpus paral·lel

(Text tabulat)txt2tmx MT

(TMX)

DéjàVu

ForeignDesk

(Frog Translator)MT

Access

Page 15: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

15

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Què és un candidat a terme?

El cinema digital i la televisió són el futur.

Una paraula (cinema) Dues paraules consecutives (cinema digital) Tres paraules consecutives (cinema digital i) … N-grams (subseqüència d’n paraules

consecutives)

Page 16: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

16

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Extracció de candidats a terme

Elaboració d’una llista de candidats a terme “Morim d’èxit!”

Filtratge de la llista de candidats Automàtic Manual

Cerca d’equivalents en altres llengües

Page 17: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

17

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Elaboració de la llista d’n-grams

Corpus paral·lel

(Text tabulat)

StemTES

n-grams

Llista

n-grams

Page 18: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

18

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Selecció dels n-gram

Page 19: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

19

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Filtratge de candidats a terme

De manera implícita ja hem explotat el corpus paral·lel Aplicació de coneixement lingüístic

Eliminar unigrams per freqüència ‘podem’, ‘anys’

Eliminar unigrans emprant patrons morfosintàctics ((els el DETMP) (artistes artista NMP) (volen voler (VERB3PP))

Filtratge amb cerques a Internet Cerques a Internet

net art + medicina + esports => nombre de pàgines Directori de dominis

Page 20: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

20

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Propostes de termes i equivalents de traducció

Corpus paral·lel

(Text tabulat)

StemTES

n-grams

Llista

n-grams

filtrats

Llista n-grams

Amb propostes d’equivalències

Page 21: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

21

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Propostes d’equivalents a terme: TOND

Page 22: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

22

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Un cas pràctic

Espai en xarxa: Artnodes Volum de text:

Unes 26.000 paraules

Nombre de candidats a terme sense filtratge previ 2.884

Nombre de candidats finals amb filtratge 998

Page 23: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

23

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Page 24: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

24

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Gràcies per la vostra atenció

Gracias por vuestra atención

Eskerrik asko zuen arretagatik

Grazas pola vosa atención

Thanks for your atention

Merci pour votre attention

Page 25: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

25

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Explotació

Page 26: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

26

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Base de dades terminològica en una eina TAO

Page 27: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

27

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Entrada lèxica sistema de TA Entrada transfer

Page 28: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

28

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Entrada lèxica llengua origen

Page 29: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

29

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Entrada lèxica llengua destí

Page 30: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

30

XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006

Creació automàtica de glossaris

Suport electrònic o paper

Requeriments Format XML (TBX) Eina de conversió text tabulat a TBX