dan rozenfarb ( [email protected]) adrián lisenberg...

19
Septiembre de 2014 Lingüística y Bigdata Dan Rozenfarb ( [email protected] ) Adrián Lisenberg ( [email protected] )

Upload: nguyentram

Post on 27-Jul-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Dan Rozenfarb ( dan@keepcon.com) Adrián Lisenberg …datamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3... · Septiembre de 2014 Lingüística y Bigdata Dan Rozenfarb ( dan@keepcon.com)

Septiembre de 2014

Lingüística y Bigdata

Dan Rozenfarb ([email protected])Adrián Lisenberg ([email protected])

Page 2: Dan Rozenfarb ( dan@keepcon.com) Adrián Lisenberg …datamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3... · Septiembre de 2014 Lingüística y Bigdata Dan Rozenfarb ( dan@keepcon.com)

2Keepcon | Hablemos de Big Data 2014, Argentina

¿Qué hacemos?

�Clasificados

�Medios

�Comunidades online

�…

Moderación de UGC

Page 3: Dan Rozenfarb ( dan@keepcon.com) Adrián Lisenberg …datamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3... · Septiembre de 2014 Lingüística y Bigdata Dan Rozenfarb ( dan@keepcon.com)

3Keepcon | Hablemos de Big Data 2014, Argentina

consolador de ultima moda bibraciones estupendas encontraras tu punto g y no lo soltaras ni para buscar a tus ijos al colejio

Comprensión

“”

Page 4: Dan Rozenfarb ( dan@keepcon.com) Adrián Lisenberg …datamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3... · Septiembre de 2014 Lingüística y Bigdata Dan Rozenfarb ( dan@keepcon.com)

4Keepcon | Hablemos de Big Data 2014, Argentina

Shakira sos buenísima me regustan tus caderas

Texto correcto

Conjugación verbal (tiempo, modo, persona, número)

Flexión de Género

Flexión de Número

Sufijos (aument., diminut., peyorativo, superlativo, etc.)

Prefijos (intensidad, oposición, negación, etc.)

Page 5: Dan Rozenfarb ( dan@keepcon.com) Adrián Lisenberg …datamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3... · Septiembre de 2014 Lingüística y Bigdata Dan Rozenfarb ( dan@keepcon.com)

5Keepcon | Hablemos de Big Data 2014, Argentina

T3 kon testo enel forrrooo, hest@ vien?

Texto incorrecto

Símbolos y números

Errores ortográficos y de tipeo

Splitting

Merging

Letras repetidas

Page 6: Dan Rozenfarb ( dan@keepcon.com) Adrián Lisenberg …datamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3... · Septiembre de 2014 Lingüística y Bigdata Dan Rozenfarb ( dan@keepcon.com)

6Keepcon | Hablemos de Big Data 2014, Argentina

640

4

40

19,200

576,000

38,300,000

1,600,000

Estúpido / Estúpida/ Estúpidos/ Estúpidas

Estupidito/ Estupidazo/

Estupidísimo/Estupidote/ …

Superestúpido/ Hiperestúpido/

Reestúpido/ …

Etupido / Estup1d0/ 3stupido/

Stúpido/ Eztupido/ Estupidus/…

Estupidoooooo/

Estuupido/ …

e.s.t.u.p.i.d.o / est upi do/

est….u…p..idoo/ ….

Eresunestu pido/

estu pidototal/

Sonmuyes tu pidos/

Género y Número

Sufijos

Prefijos

Ortografía / Fonética/ Gráfica / Flexiones

Regionales/

Merging

Repeticiones

Splitting

Combinaciones de “estúpido”

Page 7: Dan Rozenfarb ( dan@keepcon.com) Adrián Lisenberg …datamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3... · Septiembre de 2014 Lingüística y Bigdata Dan Rozenfarb ( dan@keepcon.com)

7Keepcon | Hablemos de Big Data 2014, Argentina

Detección de no-palabras

Asasjldkaldf Tecladismo

:) :( Emoticones

8===) Arte ASCII

jajjaja Risas Idioma

Page 8: Dan Rozenfarb ( dan@keepcon.com) Adrián Lisenberg …datamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3... · Septiembre de 2014 Lingüística y Bigdata Dan Rozenfarb ( dan@keepcon.com)

8Keepcon | Hablemos de Big Data 2014, Argentina

Morfología

Googleadoras

Google verbo femen. pluraladj.

Google a a sdor

Page 9: Dan Rozenfarb ( dan@keepcon.com) Adrián Lisenberg …datamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3... · Septiembre de 2014 Lingüística y Bigdata Dan Rozenfarb ( dan@keepcon.com)

9Keepcon | Hablemos de Big Data 2014, Argentina

Arma un combo

Vendo un arma

Desgracia la para suerte qué

Sintaxis

Page 10: Dan Rozenfarb ( dan@keepcon.com) Adrián Lisenberg …datamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3... · Septiembre de 2014 Lingüística y Bigdata Dan Rozenfarb ( dan@keepcon.com)

10Keepcon | Hablemos de Big Data 2014, Argentina

Semántica

La lata descansa casas verdes

La pasé mal

Me gustó mal

Page 11: Dan Rozenfarb ( dan@keepcon.com) Adrián Lisenberg …datamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3... · Septiembre de 2014 Lingüística y Bigdata Dan Rozenfarb ( dan@keepcon.com)

11Keepcon | Hablemos de Big Data 2014, Argentina

Pragmática

Esta mañana me tomé un submarino

Page 12: Dan Rozenfarb ( dan@keepcon.com) Adrián Lisenberg …datamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3... · Septiembre de 2014 Lingüística y Bigdata Dan Rozenfarb ( dan@keepcon.com)

12Keepcon | Hablemos de Big Data 2014, Argentina

Real-time Analytics en un cliente

�4MM por día

�50k reglas

�< 200ms

Page 13: Dan Rozenfarb ( dan@keepcon.com) Adrián Lisenberg …datamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3... · Septiembre de 2014 Lingüística y Bigdata Dan Rozenfarb ( dan@keepcon.com)

13Keepcon | Hablemos de Big Data 2014, Argentina

Arquitectura Previa

�SQL Server

�Escalabilidad Vertical

�1 físico: 64GB, 16 cores, 6TB

�Analysis Services + Sharepoint

�Cubo con 30 min. de delay

�Compilación incremental

Page 14: Dan Rozenfarb ( dan@keepcon.com) Adrián Lisenberg …datamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3... · Septiembre de 2014 Lingüística y Bigdata Dan Rozenfarb ( dan@keepcon.com)

14Keepcon | Hablemos de Big Data 2014, Argentina

Arquitectura NuevaElasticSearch + Cassandra

Page 15: Dan Rozenfarb ( dan@keepcon.com) Adrián Lisenberg …datamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3... · Septiembre de 2014 Lingüística y Bigdata Dan Rozenfarb ( dan@keepcon.com)

15Keepcon | Hablemos de Big Data 2014, Argentina

Arquitectura Nueva

ElasticSearch 1.0:

�5 físicos, 32GB, 4 cores, 1TB SSD�Aggregations para gráficos casi RT�100 index request por segundo�700 MM documentos (TTL de 6 meses)�Inestabilidad x OOM�Gráficos < 5 segundos

Page 16: Dan Rozenfarb ( dan@keepcon.com) Adrián Lisenberg …datamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3... · Septiembre de 2014 Lingüística y Bigdata Dan Rozenfarb ( dan@keepcon.com)

16Keepcon | Hablemos de Big Data 2014, Argentina

Arquitectura Nueva

Cassandra 2.0:

�3 físicos, 8GB, 4 cores, 8TB c/u

�1200 MM documentos sin TTL

�Objetos serializados completos

�Acceso por ID. Búsquedas en ES

Page 17: Dan Rozenfarb ( dan@keepcon.com) Adrián Lisenberg …datamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3... · Septiembre de 2014 Lingüística y Bigdata Dan Rozenfarb ( dan@keepcon.com)

17Keepcon | Hablemos de Big Data 2014, Argentina

13%

87%

Tipos de información

Anotada

Fuente: Computer World, Meryll Lynch, IDC´s Digital Universe Study 2012

No anotada

20%

80%

Estructurada

Desestructurada

Información «útil»

Page 18: Dan Rozenfarb ( dan@keepcon.com) Adrián Lisenberg …datamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3... · Septiembre de 2014 Lingüística y Bigdata Dan Rozenfarb ( dan@keepcon.com)

18Keepcon | Hablemos de Big Data 2014, Argentina

Dificultades

�Info. estructurada + fácil

�Desestructurada difícil

Page 19: Dan Rozenfarb ( dan@keepcon.com) Adrián Lisenberg …datamining.dc.uba.ar/datamining/files/Charlas_y_Paneles/p3... · Septiembre de 2014 Lingüística y Bigdata Dan Rozenfarb ( dan@keepcon.com)

19Keepcon | Hablemos de Big Data 2014, Argentina

Preguntas

¿Eh?