dan rozenfarb ( dan@keepcon.com) adrián lisenberg...

Post on 27-Jul-2018

215 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Septiembre de 2014

Lingüística y Bigdata

Dan Rozenfarb (dan@keepcon.com)Adrián Lisenberg (adrian@keepcon.com)

2Keepcon | Hablemos de Big Data 2014, Argentina

¿Qué hacemos?

�Clasificados

�Medios

�Comunidades online

�…

Moderación de UGC

3Keepcon | Hablemos de Big Data 2014, Argentina

consolador de ultima moda bibraciones estupendas encontraras tu punto g y no lo soltaras ni para buscar a tus ijos al colejio

Comprensión

“”

4Keepcon | Hablemos de Big Data 2014, Argentina

Shakira sos buenísima me regustan tus caderas

Texto correcto

Conjugación verbal (tiempo, modo, persona, número)

Flexión de Género

Flexión de Número

Sufijos (aument., diminut., peyorativo, superlativo, etc.)

Prefijos (intensidad, oposición, negación, etc.)

5Keepcon | Hablemos de Big Data 2014, Argentina

T3 kon testo enel forrrooo, hest@ vien?

Texto incorrecto

Símbolos y números

Errores ortográficos y de tipeo

Splitting

Merging

Letras repetidas

6Keepcon | Hablemos de Big Data 2014, Argentina

640

4

40

19,200

576,000

38,300,000

1,600,000

Estúpido / Estúpida/ Estúpidos/ Estúpidas

Estupidito/ Estupidazo/

Estupidísimo/Estupidote/ …

Superestúpido/ Hiperestúpido/

Reestúpido/ …

Etupido / Estup1d0/ 3stupido/

Stúpido/ Eztupido/ Estupidus/…

Estupidoooooo/

Estuupido/ …

e.s.t.u.p.i.d.o / est upi do/

est….u…p..idoo/ ….

Eresunestu pido/

estu pidototal/

Sonmuyes tu pidos/

Género y Número

Sufijos

Prefijos

Ortografía / Fonética/ Gráfica / Flexiones

Regionales/

Merging

Repeticiones

Splitting

Combinaciones de “estúpido”

7Keepcon | Hablemos de Big Data 2014, Argentina

Detección de no-palabras

Asasjldkaldf Tecladismo

:) :( Emoticones

8===) Arte ASCII

jajjaja Risas Idioma

8Keepcon | Hablemos de Big Data 2014, Argentina

Morfología

Googleadoras

Google verbo femen. pluraladj.

Google a a sdor

9Keepcon | Hablemos de Big Data 2014, Argentina

Arma un combo

Vendo un arma

Desgracia la para suerte qué

Sintaxis

10Keepcon | Hablemos de Big Data 2014, Argentina

Semántica

La lata descansa casas verdes

La pasé mal

Me gustó mal

11Keepcon | Hablemos de Big Data 2014, Argentina

Pragmática

Esta mañana me tomé un submarino

12Keepcon | Hablemos de Big Data 2014, Argentina

Real-time Analytics en un cliente

�4MM por día

�50k reglas

�< 200ms

13Keepcon | Hablemos de Big Data 2014, Argentina

Arquitectura Previa

�SQL Server

�Escalabilidad Vertical

�1 físico: 64GB, 16 cores, 6TB

�Analysis Services + Sharepoint

�Cubo con 30 min. de delay

�Compilación incremental

14Keepcon | Hablemos de Big Data 2014, Argentina

Arquitectura NuevaElasticSearch + Cassandra

15Keepcon | Hablemos de Big Data 2014, Argentina

Arquitectura Nueva

ElasticSearch 1.0:

�5 físicos, 32GB, 4 cores, 1TB SSD�Aggregations para gráficos casi RT�100 index request por segundo�700 MM documentos (TTL de 6 meses)�Inestabilidad x OOM�Gráficos < 5 segundos

16Keepcon | Hablemos de Big Data 2014, Argentina

Arquitectura Nueva

Cassandra 2.0:

�3 físicos, 8GB, 4 cores, 8TB c/u

�1200 MM documentos sin TTL

�Objetos serializados completos

�Acceso por ID. Búsquedas en ES

17Keepcon | Hablemos de Big Data 2014, Argentina

13%

87%

Tipos de información

Anotada

Fuente: Computer World, Meryll Lynch, IDC´s Digital Universe Study 2012

No anotada

20%

80%

Estructurada

Desestructurada

Información «útil»

18Keepcon | Hablemos de Big Data 2014, Argentina

Dificultades

�Info. estructurada + fácil

�Desestructurada difícil

19Keepcon | Hablemos de Big Data 2014, Argentina

Preguntas

¿Eh?

top related