twitter como corpus para la variación lingüística algunos ...objetivos mostrar 1....

52
Twitter como corpus para la variación lingüística algunos ejemplos prácticos ANTONIO RUIZ TINOCO, UNIVERSIDAD SOFÍA UNIVERSITAT DE BARCELONA 9 DE MARZO, 2016

Upload: others

Post on 13-Feb-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Twitter como corpus para la variación lingüística

algunos ejemplos prácticos

ANTONIO RUIZ TINOCO, UNIVERSIDAD SOFÍA

UNIVERSITAT DE BARCELONA

9 DE MARZO, 2016

Page 2: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Objetivos

MOSTRAR

1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y cómo se procesan.

2. Ejemplos concretos del uso de datos geocodificados obtenidos de Twitter.

El geocorpus actual contiene más de 20 millones de tuits (más de 300 millonesde palabras) recogidos parcialmente en los años 2014-2016.

3. Preparación de varios ejemplos básicos de mapas de distribución de variación

Page 3: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

NORMNon-mobileOlderRuralMale

Investigación tradicional de la dialectología

Page 4: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Preguntar a los nativos

Page 5: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

5 October 9, 2009

Encuesta en El Alto (Bolivia)

Page 6: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

6 October 9, 2009

Encuesta en Los Angeles (USA)

Page 7: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

7 October 9, 2009

Encuesta en Quito, Ecuador

Page 8: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Datos de Twitter En Twitter se escriben alrededor de 500 millones de tuits diarios.

Aproximadamente el 5% está en español.

Solamente alrededor del 1% se puede obtener gratis.

Según la zona geográfica, solamente el 0.5% - 3% contiene información de las coordenadas.

Los términos de uso de Twitter limitan la libre distribución de los datos

Hay un nivel muy alto de ruido (mensajes indescifrables, spam, citas, repeticiones, etc.)

Casi el 80% del tiempo dedicado al análisis hay que dedicarlo al preprocesamiento de los datos y en la desambiguación manual de los datos.

Page 9: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

¿Qué información contiene un tuit? Un texto de 140 caracteres como máximo

Texto generalmente muy espontáneo, sincrónico y cercano al español hablado

Coordenadas del lugar de procedencia (no todos) y hora exacta de su envío (1 seg)

Nombre del usuario, aunque puede ser ficticio.

Perfil del usuario

Número de tuits escritos por el usuario

Número de seguidores

Número de usuarios a los que sigue

etc.

Page 10: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

¿Cómo se obtienen los datos de Twitter?

Hardware: VPS, Virtual Private Server (2G memory)

Entorno: LAMP (Linux, Apache, MySQL, PHP) SIG (GIS) (cartografía): QGIS, SAGA, GDAL, etc.

Conexión a Twitter: https://twitter.com/signup + developper accountOauth: Obtener claves de seguridad

Base de datos: MySQL, PostgreSQL+PostGIS, SpatiaLite, etc.

Page 11: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Varios métodos de obtención de datos

Por palabras o secuencias de palabras

Por coordenadas

Pasados (10 días - 2 semanas)

En tiempo real sin restricciones:

Streaming API (aprox. 60.000 tuits /día)

Page 12: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Distribución de 5.478.227tuits

¿Dónde se usa el español?

Page 13: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Limpieza de los datos (ruido) Detección de lengua:

tarda, verbo “tardar”o “tarda”(tarde) de catalán

Desambiguación

medias (prenda femenina, calcetines, parte de otra expression (“a medias”)

Citas de otras personas: RT @ (retweets)

Falta de coordenadas, spam, bots, publicidad, errores de hardware, etc.

Con frecuencia, comprobación final manual

Page 15: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

SIG (Sistemas de Información Geográfica)

Los programas tipo SIG son herramientas capaces de integrar y almacenar información geocodificada.

Posibilitan consultas interactivas, analizar la información, editar datos, preparar mapas y presentar los resultados.

Page 16: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Interfaz de QGIS (1)

Page 17: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Interfaz de QGIS (2)

Page 18: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Morfología

Page 19: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Argentinismos quilombo & un poroto al lado mío

Page 20: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Morfologíacalentito vs calientito la calor (femenino)

Page 21: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Morfología quizá vs quizás

Page 23: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Otros

de la hostia sushi un poco bastante / demasiado

Page 24: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Otros

asín dequeísmo

Page 25: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Shapefiles: Puntos, líneas y polígonos

Page 26: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Variación en un período de tiempo

Page 27: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Habemos (215 ocurrencias)

Page 28: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Solo habemos 2 en el salon, JAJA:( (Panamá)

@Daniel61sneros habemos personas que estamos en zonas de riesgo que necesitamos ser reubicados o por lo menos saber si son o no son solares (Ecuador)

La salud mental es pesima en Chile, habemos muchos enfermos silenciosos (Chile)

Page 29: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

falda --- pollera -- enagua

Page 30: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

pollera --- falda

Page 31: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

pollera --- falda

Page 32: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

vivistes --- viviste

Page 33: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

llamastes --- llamaste

Page 34: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

hablastes --- hablaste

Page 35: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

pusistes --- pusiste

Page 36: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

pusistes

Page 37: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

pusistes (frecuencia absoluta vs. relativa)

Page 38: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

presentao --- presentado

Page 39: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

olvidao --- olvidado

Page 40: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

pescao --- pescado

Page 41: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

cuñao --- cuñado

Page 42: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

pescao (frecuencia absoluta vs. relativa)

Page 43: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

cuñao (frecuencia relativa por provincias)

Page 44: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

cuñao (valores interpolados ratio/provincias)

Page 45: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

cuñao (valores interpolados ratio/provincias)

Page 46: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Mapas temáticos (2)

Tuits en catalán Proporción de tuits CAT/ESP

Page 47: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Mapa temático combinado con puntos

Dijera vs dijese

Page 48: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Contacto de lenguasgallego catalán euskera

Page 49: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Mapa de calor (2)

Densidad de tuits en catalán en Barcelona

Page 50: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Interpolación de datos

Bon Nadal

Page 51: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Algunas conclusiones

Las redes sociales ofrecen una fuente de datos geocodificados y sincrónicos, de gran utilidad para la geolingüística. El lingüista variacionista puede (y debe) beneficiarse de las tecnologías de procesamiento de lenguajes naturales (NLP) y de los modernos sistemas de información geográfica (SIG).

Se ha observado frecuentemente la coexistencia de todo tipo de variantes.

La variación lingüística de algunos fenómenos, requiere una enorme cantidad de datos, posiblemente del orden de los miles de millones de palabras. Actualmente es posible.

Page 52: Twitter como corpus para la variación lingüística algunos ...Objetivos MOSTRAR 1. Características básicas de los datos geolocalizados de Twitter, qué son, cómo se obtienen y

Muchas gracias por su atención

¿Alguna pregunta?¿Alguna sugerencia?