detectar conversacion 'bot' en twitter

Post on 12-Apr-2017

497 Views

Category:

Social Media

6 Downloads

Preview:

Click to see full reader

TRANSCRIPT

¿Cómo detectarconversación ‘bot’?

COMUNIDAD TWITTER

Jorge Peñalva, CEO en Séntisis y Emilio Ortiz, director de Data Science en Séntisis

Hola, trabajamos en Séntisis y somos:

¿QUÉ ES SÉNTISIS? Inteligencia de Lenguaje Natural

v

43%

57%

Comentarios Informativos

Comentarios Espontáneos

72%

1%

Comentarios Personas

Comentarios Tuitstars

27% Comentarios Empresas

1% Bots

El Banco Santander ganó 5.966 millones de euros en 2015, lo que supone un aumento del 2,6% con respecto a 2014

CONVERSACIÓN

EL PAÍS @el_pais

CATEGORÍA Medio Informativo Informativa

RASGOS LINGÜÍSTICOS

Se identifica conversación en 3ª persona con rasgos claramente informativos

Parece que hay problemas con el wifi y los datos móviles de los culés, no se lee a ninguno.

CONVERSACIÓN

Colmenero @Colmenero

CATEGORÍA Comentario de Tuitstars Irónica

RASGOS LINGÜÍSTICOS

Alto porcentaje de expresiones irónicas o de tuistars: “Parece que”, “yo + gerundio”, “cuando + te + verbo tercera persona”, ...

¡¡Enhorabuena por una final épica!! #SeQuedaEnMadrid

CONVERSACIÓN

CATEGORÍA Comentario de Empresas Empresarial

Heineken España @Heineken_ES

Banco Santander @bancosantander

EJEMPLO SERVICIO/PRODUCTO INTANGIBLE

EJEMPLO PRODUCTO

RASGOS LINGÜÍSTICOS

Uso de hashtags y campañas

RASGOS LINGÜÍSTICOS

Uso de comunicación coorporativa positiva

#BancoSantander DIRSE se adhiere a la Red de Cátedras Santander de Responsabilidad Social

La justicia española archiva definitivamente el caso Humberto Moreira. “no hay indicio para vincularlo a los Zetas”

CONVERSACIÓN

CATEGORÍA Persona u Espontáneo Personas

Carlos Quiónes @sabio28

EJEMPLO COMPARTIR OPINIÓN MEDIÁTICA

Que rica es la heineken, cuanto tiempo sin tomarme una !!

Dr. Saturno @Edderdallacosta

EJEMPLO CONVERSACION ESPONTANEA

Ladrones, corruptos, peligro para México La Justicia española archiva definitivamente el caso Moreira

Carlos E. Rodriguez @gruporeyna

EJEMPLO OPINIÓN SESGADA POR MEDIO

RASGOS LINGÜÍSTICOS

Segmentar por rasgos transversales: atención a cliente o experiencia de producto, opinión+informativo, sólo informativo

Erdogan afirma que las mujeres que no tienen hijos son "mit... http://www.20minutos.es/noticia/2765122/0/erdogan-turquia-mujeres-madre/ … | https://twibble.io

CONVERSACIÓN

CATEGORÍA Bots Bots

Eloisa Cabrera @cabrelois

RASGOS LINGÜÍSTICOS

Semántica con estructuras repetidas. Otros rasgos: Info demográfica, histórico, similar a otros usuarios

Los alérgicos, ante su particular 'vía crucis': el polen de... http://www.20minutos.es/noticia/2763717/0/alergia-polen-graminea-olivo-parietaria/ … | https://twibble.io

1. Un usuario que:

• No piensa en su contenido

• No genera contenido original

• En ocasiones su comportamiento es normal

¿Cómo definimos a un bot?

Entendemos por conversación bótica toda aquella

conversación que no es generada de manera natural

2. Su información:

• Puede ser relevante

• Debe analizarse por separado

Categorización Semántica

Histórico Temporal

Extracción de Información

Métricas

Información Demográfica HERRAMIENTAS

METODOLOGÍA

Grafo:

• Contenido original

• No retweets

• Filtrado por frecuencia

Marzo 2015

• 300k tweets analizados

• 110k usuarios

1% de Bots

CASO 1. DE PERSONA A MEDIO

Intención/informa

0% 20% 40% 60% 80% 100%

Obama

Persona relacionada

Cita declaración

Intención/anuncia

Lugar relacionado

Cita acción

Atributo

Eventos

Tema/Orden público

Federico J. Rodríguez @tuitermann

#Tweets

259

Periodista. Redactor Jefe y Editor de programas informativos de Fuengirola Televisión y Radio (FTV) Antes: La Opinión de Málaga y Diario Málaga Costa del Sol

#Retweets

0#Tweets

259

~100% conversación es una noticia o similar

CASO 2. CONTENIDO MONOTEMÁTICO

0% 20% 40% 60% 80% 100%

p.v./Librería-Papelería

?Juan Siseón Canet Gregori @canetgregori

#Tweets

992

Escritor-Ilustrador de mis libros-pintor y dibujante artístico.. Puedes verlo http://amzn.to/1QQ4qom

#Retweets

1#Tweets

993

Texto Completo+ URL

Juan Siseón Canet Gregori @canetgregori

#Tweets

992

Escritor-Ilustrador de mis libros-pintor y dibujante artístico.. Puedes verlo http://amzn.to/1QQ4qom

#Retweets

1#Tweets

993

?

??

?

CASO 3. PATRÓN SINTÁCTICO

Clim Edis @ClimateEd

#Tweets

636Property in Spain

#Retweets

0#Tweets

636

“Venta Apartamento en” + LUGAR + por + COSTE

CASO 4. DE PATRÓN SINTÁCTICO A PATRÓN TEMPORAL

Ines k @Inesk14

#Tweets

132Kr #1

#Retweets

179#Tweets

311

0

50

100

150

2016 - 03 - 03 01:00

2016 - 03 - 07 01:00

2016 - 03 - 11 01:00

2016 - 03 - 15 01:00

?

??

?

CASO 5. EN OCASIONES VEO BOTS

Comportamiento “Normal”

Karen Castañeda @SKarenMC

#Tweets

531Deja atrás el orgullo & déjate amar..! :3

#Retweets

6#Tweets

537

0

50

100

150

2016 - 03 - 07 01:00

2016 - 03 - 11 01:00

2016 - 03 - 15 01:00

2016 - 03 - 19 01:00

Karen Castañeda @SKarenMC

#Tweets

531Deja atrás el orgullo & déjate amar..! :3

#Retweets

6#Tweets

537

0

50

100

150

2016 - 03 - 07 01:00

2016 - 03 - 11 01:00

2016 - 03 - 15 01:00

2016 - 03 - 19 01:00

Comportamiento “Bot”

?

??

?

CASO 6. ATAQUE GRUPAL ¿TROLLS O BOTS?

?

Bankia: retira los barrotes anti-indigentes de tus sucursales #losprincipiosdebankiahttp v\xeda @change_es

0

50

100

150

2016 - 03 - 15 01:00

2016 - 03 - 19 01:00

2016 - 03 - 23 01:00

2016 - 03 - 27 01:00

?

??

?

CASO 7. PUBLICIDAD REPETIDA

El Patotas @ElPatotasBlog

#Tweets

531

El Patotas te cargará de risa. / Humor ácido, Chistes, Imagenes, Burlas.

#Retweets

6#Tweets

537 Siempre referencia a su blog

0

50

100

150

2016 - 03 - 07 01:00

2016 - 03 - 11 01:00

2016 - 03 - 15 01:00

2016 - 03 - 19 01:00

CASO 8. DE MISMAS FUENTES A CUENTAS REPETIDAS

0% 20% 40% 60% 80% 100%

vertele.com

formulatv.com

puromarketing.com

ift.tt

Mari Carmen Arranz @MamenArranz

#Tweets

71

Periodista. Redactora de tv. Buscando programa que me acoja :)

#Retweets

0#Tweets

71

Distribución de referencias a webs

vertele.com

formulatv.com

puromarketing.com

ift.tt

0% 20% 40% 60% 80% 100%

Mamen @RedaccionTv

#Tweets

69

Periodista. Redactora de televisión.

#Retweets

0#Tweets

69

Distribución similar Detección de cuentas repetidas

CASO 9. FAN BOTS

Natalia Orozco KR @nataliaorozcoro

#Tweets

69

Fans del mejor @KEVINROLDAN

#Retweets

0#Tweets

69

Al menos 10 cuentas de la

“misma persona”

NataliaOrozcokr @nataorozco10

Fans del mejor @kevinroldan

@nataliaorozcoro @Nataorozcoro01 @nataorozcoro02 @Nataorozcoro03 @nataorozcoro04

@nataorozcoro05 @nataorozcoro06 @nataorozcoro07 @nataorozcoro09 @nataorozcoro08

@nataorozcoro10 @Natalia39467430 @Natha_KR @NathysKR @krmaniaca

NataliaOrozcoKr @Nataorozcoro01

Amo la vida una mujer decidaMás de 10 cuentas adicionales con el mismo contenido

?

??

?

CASO 10. NOMBRES Y DESCRIPCIONES “ESTÁNDAR”

Eloisa Cabrera @cabreloisCuando más obscuro está, es porque ya no tarda en amanecer!!

● Patrones lingüísticos

● Referencia a medios

● Patrón temporal

Erdogan afirma que las mujeres que no tienen hijos son "mitad personas” http://www.20minutos.es/noticia/2765122/0/erdogan-turquia-mujeres-madre/ … | https://twibble.io

Los alérgicos, ante su particular 'vía crucis': el polen de gramíneas y olivos está en su etapa álgida http://www.20minutos.es/noticia/2763717/0/alergia-polen-graminea-olivo-parietaria/ … | https://twibble.io

Jorge Fernández ve tácticas de kale borroka "de cuando ETA asesinaba” en Gràcia http://www.20minutos.es/noticia/2765058/0/jorge-fernandez-alerta-que-gr-cia-hay-tacticas-kale-borroka-cuando-eta-asesinaba/ … | https://twibble.io

Nosotros proponemos el tema, tú mandas las fotos http://www.bbc.com/mundo/video_fotos/2016/06/160603_finde_galeria_lectores_viajes_men … | https://twibble.io

Yorline Nava @yorlnavEl mundo necesita mucho más amor de lo que crees, vive en amor y con amor #TransformaTuVida

Paula Figueroa @gueropauMi mejor carta de presentación es mi sonrisa!!

Alejandra Torres @alandtorSonríe, vale la pena ser feliz!!!

Karen Sandoval @karsandlCree que lo puedes hacer y lo harás!!

Podemos propone prohibir Uber por atentar contra los taxistas http://www.20minutos.es/noticia/2762963/0/podemos-propone-prohibir-uber/

¿Cómo detectar un bot?

● Patrones semánticos

● Patrones sintácticos

● Patrones temporales

● Mismos fuentes/links

● Trolls en grupo

● Fan Bots

● Nombres o descripciones “bóticos”

Y muchos más,descubiertos ypor descubrir...

top related