enaitz ezpeleta - cybercamp | cybercamp 2019 · 2018. 2. 8. · who am i enaitz ezpeleta gallastegi...
TRANSCRIPT
-
#CyberCamp17
Nuevos Paradigmas de
Análisis Basados en
Contenidos para la
Detección del Spam en
Redes Sociales
- Enaitz Ezpeleta -
Santander , 1 de diciembre del 2017
-
Who am I
Enaitz Ezpeleta Gallastegi
Doctor en Informática.
Docente e investigador en MU.
www.mondragon.edu
2
-
3
¿Qué presento y cómo he llegado aquí?
(Septiembre 2016)
(Junio 2017)
-
4
Invitación
Próximamente en:
http://2018.jnic.es/
En Donostia – San Sebastian organizada por Mondragon Unibertsitatea
http://2018.jnic.es/
-
5
Índice
Introducción
Spam personalizado
Influencia del análisis de sentimiento en el filtrado del spam
Influencia del reconocimiento de personalidad en el filtrado del
spam
Combinación del análisis de sentimiento y el reconocimiento
de personalidad el el filtrado del spam
Resumen
-
6
Introducción - ¿Qué es el spam?
-
7
Introducción – Motivación
Consecuencias negativas del spam [1]:
Consecuencias directas: venta de productos, instalación de
malware...
Consumo de recursos de red.
Consumo de recursos humanos.
Perdida de mensajes legítimos.
[1] G. V. Cormack. Email spam filtering: A systematic review. Foundations and Trends in Information Retrieval,
1(4):335-455, 2007.
-
8
Introducción – Motivación
Las campañas de spam siguen siendo uno de los
mayores problemas que afecta a millones de
usuarios al día.
[2] https://securelist.com/spam-and-phishing-in-q3-2017/82901/
-
9
Introducción – Motivación
El aumento del spam en servicios de mensajería
instantánea ,atrae campañas no legítimas.
Telefonos móviles con SMS: 6.1 billones (Junio 2015) [3].
WhatsApp: >1 billón de usuarios (Febrero 2016) [4].
El SMS spam en China e India:
20-30% del tráfico total de SMSs en 2011 [5].
[3] Sms: the language of 6 billion people. Portio Research Limited, June 2015.
[4] https://blog.whatsapp.com/616/One-billion/
[5] Sms and mobile messaging attacks. GSMA Spam Reporting Service, January 2011.
-
10
Introducción – Motivación
[6] https://techcrunch.com/2017/06/27/facebook-2-billion-users/
-
11
Introducción – Hipótesis
El spam personalizado puede ser un serio problema
que maximiza el ratio de respuesta del spam
eludiendo los sistemas actuales de detección.
-
12
Introducción – Hipótesis
El spam personalizado puede ser un serio problema
que maximiza el ratio de respuesta del spam
eludiendo los sistemas actuales de detección.
Es posible identificar la intencionalidad comercial de
los mensajes utilizando técnicas de análisis de
contenido.
La intencionalidad del mensaje puede ser usado
para clasificar mensajes spam en las redes sociales.
-
13
Introducción – Objetivo
Objetivo 1:
Demostrar que es posible crear nuevos tipos de spam utilizando
información de las Redes Sociales.
-
14
Introducción – Objetivo
Objetivo 1:
Demostrar que es posible crear nuevos tipos de spam utilizando
información de las Redes Sociales.
Objetivo 2:
Demostrar que es posible diseñar y desarrollar nuevos métodos
para mejorar los resultados de filtrado de spam fuera y dentro de
las redes sociales.
-
15
Introducción – Background
Detección de spam:
Entre todos los tipos de filtros, los filtros basados en aprendizaje
han obtenido los mejores resultados [7].
[7] Teli et al. Effective spam detection method for email. In International Conference on Advances in Engineering &
Technology, 2014.
-
16
Introducción – Background
Procesamiento del lenguaje natural:
Técnicas computacionales para analizar textos con el objetivo
de alcanzar un procesamiento humano en aplicaciones o tareas
[8].
Estudios demuestran la posibilidad de desarrollar técnicas anti-
spam usando técnicas de minería de textos [9].
[8] E.D. Liddy. Natural language processing, NY. Marcel Decker, Inc 2001.
[9] R. Y. K. Lau, S. Y. Liao, R. C. Kwok, K. Xu, Y. Xia, and Y. Li. Text mining and probabilistic language modeling for
online review spam detection. ACM Trans. Manage. Inf. Syst., 2(4):25:1–25:30, January 2012.
-
17
Introducción – Background
Seguridad en redes sociales:
En los últimos años se han publicado numerosos productos y
métodos para hacer frente a vulnerabilidades de las redes
sociales.
Aunque la mayoría de las investigaciones se han centrado en
campañas dentro de las redes sociales, la combinación del
spam típico y las redes sociales supone una amenaza.
-
18
Desarrollo
Spam personalizado
Influencia del análisis de sentimiento en el filtrado
del spam
Influencia del reconocimiento de personalidad en el
filtrado del spam
Combinación del análisis de sentimiento y el
reconocimiento de personalidad el el filtrado del
spam
-
19
Spam personalizado - Objetivo
Demostrar que es posible generar spam personalizado
y que es una amenaza real.
-
20
Spam personalizado - Antecedentes
Bonneau et al. demostraron que es posible
recolectar grandes volúmenes de datos desde
Facebook [10].
Investigadores encontraron una vulnerabilidad que
posibilitaba conectar direcciones de correo
electrónico con cada cuenta [11].
[10] J. Bonneau, J. Anderson, and G Danezis. Prying data out of a social network. International Conference on
Advances in Social Network Analysis and Mining, 0:249-254, 2009.
[11] M. Balduzzi, C. Platzer, T. Holz, E. Kirda, D. Balzarotti, and C Kruegel. Abusing social networks for automated user
profiling. In Proceedings of the 13th international conference on Recent advances in intrusion detection, RAID’10,
pages 422-442, 2010, Springer-Verlag.
-
21
Spam personalizado - Proceso
-
22
Spam personalizado – Colección de datos
-
23
Spam personalizado – Procesamiento de los
datos
-
24
Spam personalizado – Personalización
-
25
Spam personalizado – Personalización
-
26
Spam personalizado – Personalización
Ejemplo de la plantilla musica:
-
27
Spam personalizado – Experimentos
Primer experimento:
Campaña de spam típico.
Segundo experimento:
Campaña de spam personalizado.
Objetivo:
Comparar los resultados.
-
28
Spam personalizado – Resultados
Comparativa de los resultados:
-
29
Spam personalizado – Conclusión
Es posible generar spam personalizado, usando
información pública de las redes sociales,
incrementando el ratio de respuesta.
-
30
Spam personalizado – Consideraciones éticas
Trabajamos para mejorar la seguridad online,
usamos la información de los usuarios para
protegerlos en el futuro.
Usamos únicamente información pública de las
redes sociales.
No atacamos cuentas, contraseñas o áreas privadas.
Los atacantes utilizan esta información, si usamos la
misma información y actuamos como ellos,
defenderemos mejor a los usuarios.
-
31
Análisis de sentimiento - Objetivo
Mejorar los ratios de filtrado spam utilizando técnicas
de análisis de sentimiento.
-
32
Análisis de sentimiento – Definición
"Proceso computacional para la identificación y
categorización de opiniones expresadas en textos"
[Oxford Dictionaries]
Interesante para extraer la polaridad de los textos (positivo,
negativo, neutral).
-
33
Análisis de sentimiento – Propuesta
1. Filtrado spam bayesiano
2. Analisis de sentimiento
-
34
Análisis de sentimiento – Propuesta
Todos los experimentos son testeados usando la
validación cruzada en 10 carpetas.
Los resultados se analizan tomando en cuenta el
accuracy y el número de falsos positivos.
-
35
Análisis de sentimiento – Filtrado bayesiano
Objetivo: identificar los 10 mejores clasificadores y
las mejores configuraciones.
-
36
Análisis de sentimiento – Filtrado bayesiano
Clasificadores:
Bayesian Logistic Regression.
Complement Naive Bayes.
DMNBtext.
Naive Bayes.
Naive Bayes Multinomial.
Naive Bayes Multinomial Updateable.
Naive Bayes Updateable.
Support Vector Machines.
Decision Tree.
Random Tree.
Forest of Random Trees.
Adaptive Boosting Meta-Algorithm with Naive Bayes.
Filtros:
String to word vector.
Attribute selection ranker.
-
37
Análisis de sentimiento – Analizadores
Analizadores propios:
Diccionario usado: SentiWordNet [12].
Desarrollos: Adjetivo, Adverbio, Verbo, Nombre, AllPositions.
TextBlob [13]:
API que ofrece varios servicios de PLN.
[12] S. Baccianella, A. Esuli and Fabrizio Sebastiani. SentiWordNet 3.0: An Enhanced Lexical Resource for Sentiment
Analysis and Opinion Mining. LREC 2010.
[13] Public URL: http://textblob.readthedocs.org/en/dev/
-
38
Análisis de sentimiento
Identificación de los mejores clasificadores:
-
39
Análisis de sentimiento
-
40
Análisis de sentimiento
-
41
Análisis de sentimiento – Conjuntos de datos
Email spam:
CSDMC 2010 Spam Corpus [14]
TREC 2007 Public Corpus [15]
SMS spam:
SMS Spam Collection v.1 [16]
British English SMS corpora [17]
Social media spam:
Youtube Comments Dataset [18]
[14] http://www.csmining.org/index.php/spam-email-datasets-.html
[15] http://plg.uwaterloo.ca/ gvcormac/treccorpus07/
[16] http://www.dt.fee.unicamp.br/ tiago/smsspamcollection/
[17] https://goo.gl/UUgl4X
[18] http://mlg.ucd.ie/yt/
-
42
Análisis de sentimiento – Descriptivo - Email
Comparación entre analizadores:
Media de los mejores analizadores:
-
43
Análisis de sentimiento – Resultados - Email
Dataset: CSDMC 2010:
Mejor precisión: desde 99.15% a 99.21%.
Con el mejor analizador de sentimiento: 8 mejor, 1 igual, 1 peor.
Dataset: TREC 2007:
Mejor precisión: desde 98.98% a 99.10%.
En todos los casos, salvo uno, la precisión mejora.
Reducción del número de falsos positivos.
-
44
Análisis de sentimiento – Descriptivo - SMS
Comparación entre analizadores:
Media de los mejores analizadores:
-
45
Análisis de sentimiento – Resultados - SMS
Dataset: SMSSpam:
Mejor precisión: desde 98.85% a 98.91%.
En la mitad de los casos la precisión mejora.
0 falsos positivos con 98.67%.
Dataset: BritishSMS:
Mejor precisión: el mismo (97.49%).
Usando el mejor analizador de sentimiento:
□ Precisión: 5 mejor, 4 igual, 1 peor.
□ Reducción del número de falsos positivos en casi todos los casos.
-
46
Análisis de sentimiento – Descriptivo -
Social Media Spam Se utilizan los mismos analizadores que en los
email.
Media de los mejores analizadores:
-
47
Análisis de sentimiento – Resultados -
Social Media Spam
Comentarios de Youtube:
Mejor precisión: desde 82.50% a 82.53%.
La precisión se mejorar en la mitad de los casos.
El número de falsos positivos se reduce en todos los casos.
-
48
Análisis de sentimiento – Conclusiones
El spam en emails y SMS es más positico que el legítimo,
mientras que en los comentarios de las redes sociales el
spam es más negativo.
Demostramos que el análisis de sentimiento del texto
ayuda en la detección de spam.
En tres diferentes escenarios los resultados en terminos
de precisión son mejores, y el número de falsos positivos
se reduce.
Aunque la diferencia parece pequeña, si tenemos en
cuenta el tráfico real del spam, la mejoría es significativa.
-
49
Reconocimiento de personalidad - Objetivo
Demostrar que el reconocimiento de personalidad
puede ayudar en la mejora del filtrado spam.
-
50
Reconocimiento de personalidad – Definición
Modelos para explicar la personalidad de cada
persona en pocos términos estables y medibles [19].
[19] A. Vinciarelli and G. Mohammadi. A survey of personality computing. Affective Computing, IEEE Transactions on,
5(3):273–291, 2014.
-
51
Reconocimiento de personalidad – Propuesta
1. Bayesian spam filtering: to identify the best
classifiers.
2. Personality recognition.
-
52
Reconocimiento de personalidad – Propuesta
Myers-Briggs personality model
4 dimensions:
□ Attitude: Extroversion or Introversion
□ Judging Function: Thinking or Feeling
□ Lifestyle: Judging or Perceiving
□ Perceiving Function: Sensing or iNtuition
Se ha utilizado un servicio web publicamente disponible en:
www.uClassify.com
www.uClassify.com
-
53
Reconocimiento de personalidad
-
54
Reconocimiento de personalidad
-
55
Reconocimiento de personalidad – Email
Análisis descriptivo:
-
56
Reconocimiento de personalidad – Email
Dataset: CSDMC 2010:
Usando las cuatro dimensiones, los resultados no se mejoran.
Usando la dimensión Sensing:
□ Precisión: 5 mejor, 4 igual, 1 peor.
□ El número de falsos positivos es reducido en un caso.
Dataset: TREC 2007:
Mejor precisión: desde 98.98% a 99.13%.
La precisión mejora en todos los casos.
El número de falsos positivos: 5 reducidos, 1 igual, 4
incrementados.
-
57
Reconocimiento de personalidad – SMS
Análisis descriptivo:
-
58
Reconocimiento de personalidad – SMS
Dataset: SMSSpam:
Mejor precisión: desde 98.85% a 98.94%.
Precisión: 8 mejor, 2 peor.
El número de falsos positivos es reducido en todos los casos.
Dataset: BritishSMS:
Mejor precisión: el mismo (97.49%).
Precisión: 7 mejor, 2 igual, 1 peor.
El número de falsos positivos: 6 reducidos, 4 igual.
-
59
Reconocimiento de personalidad -
Social Media Spam Análisis descriptivo:
-
60
Reconocimiento de personalidad -
Social Media Spam
Comentarios de Youtube:
Usando todas las dimensiones:
□ La precisión se mejora en dos casos.
□ Gran reducción del número de falsos positivos.
Usando la dimensión Thinking:
□ Precisión: 4 mejor, 1 igual, 5 peor.
□ El número de falsos positivos es reducido en todos los casos.
-
61
Reconocimiento de personalidad -
Conclusiones
En la mayoría de los casos los resultados son
mejorados: precisión y número de falsos positivos.
Se demuestra que es posible mejorar los ratios de
filtrado de spam utilizando técnicas de
reconocimiento de personalidad.
-
62
Combinación - Objetivo
Demostrar que la combinación de técnicas de análisis
de sentimiento y el reconocimiento de personalidad
pueden mejorar los resultados de clasificación de
spam.
-
63
Combinación - Propuesta
-
64
Combinación - Propuesta
-
65
Combinación - Resultados
Reducción del numero de falsos positivos en la
mayoría de los casos.
-
66
Combinación - Conclusiones
La combinación del análisis de sentimiento y el
reconocimiento de personalidad mejora los
resultados del filtrado spam.
El método propuesto ha sido validado en tres
diferentes tipos de spam y utilizando diferentes
dataset en cada uno.
-
67
Resumen - Contribuciones
Hemos evaluado las posibilidades de crear spam
personalizado que alcance ratios de click-through
muy superiores a los del spam 'típico'.
-
68
Resumen - Contribuciones
Se han mejorado los resultados de clasificación de
spam actuales aplicando técnicas de análisis de
sentimiento.
-
69
Resumen - Contribuciones
Hemos demostrado que es posible mejorar el filtrado
de spam usando técnicas de reconocimiento de
personalidad.
-
70
Resumen - Contribuciones
Hemos creado un nuevo metodo que combinando
análisis de sentimiento y reconocimiento de
personalidad es capaz de detectar intencionalidad
no evidente en textos spam.
-
71
Resumen – Líneas futuras
Spam personalizado:
Analizar la influencia de las plantillas utilizadas (estilo,
contenido, estilo de escritura).
Realizar los experimentos dentro de las redes sociales.
Analizar la efectividad de la personalización en otro tipo de
ataques: phishing, scam, etc.
-
72
Resumen – Líneas futuras
Análisis de sentimiento:
Utilizar clasificadores de sentimiento basados en el aprendizaje.
Utilizar dataset especificos para el aprendizaje.
Técnicas de análisis de contenido:
Analizar la posibilidad de usar otras características lingüísticas.
Crear un corpus de intencionalidad.
-
73
Publicaciones en revistas
1. Ezpeleta, E., U. Zurutuza, y J. M. Gómez Hidalgo. 2016. A study of the
personalization of spam content using facebook public information. Logic
Journal of IGPL, Volume 25, Issue 1, 1 February 2017, Pages 30-41.
2. Ezpeleta, E., U. Zurutuza, y J. M. G. Hidalgo. 2016. Using personality
recognition techniques to improve bayesian spam filtering. Procesamiento del
Lenguaje Natural, 57:125-132.
3. Ezpeleta, E., U. Zurutuza, y J. M. G. Hidalgo. 2017. Short messages spam
filtering combining personality recognition and sentiment analysis.
International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems.
In press.
-
74
Publicaciones en conferencias internacionales
1. Ezpeleta, E., I. Garitano, I. Arenaza-Nuño, U. Zurutuza, y J. M. G. Hidalgo. 2017.
Novel comment spam filtering method on youtube: Sentiment analysis and
personality recognition. En Proceedings of Current Trends In Web Engineering
- ICWE 2017 International Workshops. Springer International Publishing.
2. Ezpeleta, E., U. Zurutuza, y J. M. Gómez Hidalgo, 2016. Does Sentiment
Analysis Help in Bayesian Spam Filtering?, páginas 79-90. Springer
International Publishing.
3. Ezpeleta, E., U. Zurutuza, y J. M. Gómez Hidalgo, 2016. Short Messages Spam
Filtering Using Sentiment Analysis, páginas 142-153. Springer International
Publishing.
4. Ezpeleta, E., U. Zurutuza, y J. M. G. Hidalgo, 2015. An Analysis of the
Effectiveness of Personalized Spam Using Online Social Network Public
Information, páginas 497-506. Springer International Publishing.
-
75
Publicaciones en conferencias nacionales
1. Ezpeleta, E. 2017. Segundo premio al mejor trabajo de estudiante: Nuevos
Paradigmas de Análisis Basados en Contenidos para la Detección del Spam en
RRSS. III Jornadas Nacionales de Investigación en Ciberseguridad, JNIC2017.
2. Ezpeleta, E., U. Zurutuza, y J. M. Gómez Hidalgo. 2016. Short messages spam
filtering using personality recognition. En Proceedings of the 4th Spanish
Conference on Information Retrieval, CERI '16, páginas 7:1–7:7, New York, NY,
USA. ACM.
3. Ezpeleta, E., U. Zurutuza, y J. M. Gómez Hidalgo. 2016. Los spammers no
piensan: usando reconocimiento de personalidad para el filtrado de spam en
mensajes cortos. En Actas de la XIV Reunión Española sobre Criptologı́a y
Seguridad de la Información.
-
Gracias por su atención