monitorizaciÓn y anÁlisis de trÁfico de red con apache hadoop

18
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP Rubén García-Valcárcel, Rafael Leira, Iván González, Jorge E. López de Vergara [email protected], {rafael.leira, ivan.gonzalez, jorge.lopez_vergara}@uam.es JITEL 2015 – 15 de Octubre de 2015

Upload: jorge-e-lopez-de-vergara-mendez

Post on 12-Apr-2017

287 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP

MONITORIZACIÓN Y ANÁLISIS DE TRÁFICODE RED CON APACHE HADOOP

Rubén García-Valcárcel, Rafael Leira, Iván González,Jorge E. López de Vergara

[email protected], {rafael.leira, ivan.gonzalez,jorge.lopez_vergara}@uam.es

JITEL 2015 – 15 de Octubre de 2015

Page 2: MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP

IntroducciónEstado del arte

Sistema propuestoExperimentosConclusiones

Tabla de contenidos

1 Introducción

2 Estado del arte

3 Sistema propuestoArquitectura de la redSistema de capturaArquitectura del sistemaProcesamiento en Hadoop

4 ExperimentosAnálisis mediante HiveRendimiento

Sistemas utilizadosComparativa global

5 Conclusiones

R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 2

Page 3: MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP

IntroducciónEstado del arte

Sistema propuestoExperimentosConclusiones

Introducción

Objetivo: Monitorización pasiva y Análisis de redes decomunicaciones.

Necesidad de un sistema escalable y fiable frente al crecimientoexponencial de las redes

Diseño de un sistema para la captura, el almacenamiento, elprocesamiento y el análisis de tráfico de red basado en Hadoop

Evaluación del sistema mediante la monitorización de la red de loslaboratorios docentes de la Escuela Politécnica Superior (en laUAM).

R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 3

Page 4: MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP

IntroducciónEstado del arte

Sistema propuestoExperimentosConclusiones

Estado del arte

Herramientas habituales para la captura y procesamiento de tráficoBajas tasas de red (tcpdump, wireshark...)Altas tasas de red

APIs de alta velocidad (Intel DPDK...)Hardware dedicado (GPUs, FPGAs...)

Computación distribuidaGoogle: GFS y MapReduceApache: HDFS y YARN

Procesamiento de tráfico mediante Hadoop[RIPE]: Pesada, lenta y limitada. Librerías de terceros[Yeonhee Lee]: Heurística de fragmentado PCAP. Código liberadoincompleto

R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 4

Page 5: MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP

IntroducciónEstado del arte

Sistema propuestoExperimentosConclusiones

Arquitectura de la redSistema de capturaArquitectura del sistemaProcesamiento en Hadoop

Sistema propuestoArquitectura de la red de prueba

Red interna

Internet

Sonda decaptura

Firewall

Hadoop

TAP

Servidor DNS

R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 5

Page 6: MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP

IntroducciónEstado del arte

Sistema propuestoExperimentosConclusiones

Arquitectura de la redSistema de capturaArquitectura del sistemaProcesamiento en Hadoop

Sistema de capturaFlowProcess

La sonda de captura:Almacena los paquetes:

En formato PCAPTruncados a 300 bytes (por motivos de privacidad, también reduce elespacio consumido)Crea archivos de aproxidamente 1 GB

La sonda descarta los paquetes que contengan la dirección IP de lapropia sonda.

Genera archivos en texto plano con información relativa a los flujos(Netflow extendido)

R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 6

Page 7: MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP

IntroducciónEstado del arte

Sistema propuestoExperimentosConclusiones

Arquitectura de la redSistema de capturaArquitectura del sistemaProcesamiento en Hadoop

Sistema propuestoArquitectura del sistema

HadoopAnálisisPreprocesamientoCaptura

PCAPs

Flujos

DNS

HTTP

HTTPS

Tareas MapReduce

Hive

PCAPs

Tablas

Gráficas

Deseria-lizador

PrediccionesWeka

Admin

Sonda decaptura

R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 7

Page 8: MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP

IntroducciónEstado del arte

Sistema propuestoExperimentosConclusiones

Arquitectura de la redSistema de capturaArquitectura del sistemaProcesamiento en Hadoop

Procesamiento

Se parte del trabajo de [RIPE], pero:Se han reimplementado de los disectores de HTTP y DNSImplementación de un nuevo disector de HTTPS

Mejora de rendimientoEliminación del reensamblado TCPGuardado de los campos en estructuras fijas en lugar de una tablahash.

R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 8

Page 9: MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP

IntroducciónEstado del arte

Sistema propuestoExperimentosConclusiones

Análisis mediante HiveRendimiento

ExperimentosAnálisis mediante Hive

R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 9

Page 10: MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP

IntroducciónEstado del arte

Sistema propuestoExperimentosConclusiones

Análisis mediante HiveRendimiento

ExperimentosAnálisis mediante Hive

Series temporales del consumo de la red por días (periodo 20/02/15 − 01/05/15)

Series temporales del consumo de la red por horas (periodo 16/03/15 − 20/03/15)

R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 10

Page 11: MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP

IntroducciónEstado del arte

Sistema propuestoExperimentosConclusiones

Análisis mediante HiveRendimiento

ExperimentosAnálisis mediante Hive

Bytes (exterior) y flujos (interior) usados por cada protocolo y puerto

R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 11

Page 12: MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP

IntroducciónEstado del arte

Sistema propuestoExperimentosConclusiones

Análisis mediante HiveRendimiento

ExperimentosAnálisis mediante Hive

Las 16 asignaturas que más han consumido (periodo 02/02/15 − 01/05/15)

R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 12

Page 13: MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP

IntroducciónEstado del arte

Sistema propuestoExperimentosConclusiones

Análisis mediante HiveRendimiento

ExperimentosAnálisis mediante Hive

Ordenadores encendidos cada noche (periodo 02/02/15 − 01/05/15)

Ordenadores inactivos cada semana (periodo 02/02/15 − 01/05/15)

R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 13

Page 14: MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP

IntroducciónEstado del arte

Sistema propuestoExperimentosConclusiones

Análisis mediante HiveRendimiento

ExperimentosAnálisis mediante Hive

Páginas web más solicitadas vía HTTP (izquierda) y HTTPS (derecha)

agrupadas por dominio de segundo nivel

R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 14

Page 15: MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP

IntroducciónEstado del arte

Sistema propuestoExperimentosConclusiones

Análisis mediante HiveRendimiento

Pruebas de rendimientoSistemas utilizados

Características de los sistemas de pruebasSistema

RAMDiscos CPU

Total Red(GB) cores (Gbps)

Hadoop

Esclavo 1 32 5x 3 TB 1x Xeon L5408 @ 2,13 GHz 4 1Esclavo 2 32 5x 3 TB 1x Xeon L5408 @ 2,13 GHz 4 1Esclavo 3 256 4x 3 TB 4x Xeon E7-4830 @ 2,13 GHz 32 1Esclavo 4 64 7x 3 TB 2x Xeon E5-2620 v3 @ 2,40 GHz 12 1Esclavo 5 64 7x 3 TB 2x Xeon E5-2620 v3 @ 2,40 GHz 12 1

Servidor Alto Rendimiento 32 RAID 0: 9x 3 TB 2x Xeon E5-2630 @ 2,6 GHz 12 -[Y. Lee] (30 nodos) 30x 19 30x 4 TB 30x 8 cores @ 2,93 GHz 240 1

R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 15

Page 16: MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP

IntroducciónEstado del arte

Sistema propuestoExperimentosConclusiones

Análisis mediante HiveRendimiento

Pruebas de rendimientoComparativa global

Rendimiento de cada sistema al procesar 1 TB

Programa Gbps Gbps/core

Hadoop

Disector HTTP 7,13 0,11Disector HTTPS 7,41 0,12Disector DNS 7,72 0,12Test de lectura 4,98 0,08

Disector HTTP serie (en c) en S.A.R. 4,21 4,21 (1 core)

Versión de [Y. Lee]5 nodos 1,9 0,0530 nodos 14,0 0,06

R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 16

Page 17: MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP

IntroducciónEstado del arte

Sistema propuestoExperimentosConclusiones

Conclusiones

Se ha creado una batería de consultas en Hive, y un medio paracrear nuevos análisis de la red.

El proyecto Apache Hadoop permite escalar horizontalmente confacilidad.

Con un bajo coste de desarrollo se han alcanzado 7 Gbps.

Se pretende integrar el sistema con otros de Big Data como ApacheMahout, extendiendo así sus capacidades.

No obstante Hadoop tiene limitaciones: Java,homogeneidad/heterogeneidad del clúster, etc.

Dichas limitaciones se pretenden superar investigando en el campodel almacenamiento (HDFS), así como en las posibles uniones deHadoop con hardware específico (GPUs, FPGAs...) con el objetivode crear un sistema más económico y estable.

R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 17

Page 18: MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP

IntroducciónEstado del arte

Sistema propuestoExperimentosConclusiones

Gracias por su atención

R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 18