BIENVENIDOSDEFENSA DE TESINA
MAYO 2015
UNIVERSIDAD MAGISTER
UNIVERSIDAD MAGISTER
EVALUACIÓN DEL SISTEMA DE PROCESAMIENTO DE GRANDES
VOLÚMENES DE DATOS CIENTÍFICOS EN LA ESCUELA DE FÍSICA DE LA
UNIVERSIDAD DE COSTA RICA
GUSTAVO GARBANZO SALAS
PREFACIO
• UCR, PROYECTOS DE INVESTIGACIÓN, C.A.D, GRANDES VOLÚMENES
DE DATOS.
• PROPÓSITO GENERAL DEL ESTUDIO “EVALUACIÓN DEL SISTEMA
ACTUAL DE PROCESAMIENTO DE DATOS CON EL FIN DE DISEÑAR
UNO MÁS ACORDE A LAS NECESIDADES Y CAPACIDADES”
• DESCRIPCIÓN DEL CONTENIDO POR CAPÍTULO
INTRODUCCIÓN
ANTECEDENTES
• Computación científica, Guy de Téramond, Jorge Páez, WalterFernández.
JUSTIFICACIÓN
• Renovación de personal, PhD afuera, sistemas actuales, nuevastécnicas de programación, más necesidades por proyecto.
FORMULACIÓN DEL PROBLEMA
• ¿Cómo procesa actualmente la Escuela de Física de la Universidadde Costa Rica los altos volúmenes de datos científicos de susproyectos de investigación?
INTRODUCCIÓN
OBJETIVO GENERAL
• Analizar los sistemas actuales con que cuenta la Escuela de Física
de la Universidad de Costa Rica para el procesamiento de grandes
volúmenes de datos científicos de los proyectos de investigación
con el fin de que se diseñe un Sistema de Computación de Alto
Rendimiento.
INTRODUCCIÓN
OBJETIVOS ESPECÍFICOS
• Diagnosticar la situación actual del sistema de procesamiento.
• Determinar las necesidades en infraestructura en computación de
alto desempeño.
• Establecer los requerimientos mínimos de una plataforma de
computación de alto desempeño para que cumpla con las
necesidades.
• Proponer el diseño de una arquitectura de software y hardware para
un nuevo sistema de computación de alto desempeño para el
procesamiento.
INTRODUCCIÓN
VARIABLES DE INVESTIGACIÓN
• Situación actual del sistema de procesamiento de grandes
volúmenes de datos científicos.
• Rendimiento actual del sistema de procesamiento de grandes
volúmenes de datos científicos.
• Necesidades de computación de alto desempeño en los proyectos
científicos.
• Establecer los requerimientos mínimos de un sistema de
procesamiento de alto desempeño.
MARCO TEÓRICO
Universidad de Costa Rica, Escuela de Física.
CONCEPTOS
• Ingeniería
• Ingeniería en sistemas
•Computación de alto desempeño
•Grandes volúmenes de datos
• Procesamiento
MARCO METODOLÓGICO
• Investigación exploratoria
• Investigación descriptiva
• Sujetos y fuentes de información
• Población y muestra
MARCO METODOLÓGICO
• INTRUMENTOS TÉCNICOS DE RECOLECCIÓN DE DATOS
• HERRAMIENTAS PARA EL PROCESAMIENTO DE LA INFORMACIÓN
ANÁLISIS E INTERPRETACIÓN DE RESULTADOS
• GRUPOS DE GRÁFICOS MÁS REPRESENTATIVOS.
ANÁLISIS E INTERPRETACIÓN DE RESULTADOS
34%
58%
8%
20-34
35-64
65 o más
GRUPO 1 INFORMACIÓN PERSONAL Y EXPERIENCIA DEL INVESTIGADOR EN C.A.D.
41%
17%
17%
25%
1-5
6-10
11-20
21 o más
RANGO DE EDAD DEL INVESTIGADOR
TIEMPO DE INVESTIGACIÓN UCR
ANÁLISIS E INTERPRETACIÓN DE RESULTADOS
83%
17%
Sí
No
GRUPO 1 INFORMACIÓN PERSONAL Y EXPERIENCIA DEL INVESTIGADOR EN C.A.D.
CONOCIMIENTO EN SISTEMAS C.A.D.
ACCESO A SISTEMA DE C.A.D. C.I
83%
17%
Sí
No
ANÁLISIS E INTERPRETACIÓN DE RESULTADOS
GRUPO 2 SITUACIÓN ACTUAL DEL SISTEMA
PROCESAMIENTO DE DATOS
CARACTERÍSTICAS DEL SISTEMA
17%
8%
67%
0%8%Estación de Trabajo de la
UCR
Computadora personal
Ambas
No los procesa usted
HPC
45%
25%
15%
15%
UPS
RAM ECC
RAID 1 ó 5
Ninguna de las Anteriores
ANÁLISIS E INTERPRETACIÓN DE RESULTADOS
GRUPO 2 SITUACIÓN ACTUAL DEL SISTEMA
REGISTRO DE HORAS DE CÁLCULO POR PROYECTO
CONTROL DE COLAS DE TRABAJO
42%
25%
8%
25%
Sí
No
No se
Un trabajo a la vez
16%
0%
17%
67%
Usted
Sección
Centro de Investigación
No se tiene registro
ANÁLISIS E INTERPRETACIÓN DE RESULTADOS
GRUPO 3 RENDIMIENTO ACTUAL DEL SISTEMA
CALIFICACIÓN DEL SISTEMA DE PROCESAMIENTO
HORAS CÁLCULO DE PROCESAMIENTO
8%
67%
17%
8%
Excelente
Bueno
Regular
Malo
50%
8%0%
42% Meno de 8 horas
9-16 horas
17-24 horas
Más de 24 horas
ANÁLISIS E INTERPRETACIÓN DE RESULTADOS
GRUPO 4 NECESIDADES DE COMPUTACIÓN DE ALTO DESEMPEÑO
PROGRAMACIÓN DE LAS APLICACIONES DE PROCESAMIENTO
TIPO DE PROCESAMIENTO DE DATOS
58%
0%
42%Usted
Terceros
Ambos
41%
53%
6%
Serie
Paralelo
Lo desconozco
ANÁLISIS E INTERPRETACIÓN DE RESULTADOS
GRUPO 4 NECESIDADES DE COMPUTACIÓN DE ALTO DESEMPEÑO
FORMACIÓN A ESTUDIANTES EN PROGRAMACIÓN EN
PARALELO
LENGUAJE DE PROGRAMACIÓN MÁS COMÚN
100%
0%
Sí
No
12%
19%
16%16%
3%
16%
9%3%3%3%
C
C++
Fortran
Python
Mathematica
MatLab
IDL
Ruby
Grads
BASH Shell
ANÁLISIS E INTERPRETACIÓN DE RESULTADOS
GRUPO 5 REQUERIMIENTOS MÍNIMOS DE COMPUTACIÓN DE ALTO DESEMPEÑO
REQUERIMIENTOS DE HARDWARE POR PROYECTO
SISTEMA OPERATIVO DE USO ACTUAL
8%
25%
34%
8%
8%
17%
1-10 Cores 1-10 RAM 100GB
a 1 TB
11-20 Cores 11-20 RAM 1.5-
5 TB
21-30 Cores 21-30 RAM 3.5-
5 TB
160 Cores 640 RAM 5 TB
320 Cores 420 RAM 32 TB
480 Cores 640 RAM 64 TB
5% 5%6%
39%28%
6%11%
Scientific LINUX
Mac OS X
Windows 8.1
GNU/LINUX Ubuntu
GNU/LINUX Rocks
Windows 7
GNU/LINUX CentOS
ANÁLISIS E INTERPRETACIÓN DE RESULTADOS
GRUPO 5 REQUERIMIENTOS MÍNIMOS DE COMPUTACIÓN DE ALTO DESEMPEÑO
PROBLEMAS MÁS COMUNES DEL SISTEMA
FRECUENCIA DE LOS PROBLEMAS
17%
25%
25%
8%
25%Diariamente
1-2 días por seman
3-4 días por semana
Al menos 1 vez al mes
Ocasionalmente
16%
16%
21%16%
5%5%
21%
Falta de Compiladores
Falta de Librerías
Errores de Compilación
Errores de
Procesamiento
Errores de Verificación
de Datos
ANÁLISIS E INTERPRETACIÓN DE RESULTADOS
GRUPO 5 REQUERIMIENTOS MÍNIMOS DE COMPUTACIÓN DE ALTO DESEMPEÑO
CONJUNTO DE DATOS DE ENTRADA DEL INVESTIGADOR
TOTAL DE DATOS ANALIZADOS POR PROYECTO
33%
25%
42%1-5 GB
6-10 GB
Más de 10 GB
50%
16%
17%
17%
1-2 TB
3-10 TB
11-30 TB
Más de 30 TB
CONCLUSIONES Y RECOMENDACIONES
CONCLUSIÓN RECOMENDACIÓN
• A pesar de la experiencia del
investigador en C.A.D., el equipo
que utiliza, no cuenta con las
características especializadas ni
en software ni hardware que
garanticen la adecuada gestión de
datos y resultados.
• Sugerir y desarrollar un estándar
de compra para un sistema
especializado en el procesamiento
paralelo de datos científicos de un
bajo costo pero que cumpla con
las mínimas condiciones para
asegurar la gestión adecuada de la
información.
VARIABLE 1. ESTADO ACTUAL DEL SISTEMA DE PROCESAMIENTO
CONCLUSIONES Y RECOMENDACIONES
CONCLUSIÓN RECOMENDACIÓN
• Desconocimiento de manejo de
recursos de software (gestión
multi usuarios, control de colas de
trabajo, organizadores de trabajo)
en la mayoría de estos sistemas se
cuenta con un ambiente mono
usuario y mono tarea.
• Brindar talleres y capacitaciones
sobre el adecuado uso de los
sistemas actuales, y como
implementar algunas técnicas que
pueden llegar a mejorar el
rendimiento de procesamiento de
estos sistemas.
VARIABLE 1. ESTADO ACTUAL DEL SISTEMA DE PROCESAMIENTO
CONCLUSIONES Y RECOMENDACIONES
CONCLUSIÓN RECOMENDACIÓN
• Aunque el 67% de los
investigadores cataloga su
sistema de procesamiento como
bueno, es difícil imaginar que los
tiempos de procesamiento sean
los óptimos (programación en
paralelo propia en sistemas no
aptos), además no se tiene punto
de comparación para afirmar esto.
• Proveer una plataforma de
información y registro e incentivar
una mejor cultura de
documentación y manejo de
estadísticas de cómputo para los
investigadores.
VARIABLE 2. RENDIMIENTO DEL SISTEMA DE PROCESAMIENTO
CONCLUSIONES Y RECOMENDACIONES
CONCLUSIÓN RECOMENDACIÓN
• Aunque los tiempos de
procesamiento tienen un amplio
rango, este factor justifica la
disponibilidad del sistema y es de
gran importancia a la hora de
tomar en cuenta las ventajas de
un sistema de procesamiento de
alto desempeño.
• Optimizar los sistemas actuales
para proveer un mejor
rendimiento con el fin de
minimizar los tiempos de
procesamiento de los datos de los
proyectos de investigación.
VARIABLE 2. RENDIMIENTO DEL SISTEMA DE PROCESAMIENTO
CONCLUSIONES Y RECOMENDACIONES
CONCLUSIÓN RECOMENDACIÓN
• El 58 % de los investigadores
realiza su propia programación de
aplicaciones de procesamiento y el
53% las realiza en paralelo pero
solamente el 8% utiliza sistemas
de computación de alto
desempeño para el procesamiento
de datos.
• Plantar un proyecto conjunto para
solicitar recursos para adquirir
equipo moderno de computación
de alto desempeño que posea las
facilidades y especificaciones
necesarias para ser utilizado por
un amplio grupo de
investigadores, enfocado
principalmente en aplicaciones de
VARIABLE 3. NECESIDADES EN C.D.A. DE LOS PROYECTOS DEINVESTIGACIÓN
CONCLUSIONES Y RECOMENDACIONES
CONCLUSIÓN RECOMENDACIÓN
• El 100% de los investigadores
reconoce la necesidad de impartir
un curso de programación
orientada al procesamiento de
datos en paralelo con una amplia
gama de lenguajes de
programación que utilizan los
investigadores actualmente, de los
cuales ninguno es impartido en
• Proponer la apertura de un curso
especializado en programación en
paralelo bajo sistemas de
computación de alto desempeño y
redactar un borrador sobre el
temario, el materiales y posibles
ejercicios necesarios para el curso.
VARIABLE 3. NECESIDADES EN C.D.A. DE LOS PROYECTOS DEINVESTIGACIÓN
CONCLUSIONES Y RECOMENDACIONES
CONCLUSIÓN RECOMENDACIÓN
• La mayoría de arquitecturas de
cómputo de los sistemas actuales
no cuenta con la optimización ni
de hardware ni de software
adecuada para las tareas que
realiza, esto se evidencia en los
errores y frecuencia con la que
ocurren estos.
• Formular posibles escenarios y
arquitecturas con el fin de
construir un perfil de sistema de
computación de alto desempeño
para que los investigadores logren
de una manera más rápida y fácil
identificas sus necesidades de
procesamiento sin tener que
poner a prueba un sistema en
VARIABLE 4. REQUERIMIENTOS MÍNIMOS DE UNA PLATAFORMA DEC.A.D.
CONCLUSIONES Y RECOMENDACIONES
CONCLUSIÓN RECOMENDACIÓN
• Son muchos los posibles
escenarios de requerimientos de
hardware, pero si se nota una
tendencia a sistemas de
almacenamiento intensivos,
debido a la los periodos de
investigación y el tamaño de la
colección de datos de entrada y
totales.
• Realizar un planeamiento en
conjunto con el departamento
administrativo para hacer un
pronóstico a mediano y largo
plazo con el fin de formular las
necesidades de hardware y
software especializado de acuerdo
a los investigadores que regresan
de realizar sus estudios.
VARIABLE 4. REQUERIMIENTOS MÍNIMOS DE UNA PLATAFORMA DEC.A.D.
COSTO DE LA INVESTIGACIÓN
DETALLE
CANTIDAD
DE HORAS
HOMBRE
COSTO TOTAL
(COLONES)
COSTO
TOTAL
(DÓLARES)
Seminario de
Graduación32 105 000 194
Documentación 10 200 000 370
Análisis Teórico y
Práctico del sistema36 1 200 000 2200
Materiales y fotocopias,
hojas e impresiones5 150 000 277
TOTAL 83 1 655 000 3041
PROPUESTA
PROPUESTA DE DISEÑO DE UN SISTEMA DE COMPUTACIÓN DE ALTO
RENDIMIENTO PARA LA ESCUELA DE FÍSICA DE LA UNIVERSIDAD DE COSTA
RICA.
OBJETIVO GENERAL:
• Proveer a la Escuela de Física de la Universidad de Costa Rica del diseño
básico y funcional para un primer Sistema de Computación de Alto
Desempeño (SICAD) para el procesamiento de grandes volúmenes de
datos de proyectos de investigación científica.
PROPUESTA
OBJETIVOS ESPECÍFICOS:
• Diseñar una arquitectura de hardware y software básico para el
S.I.C.A.D. con el fin de que se procese mejor los grandes volúmenes
de datos científicos de los proyectos de investigación de la Escuela
de Física de la Universidad de Costa Rica.
• Implementar el diseño formulado en la propuesta en el S.I.CA.D. de
prueba con que cuenta actualmente la Escuela de Física de la
Universidad de Costa Rica.
PROPUESTA
DESARROLLO DEL DISEÑO BASADO EN UML
• Etapa 1: Infraestructura del sistema
• Etapa 2: Comportamiento del sistema
• Etapa 3: Interacción con el sistema
PROPUESTA
ETAPA 1: INFRAESTRUCTURA DEL SISTEMA
En esta etapa se estudian las necesidades, se establecen los
requerimientos del sistema, se verifican aspectos como el espacio
físico que ocupa el sistema, la capacidad eléctrica y de red del lugar,
se instala la plataforma física del sistema (servidores y nodos de
procesamiento y de almacenamiento), se configuran los equipos,
servicios necesarios y se realizan pruebas y depuraciones al sistema.
PROPUESTAETAPA 1: INFRAESTRUCTURA DEL SISTEMA
PROPUESTAETAPA 1: INFRAESTRUCTURA DEL SISTEMA
PROPUESTAETAPA 1: DIAGRAMA DE DISTRIBUCIÓN
PROPUESTA
ETAPA 2: COMPORTAMIENTO DEL SISTEMA
• En esta etapa del diseño se analiza el comportamiento de sistema
ensamblado en la etapa uno se verifican el óptimo funcionamiento
y rendimiento de todos los servidores y servicios que integran la
solución y se hacen las simulaciones necesarias de prueba, se
buscan principales fuentes de error y se estudia el rendimiento del
sistema.
PROPUESTAETAPA 2: COMPORTAMIENTO DEL SISTEMA
PROPUESTAETAPA 2: COMPORTAMIENTO DEL SISTEMA
PROPUESTA
ETAPA 2: COMPORTAMIENTO
DEL SISTEMA
PROPUESTA
ETAPA 3: INTERACCIÓN DEL SISTEMA
• En esta etapa del diseño se describe la interacción del
sistema de computación de alto desempeño con los
usuarios finales y su capacidad de procesar múltiples
envíos de trabajos provenientes de múltiples usuarios
simultáneamente.
PROPUESTAETAPA 3: INTERACCIÓN DEL SISTEMA
PROPUESTAETAPA 3: INTERACCIÓN DEL SISTEMA
PROPUESTA
ETAPA 3: INTERACCIÓN
DEL SISTEMA
PROPUESTA
IMPACTOS
• INSTITUCIONAL
• SOCIAL
• ECONÓMICO
• AMBIENTAL
INVESTIGACIONES DERIVADAS
• Realizar un estudio del consumo eléctrico de los sistemas de
procesamiento de grandes volúmenes de datos científicos de los
proyectos de investigación.
• Implementar un manual de mejores prácticas, uso y mantenimiento
para una infraestructura básica de computación de alto desempeño.
• Realizar un estudio de viabilidad para la implementación de un
sistema de archivos por red de alto desempeño, como por ejemplo
LustreFS.
F.O.D.A.
FORTALEZAS OPORTUNIDADES
Infraestructura de red interna Donaciones de equipo
Personal Capacitado Presupuestos extraordinarios
Equipos de prueba Proveedores Nacionales
DEBILIDADES AMENAZAS
Capacidad de carga eléctrica del edificio Cambios en las políticas de donación de equipo UCR
Presupuesto para equipo de cómputo Conflictos internos centros de investigación – Escuela
Objetivos de la Dirección Cambios en las políticas de uso Centro de Informática
COSTO DE LA PROPUESTA
DETALLECANTIDAD DE
HORAS HOMBRE
COSTO
TOTAL
(COLONES)
COSTO
TOTAL
(DÓLARES)
Técnico especializado 168 1 932 000 3577
Ingeniero en sistemas 140 17 280 000 32 000
Capacitaciones del
personal encargado de la
instalación y
configuración
80 4 400 000 8000
Equipos de HPC 14 Servidores 6 500 000 12 000
Equipos de red 1 Switch capa 3 1 600 000 3000
TOTAL 388 31 712 000 58 577
MUCHAS GRACIASDEFENSA DE TESINA
MAYO 2015
UNIVERSIDAD MAGISTER