técnicas de preprocesamiento para la clasificación de

18
Universidad Autónoma de Ciudad Juárez Instituto de Ingeniería y Tecnología Departamento de Ingeniería Eléctrica y Computación Técnicas de Preprocesamiento para la Clasificación de Grandes Volúmenes de Datos no Balanceados Dr. Vicente García Jiménez Responsable Técnico Febrero de 2015

Upload: others

Post on 23-Oct-2021

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Técnicas de Preprocesamiento para la Clasificación de

Universidad Autónoma de Ciudad Juárez Instituto de Ingeniería y Tecnología

Departamento de Ingeniería Eléctrica y Computación

Técnicas de Preprocesamiento para la Clasificación de Grandes Volúmenes de

Datos no Balanceados

Dr. Vicente García Jiménez Responsable Técnico

Febrero de 2015

Page 2: Técnicas de Preprocesamiento para la Clasificación de

1  

Índice de Contenido

Resumen  ..............................................................................................................................  2  

Introducción y Antecedentes  ............................................................................................  2  

Problema  ..............................................................................................................................  5  

Justificación  ........................................................................................................................  6  

Hipótesis  ..............................................................................................................................  7  

Objetivos  ..............................................................................................................................  7  Objetivo  General  ..............................................................................................................................  7  Objetivos  Específicos  ........................................................................................................................  7  

Metas  .....................................................................................................................................  8  Académicas  ......................................................................................................................................  8  Recursos  Humanos  ...........................................................................................................................  8  Científica  o  Investigación  ..................................................................................................................  8  

Metodología  .........................................................................................................................  9  

Programación de Actividades  ..........................................................................................  11  

Infraestructura Disponible  ................................................................................................  12  

Incidencia del Proyecto en el Programa Integral de Fortalecimiento Institucional (PIFI)  .....................................................................................................................................  13  

Desglose Financiero  ..........................................................................................................  14  

Referencias  .........................................................................................................................  15  

Page 3: Técnicas de Preprocesamiento para la Clasificación de

2  

Técnicas de Preprocesamiento para la Clasificación de Grandes Volúmenes de Datos no Balanceados

Resumen

Este proyecto de investigación se enmarca principalmente dentro de las áreas de

aprendizaje automático y reconocimiento de patrones. Nuestro enfoque está orientado

al desarrollo y adaptación de metodologías y modelos de preprocesamiento y

clasificación en situaciones y casos de un enorme interés práctico donde el

denominador común es el elevado volumen de los datos. Más concretamente, se

propone centrar la investigación en el análisis y tratamiento de una complejidad que se

presenta en los datos llamada clases no balanceadas, la cual afecta al rendimiento del

sistema de clasificación. Aunque este problema ya ha sido ya estudiado, en mayor o

menor profundidad, dentro de los paradigmas clásicos de aprendizaje automático y

reconocimiento de patrones, hasta ahora existen pocos conocimientos sólidos que

permitan tratarlos en un contexto de grandes volúmenes de datos o Big Data. Para este

fin, se analizarán cuestiones relativas a la escalabilidad de algoritmos de

preprocesamiento en un entorno Hadoop, así como la posibilidad de adaptarse a estos

entornos.

Introducción y Antecedentes

Los avances y progresos en informática y tecnologías relacionadas, así como la gran

revolución digital han hecho posible que la información que generan organizaciones y

diversas fuentes autónomas (dispositivos móviles, cámaras de vídeo, sistemas GPS,

sensores, medidores inteligentes, micrófonos, etc.) sea fácil de capturar, almacenar,

distribuir y transmitir. Esto ha ocasionado que las organizaciones cuenten con una

vasta cantidad de información disponible, la cual ha ido creciendo de forma exponencial

y espectacular. En este sentido, IBM reporta que el 90% de los datos que existen

actualmente a nivel mundial han sido creados en los últimos dos años y que,

diariamente, se generan alrededor de 2’5 quintillones de bytes de datos. Esta

Page 4: Técnicas de Preprocesamiento para la Clasificación de

3  

acumulación masiva de datos la podemos encontrar en aplicaciones de muy distintas

áreas científicas, empresariales e industriales: redes sociales (en Twitter son cerca de

12 Terabytes de mensajes creados diariamente y Facebook almacena alrededor de 100

Petabytes de fotos y vídeos), transacciones financieras (unos 50 billones de

transacciones al año), telecomunicaciones, imágenes satelitales y médicas de alta

resolución, búsquedas en Internet (se estima que Google recibe algo más de 2 millones

de peticiones/minuto), registros sanitarios electrónicos, sistemas de recomendación,

subastas y compras en línea, análisis de datos, biológicos y bioquímicos, sistemas de

geo-localización, monitorización de datos atmosféricos y medioambientales, sistemas

de control y vídeo-vigilancia, etc. Bajo este nuevo escenario, el término en inglés Big

Data (grandes volúmenes de datos o macrodatos) hace referencia al continuo

incremento global de datos y cuyos rasgos definitorios vienen determinados por su

volumen, su velocidad y su variedad (las tres “v” que hay que tener en cuenta en la

gestión del Big data [Laney2001]), modificando de este modo cualquier concepción

anterior sobre las bases de datos. Hoy en día, muchos investigadores introducen dos

nuevas dimensiones a este fenómeno: la veracidad, que hace referencia a las posibles

ambigüedades, inconsistencias y latencias que puedan contener los datos, y el valor,

que se refiere a la necesidad de transformar los datos en información fiable que

proporcione una importante ventaja competitiva a las organizaciones [Fan2012].

Aunque procesar y analizar diferentes tipos de datos información es una tarea

comúnmente abordada en diferentes campos científicos, el gran reto actual reside en la

escala en la que estos datos son generados [Jacobs2009] y, en última instancia, el

objetivo es aumentar y mejorar la capacidad de extraer conocimiento, patrones y

relaciones a partir de las grandes cantidades de datos que se producen y almacenan

diariamente. Sin embargo, las propias características inherentes de Big Data hacen

imposible el uso efectivo de las tecnologías, las herramientas y los métodos

tradicionales utilizados para el análisis, tratamiento y procesado de los datos

[Dumbill2013, Suthaharan2014]. En consecuencia, la investigación en este campo va

generalmente dirigida al desarrollo de nuevas arquitecturas y tecnologías y la

adaptación de algoritmos y métodos convencionales que permitan recopilar, almacenar,

Page 5: Técnicas de Preprocesamiento para la Clasificación de

4  

procesar, modelar, indexar, consultar y visualizar datos a gran escala con el fin de

extraer conocimiento e interpretarlo. Centrándonos en el aprendizaje automático y el

reconocimiento de patrones como herramientas para el análisis de los datos y la

clasificación, la predicción y la detección de patrones frecuentes o de anomalías, a

menudo no resulta trivial cómo escalar y/o paralelizar determinados algoritmos

convencionales que permita el tratamiento de grandes volúmenes de datos

[Oberlin2012]. A pesar de esto, los diversos esfuerzos existentes están siendo dirigidos

a rediseñar y adaptar los algoritmos tradicionales, teniendo en cuenta las soluciones

que se están empleando en Big Data, de modo que estos sean capaces de ser

utilizados bajo las características inherentes del Big Data, mantenimiento su capacidad

predictiva [Ma2014]. Estas soluciones se han centrado en el procesamiento de los

mismos de forma distribuida, escalable y confiable. Una de las plataformas más

populares es Apache Hadoop (http://hadoop.apache.org/), basado en el modelo de

programación MapReduce y en el sistema distribuido de ficheros HDFS, que permite

implementar aplicaciones para el procesamiento de grandes cantidades de datos en

paralelo sobre clusters de nodos. Estas soluciones, se han convertido en el estándar

para Big Data. Otras arquitecturas menos extendidas incluyen Apache Pig

(http://www.pig.apache.org/), Cascading (http://www.cascading.org/), Apache S4

[Neumeyer2010] para el procesamiento de flujos de datos en tiempo real, Facebook

Scribe (https://github.com/facebook/scribe), o Storm (http://storm-project.net). De igual

modo, también nos encontramos con diversas iniciativas de código abierto, como

pueden ser Apache Mahout (http://mahout.apache.org), MOA [Bifet2010], GraphLab

[Low2010] o PEGASUS [Kang2012], que proporcionan implementaciones escalables

para algunos de los algoritmos clásicos de minería de datos y/o minería de grafos.

Si bien, el enorme volumen de los datos es un reto para los algoritmos de aprendizaje

automático y reconocimiento de patrones, este no es la única dificultad que puede

presentarse en Big Data. Otro aspecto que pueden presentar los datos son las

diferencias significativas en los tamaños de las clases [Bacardit2013], esto es, una o

más clases están representadas por un gran número de ejemplos, mientras que el resto

se representan por unos cuantos. Esta situación es conocida como el problema de las

Page 6: Técnicas de Preprocesamiento para la Clasificación de

5  

clases no balanceadas y su importancia radica en que se ha observado que esta

complejidad puede conducir, en métodos tradicionales de clasificación, a aprendizajes

sesgados en perjuicio de la clase menos representada que, usualmente, es de vital

importancia ya que es el foco de interés de la aplicación, y su costo por clasificar

errónameamente un ejemplo de esta clase es muy elevado [Lopez2013]. Este

fenómeno ha sido ampliamente estudiado durante mucho tiempo por las comunidades

de minería de datos y aprendizaje automático. Las soluciones propuestas han estado

caminadas a desarrollar algoritmos a nivel de datos que preprocesan el conjunto a

través del balanceo de las distribuciones de las clases, ya sea, reduciendo la clase

predominante (mayoritaria) o incrementando el tamaño de la clase o las clases menos

representadas. Una segunda solución está dirigida a adaptar los algoritmos de

clasificación a las distribuciones no balanceadas [Garcia2012]. De estos dos

estrategias, los soluciones a nivel de datos son las más populares por ser fáciles de

adaptar a cualquier aplicación de la vida real.

Problema

La complejidad computacional de muchos algoritmos tradicionales de aprendizaje

automático y reconocimiento de patrones depende del número de ejemplos y de la

dimensionalidad que presentan los datos, por tanto, en un contexto de Big Data, donde

ambas complejidades crecen de manera espectacular, sugiere que una adaptación de

caulquiera de estos algoritmos requiera algo más que sólo optimizar el código. En este

sentido, las propuestas están dirigidas a la parelización masiva y a el rediseño de

nuevos algoritmos teniendo en cuenta los nuevos paradigmas en la administración de

grandes volúmenes de datos, por lo que, es posible encontrar en la literatura diversos

algoritmos de clasificación diseñados siguiendo entornos de programación enfocados

en el procesamiento de grandes volúmenes de datos de forma distribuida, escalable y

confiable. Un ejemplo de ello, es el paradigma MapReduce, el cual, se está convirtiendo

en el estándar de Big Data [Hsu2014, Zhang2015].

A pesar de los éxitos que se han tenido adaptando las técnicas tradicionales para

problemas de clasificación en Big Data. Estás soluciones solo han enfocado a la

Page 7: Técnicas de Preprocesamiento para la Clasificación de

6  

complejidad que presenta el enorme volumen de los datos, ignorando por completo que

el incremento de los datos puede conducir a problemas con clases no balanceadas, el

cual es un fenómeno recurrente en muchas aplicaciones de la vida real. En la literatura

se pueden encontrar trabajos iniciales que exploran el problema del Big Data

combinado con las clases no balanceadas [Lopez2015, Rio2014], lo cual sugiere que

existe un gran campo por explorar y explotar.

Justificación

En los últimos años, se está prestando especial atención a todas las iniciativas

relacionadas con el Big Data por su enorme impacto social, económico, tecnológico y

científico, derivando todo ello en el desarrollo de innovadoras plataformas y tecnologías

orientadas al análisis, tratamiento y procesado de grandes volúmenes de datos

estructurados, semi-estructurados y no estructurados. Su relevancia queda ya patente

por las referencias académicas en diversos congresos internacionales y en bases de

datos científicas, así como por el nombramiento por empresas enfocadas a la

tecnología como Gartner enlista al Big Data como una de las 10 tecnologías

estratégicas de vital importancia en el 2013 y para los próximos cinco años.

Actualmente, muchos grupos nacionales e internacionales (usualmente

multidisciplinares) están investigando en el marco del Big Data y su aplicación a una

gran variedad de tecnologías y problemas. Sin embargo, sorprendentemente, en un

artículo publicado por Fernández et al. en el 2014, titulado, “Pattern Recognition in Latin

America in the Era of Big Data”, reporta que la contribución a nivel mundial de América

Latina al tema de Big Data, es de aproximadamente 1.5%. De este porcentaje Brasil

aporta aproximadamente el 70% de trabajos, mientras que el 30% restante se divide, en

orden descente, entre México, Chile, Argentina, Colombia y Cuba.

Se adivina, por tanto, que la investigación en Big Data constituye un área emergente y

en expansión que brinda grandes oportunidades científicas y tecnológicas para avanzar

en el conocimiento de otras muchas y muy variadas disciplinas. Las posibilidades de

Page 8: Técnicas de Preprocesamiento para la Clasificación de

7  

desarrollo de nuevas técnicas y adaptación de ciertas metodologías para dar cabida a

las características y exigencias de la mayoría de las actuales aplicaciones del mundo

real conforman un importante nicho de investigación y transferencia a nivel

internacional, donde además se abren grandes perspectivas de trabajo interdisciplinar.

Hipótesis

Adaptar la tecnología existente y desarrollar nuevas metodologías de procesado para

datos no balanceados, aplicables a problemas que se caracterizan por un enorme

volumen de datos y por su variedad tipológica y de formatos, permitirá extraer

conocimiento para, posteriormente, interpretarlo, tomar decisiones o realizar

predicciones, clasificaciones o asociaciones en el momento adecuado.

Objetivos

Objetivo General Desarollar un cuerpo experimental y de conocimiento de técnicas de preprocesamiento

basado en MapReduce, para el tratamiento y clasificación de datos no balanceados

dentro de un contexto de Big Data.

Objetivos Específicos 1. Resumir el estado del arte y las tendencias de aprendizaje automático y

reconocimiento de patrones con MapReduce.

2. Identificar las técnicas escalables y adaptativas para el tratamiento de

distribuciones de clases no balanceadas.

3. Analizar y diseñar un algoritmo o estrategia de preprocesamiento.

4. Evaluar el software en bases de datos enormes no balanceadas.

5. Realizar comparaciones desempeño con otros métodos de preprocesamiento y

existentes en la literatura.

6. Analizar y evaluar los resultados.

Page 9: Técnicas de Preprocesamiento para la Clasificación de

8  

Metas

Académicas

• Establecimiento de colaboraciones y sinergias con universidades extranjeras y

diversos cuerpos académicos internos.

• Fortalecimiento y consolidación de la carrera de Ingeniería en Sistemas

Computacionales en la División Multidisciplinaria de la Universidad Autónoma de

Ciudad Juárez.

• Creación de una línea de investigación enmarcada en aprendizaje automático en

Big data.

• Conformación de un equipo multidisciplinar.

Recursos Humanos

• Dirigir y formar por lo menos un estudiante de pregrado.

Científica o Investigación

• Desarrollar e implementar algoritmos de preprocesamiento para problemas de

Big Data no balanceados.

• Lograr un conocimiento profundo sobre el tema de Big Data, para desarrollar a

futuro otras técnicas de solución.

• Aplicación de las técnicas en áreas vitales y de gran relevancia internacional

como la medicina y la economía.

• Difusión y publicación de resultados en una revista indizada y en un congreso

internacional.

Page 10: Técnicas de Preprocesamiento para la Clasificación de

9  

Metodología

La metodología que hemos diseñado se compone de 4 etapas principales: la primera de

éstas (etapa 1) estará destinada a la instalación, configuración y preparación de una

plataforma para Big Data al objeto de poder llevar a cabo las siguientes tareas; por su

parte, la etapa 2 estará orientada a la búsqueda de material bibliográfico en bases de

datos científicas. Las etapa 2 y 3 estará orientada a la adecuación de algunas técnicas

existentes y al diseño y desarrollo de las nuevas metodologías para abordar los

objetivos especificos planteados anteriormente y, por tanto, esta tareas se

corresponderán con cada uno de esos objetivos. Por último, la etapa 3 se centrará en la

evaluación del rendimiento y las prestaciones de las técnicas mediante un extenso

benchmarking sobre datos de diversa tipología y, en consecuencia, básicamente se

refiere al último de los objetivos que ya hemos descrito en la correspondiente sección

de esta memoria.

Etapa 1 - Instalación y configuración de la plataforma Apache Hadoop y las librerías

Apache Mahout. Hitos: puesta en funcionamiento de la plataforma para la ejecución de

las posteriores tareas en un entorno de Big Data.

Tarea 1.1. Estudio de la documentación sobre su instalación y configuración.

Tarea 1.2. Instalación preliminar sobre ordenador de cáculo.

Tarea 1.3. Configuración final e instalación de las librerías.

Tarea 1.4. Pruebas de test sobre funcionalidades básicas de la plataforma.

Etapa 2 – Búsqueda de bibliografía en divesas bases de datos científicas tales como

Scopus, Google Académico, IEEE Xplore, entre otras. Hitos: identificación de lineas de

investigación, ventajas, desventajas y oportunidades.

Etapa 3 - Estudio y definición de técnicas para el tratamiento de distribuciones de

clases desbalanceadas. Se estudiará el efecto de la distribución de muestras por clases

sobre la eficacia de un sistema de clasificación o predicción en un problema de Big

Data. Asimismo, el problema del filtrado de los datos sobre entornos con distribuciones

Page 11: Técnicas de Preprocesamiento para la Clasificación de

10  

desbalanceadas será también uno de los objetivos centrales a cubrir durante esta tarea.

Hitos: obtención de métodos para el tratamiento del desbalance; obtención de técnicas

escalables de edición y condensado para problemas con distribuciones de clases no

balanceadas; obtención de una base teórica sobre los benficios y las desventajas del

uso de las diferentes estrategias existentes para el tratamiento del desbalance.

Tarea 3.1. Análisis del efecto de la distribución de muestras por clases en problemas de

Big Data. Estudio de diferentes métodos de evaluación de los resultados (curvas ROC,

media geométrica de precisiones, índice de precisión balanceada, etc.).

Tarea 3.2. Análisis de las posibles implicaciones del uso de cada una de las estrategias

más comunes: over-sampling y under-sampling.

Tarea 3.3. Desarrollo de técnicas escalables de filtrado y condensado sobre problemas

con distribuciones de clases no balanceadas.

Etapa 4 - Desarrollo de conjuntos de datos, diseño de experimentos y evaluación de

prestaciones. Definición, caracterización y diseño de problemas, conjuntos de datos y

experimentos relevantes. Asimismo, se llevará a cabo la generación de “benchmarks”

que incluirán conjuntos de datos, metodologías de preprocesado, y especificación de

formatos para obtener resultados contrastables y comparables. Éste es un aspecto

cada vez más valorado en las publicaciones y resultados de proyectos en el área, de

modo que se considera una parte fundamental del presente proyecto. Hitos: definición

de los elementos básicos para el diseño de experimentos; obtención de datos;

realización de un banco de experimentos y evaluación de resultados finales.

Tarea 4.1. Definición de las características que deberán tener las bases de datos con

las que se realizarán los experimentos.

Tarea 4.2. Definición de las técnicas de muestreo a utilizar durante la experimentación.

Tarea 4.3. Selección de las métricas de evaluación de las prestaciones más apropiadas

para cada uno de los problemas tratados en las tareas anteriores.

Tarea 4.4. Preparación de los tests estadísticos que se aplicarán para analizar la

significancia de los resultados.

Page 12: Técnicas de Preprocesamiento para la Clasificación de

11  

Tarea 4.5. Integración de todos los elementos necesarios para poder llevar a cabo una

experimentación completa y realista.

Programación de Actividades

Las actividades se organizaron por trimestre. A continuación la descripción de las

actividades principales, el responsable y los participantes.

1. Instalación y configuración de la plataforma Apache Hadoop y las librerías Apache Mahout. Responsable: Dr. Israel Hernández Hernández Participantes: Estudiante Nicolás Rodríguez Almazán, Dr. Vicente García Jiménez Periodo de ejecución: Trimestre 1 2: Búsqueda de bibliografía en divesas bases de datos científicas. Responsable: Vicente García Jiménez Participantes: Dr. J. Salvador Sánchez Garreta; Estudiante Nicolás Rodríguez Almazán, Dr. Humberto de Jesús Ochoa Domínguez Periodo de ejecución: Trimestre 1-2 3: Estudio y definición de técnicas para el tratamiento de distribuciones de clases desbalanceadas. Responsable: Dr.Vicente García Jiménez Participantes: Dr. J. Salvador Sánchez Garreta; Estudiante Nicolás Rodríguez Almazán, Dr. Humberto de Jesús Ochoa Domínguez Periodo de ejecución: Trimestre 1-2 4: Desarrollo de conjuntos de datos, diseño de experimentos y evaluación de prestaciones. Responsable: Dr. Vicente García Jiménez Participantes: Dr. Vicente García Jiménez; Dr. J. Salvador, Dr. Humberto de Jesús Ochoa Domínguez, Estudiante de Licenciatura Nicolás Rodríguez Almazán Periodo de ejecución: Trimestre 2-4 5: Escritura de artículo para revista y/o congreso

Page 13: Técnicas de Preprocesamiento para la Clasificación de

12  

Responsable: Dr. Vicente García Jiménez Participantes: Dr. Vicente García Jiménez; Dr. J. Salvador, Dr. Humberto de Jesús Ochoa Domínguez, Dr. Israel Hernández Hernández Periodo de ejecución: Trimestre 2-4.

Infraestructura Disponible

La Universidad Autónoma de Ciudad Juárez ecuenta con acervo bibliográfico, acceso a

revistas electrónicas IEEE, un laboratorio de 50m2 en Campus Norte y diversos equipos

electrónicos. Asimismo, en la División Multidisciplinaría de Ciudad Universitaria de la

Universidad Autónoma de Ciudad Juárez se cuenta con un espacio físico equipado con

una computadora de escritorio, acceso a internet y a revistas eléctronicas. Otros

espacios se encuentran también disponibles para la instalación de equipo adiciona.

Dentro de esta infraestructura se cuenta con un servidor que brinda servicios de

diferentes tipos, el cual se encuentra conectado a la red de la UACJ.

Como recurso humano disponible se trabajará con los siguientes profesores

investigadores y alumnos:

• Prof. José Sánchez Garreta, Institute of New Imaging Technologies,

Universitat Jaume I. Jefe del grupo de investigación Pattern Analysis and

Learning. Cuenta con más 40 artículos publicados en revistas JCR en temas

de clasficación supervisada y no supervisada. Ha dirigido 9 tesis doctorales y

actualmente es catedrático de la Universitat Jaume I, Castellón de la Plana.

• Dr. Jesus Israel Hernández Hernández, Departamento de Ingeniería Eléctrica

y Computación, Universidad Autónoma de Ciudad Juárez, Cuerpo Académico

de Cómputo Avanzado. Experiencia en cómputo paralelo e impartiendo

docencia a nivel pregrado y posgrado.

Page 14: Técnicas de Preprocesamiento para la Clasificación de

13  

• Dr. Humberto de Jesús Ochoa Domínguez, Departamento de Ingeniería

Eléctrica y Computación, Universidad Autónoma de Ciudad Juárez, Cuerpo

Académico de Procesamiento de Señales, SNI-1. Cuenta con más de 10

artículos JCR y diversas patentes dentro del campo de procesamiento de

señales. Asimismo, ha impartido clases a nivel posgrado y ha dirigido una

tesis doctoral y tres de maestría.

• Dr. Vicente García Jiménez, Departamento de Ingeniería Eléctrica y

Computación, División Multidisciplinaria de Ciudad Universitaria de la

Universidad Autónoma de Ciudad Juárez, Cuerpo Académico de

Procesamiento de Señales, SNI-1. Ha dirigido 2 tesis de posgrado y cuenta

con 13 artículos JCR relacionados con el tema de la clasificación supervisada

en datos no balanceados.

• Estudiante de pregrado Nicolás Rodríguez Almazán de la carrera de

Ingeniería en Sistemas Computacionales de División Multidisciplinaria de

Ciudad Universitaria de la Universidad Autónoma de Ciudad Juárez.

Actualmente se encuentra en los últimos semestres de la carrera y

desarrollará su tema de tesis dentro del tema de clasificación supervisada en

Big Data.

Cremos que estos números ofrecen garantías reales sobre la capacidad del equipo de

concluir de manera satisfactoria todas las actividades dentro del marco de este

proyecto. También merece la pena destacar que los tres doctores del equipo

investigador vinculados a la entidad solicitante poseen experiencia docente tanto en

asignaturas de pregrado como de postgrado.

Por otra parte, nuestro equipo mantiene contactos estables, a distintos niveles, con

grupos de prestigio internacional pertenecientes a diferentes universidades extranjeras

y nacionales, lo que facilitaría la importante formación complementaria que supone la

realización de estancias en otros centros de investigación

Page 15: Técnicas de Preprocesamiento para la Clasificación de

14  

Incidencia del Proyecto en el Programa Integral de Fortalecimiento Institucional (PIFI)

• Dar apoyo al cuerpo académico de procesamiento de señales y de cómputo

avanzado generando producto intelectual y académico.

• Apoyar al fortalecimiento de la carrera de Ingeniería en Sistemas

computacionales en Ciudad Universitaria, incorporando una línea de

investigación orientada a la aplicación de aprendizaje automático en enormes

bases de datos.

• Fortalecimiento de la infraestructura para que estudiantes y profesores puedan

llevar a cabo actividades científicas y de transferencia de tecnología.

• Promover y contribuir al Dr. Jesús Israel Hernández Hernández alcanzar el perfil

deseable y el SNI.

• Mantener los estatus de los dos cuerpos académicos.

• Colaboración y acercamiento a universidades extranjeras.

• Ayudar a mantener o impulsar el nivel dentro del SNI de los Doctores Vicente

García Jiménez y Humberto de Jesús Ochoa Domínguez.

• Colaboración interna entre cuerpos académicos: Procesamiento de Señales y

Cómputo Avanzado.

Desglose Financiero

A continuación se detalla el presupuesto solicitado (estimado) por el año de duración

del proyecto.

• Adquisición de materiales y consumibles ($26,499.00 M.N.): Los consumibles

de oficina necesarios incluyen 3 cajas de papel bond para impresora láser

($1,700.00 M.N.), impresión de póster para eventos de difusión ($500.00), 3

cartuchos de tóner Brother TN720 ($3,600.00 M.N.). Los materiales que se

solicitan son $15,000 para la compra de bibliografía especializada en temas de

aprendizaje automático, Big Data y MapReduce. Finalmente se solicitan un

centro de trabajo en L con porta teclados ($3,800.00) y un escritorio de trabajo

Page 16: Técnicas de Preprocesamiento para la Clasificación de

15  

con compartimento y repisa para los estudiantes que se incorporarán al proyecto

($1,899.00).

• Equipo de Cómputo ($133,497.00 M.N.). Impresora Láser todo en uno en

blanco y negro Marca Brother DCP-8155DN ($6,000. 00 M.N.), Equipo Portátil

Macbook Pro 13 pulgadas, 2,6 Ghz, Intel Core I5 ($26,999.00 M.N.), proyector

Epson 730 HD ($9,999.00 M.N.), Servidor Multiprocesador MacPro Procesador

Intel Xeon E5 6 Core de 3.5 Ghz, 16 GB de memoria ECC DDR3 de 1866 Mhz

AMD Fire Pro D500 Doble con 3Gb de RAM ($72,999.00) para experimentos con

computación paralela y para compartir recursos de servidor entre los

investigadores y estudiantes. Para estudiantes se solicita una computadora Mac

Mini de 2.6 Ghz Intel Core I5 de 2.5 Ghz, 8 Gb de Memoria, Disco Duro de 1 TB

($11, 999.00 M.N.), Teclado Mac ($1,300.00 M.N.), ratón Mac ($1,300.00 M.N.),

Monitor Samsung 22” FD ($3,000.00 M.N.).

• Estancia de Investigación y Congresos ($50,000.00). Pago de viáticos,

inscripción, avión y hotel para congresos nacionales o internacionales de

reconocido prestigio ($25,000 M.N.), así como para una estancia corta en la

Universitat Jaume I ($25,000.00 M.N.) en el periodo de diciembre de 2016, fecha

en la que la UACJ está de vacaciones pero que en la Universitat Jaume todavía

es periodo lectivo. El objetivo es establecer nuevas líneas de investigación y

colaboraciones con otros miembros de la Universidad, así como el lanzamiento

de cálculos en sus servidores de gran capacidad.

• Beca de estudiante de licenciatura ($25,000). Apoyo económico para el

estudiante de tesis Nicolás Rodríguez Almazán.

Referencias

• [Bacardit2013] Bacardit, J.; Llorà, X. “Large-Scale Data Mining Using Genetics-Based Machine Learning”, WIREs Data Mining Knowledge Discovery, vol. 3, pp. 37-61, 2013.

Page 17: Técnicas de Preprocesamiento para la Clasificación de

16  

• [Bifet2010] Bifet, A.; Holmes, G.; Kirkby, R.; Pfahringer, B. “MOA: Massive online analysis”, Journal of Machine Learning Research, Vol. 11, pp. 1601-1604, 2010.

• [Dumbill2013] Dumbill, E. “Making sense of big data”, Big Data, Vol. 1(1), pp. 1-2, 2013.

• [Fan2012] Fan, W.; Bifet, A. “Mining big data: Current status, and forecast to the future”, ACM SIGKDD Explorations Newsletter, Vol. 14(2), pp. 1-5, 2012.

• [Garcia2012] García, V., Sánchez, J.S., Mollineda, R. A. “On the Effectiveness of Preprocessing Methods when Dealing with Different Levels of Class Imbalance”, Knowledge-Based Systems, vol. 25(1), pp.13-21, 2012.

• [Hsu2014] Hsu, C.-H. “Intelligent Big Data Processing”, Future Generation Computer Systems, cvol. 36, pp. 16-18, 2014.

• [Jacobs2009] Jacobs, A.. “The pathologies of big data”, ACM Queue, Vol. 7(6), pp. 1-12, 2009.

• [Kang2012] Kang, U.; Chau, D. H.; Faloutsos, C. “PEGASUS: Mining billion-scale graphs in the cloud”, Proc. IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 5341-5344, 2012.

• [Laney2001] Laney, D.. “3-D data management: Controlling data volume, velocity and variety”, META Group Research Note, 2001.

• [Lopez2013] López, V.; Fernández, A.; García, S.; Palade, V.; Herrera, F. “An Insight into Classification with Imbalanced Data: Empirical Results and Current Trends on Using Data Instrinsic Characteristics”, Information Sciences, vol. 250, pp. 113-141,2013.

• [Lopez2015] López, V.; Río, S.; Benítez, J. M.; Herrera, F. “Cost-Sensitive Linguistic Fuzzy Rule Based Classification Systems Under the MapReduce Framework for Imbalanced Big Data”, Fuzzy Sets and Systems , vol. 258, pp. 5-38,2015.

• [Ma2014] Ma, C.; Zhang, H. H.; Wang, X. “Machine Learning for Big Data Analytics in Plants”, Trends in Plant Science, Vol. 19(12), pp. 798-808,2014

• [Oberlin2012] Oberlin, S.. "Machine Learning, Cognition, and Big Data", 2012. Recogido el 24/02/2015, desde http://www.ca.com/us/~/media/files/articles/ca-technology-exchange/machine-learning-cognition-and-big-data-oberlin.aspx.

• [Rio2014] Río, S.; López, V.; Benítez, J. M.; Herrera, F. “On the use of MapReduce for Imbalanced Big Data using Random Forest.”, Information Sciences , vol. 285, pp. 112-137, 2014.

Page 18: Técnicas de Preprocesamiento para la Clasificación de

17  

• [Suthaharan2014] Suthaharan, S. “Big data classification: problems and challenges in

network instrusion predictions with machine learning”. ACM SIGMETRICS Performance Evaluation Review, vol. 41(4), pp. 70-73, 2014.

• [Zhang2015] Zhang, H.-J.; Xlao, N.-F. “Parallel Implementation of Multilayered Neural Networks Based on Map Reduce on Cloud Computing Clusters”, Soft Computing, vol. (0), pp.1-13, 2015.