estamos en crisis, ¿y tú qué harías? - consultora saxsa€¦ · ... accionistas están en las...

Estamos en crisis, ¿Y tú qué harías?

Dr. Gabriel Guerrero Conferencia en la Facultad de Ciencias de la UNAM Fecha de la Conferencia: 10 de Febrero del 2017 Referencia: gg20170211_EstamosEnCrisis_TuQueHarias.doc

s a X s a 2 0 1 7

2 Conferencia: Estamos en crisis, ¿Y tú qué harías? Facultad de Ciencias de la UNAM. Dr. Gabriel Guerrero

INTRODUCCIÓN Hoy todos los grandes titulares de los principales medios electrónicos y periódicos, nos abruman con las mismas noticias: estamos en una crisis en todas sus dimensiones: ética, política, económica y de relaciones con nuestros vecinos del norte.

En cada una de las diferentes dimensiones de la crisis, cada uno debe analizar la pregunta que con frecuencia se plantea:

¿Y tu que harías?

Cuando se enfrenta uno a una problemática de tan diversas dimensiones y enormes aspectos, siempre lo mas “saludable” es seguir el método científico de segmentar un problema en un conjunto de problemas de menor envergadura, y proponer para cada sub-problema aproximaciones, sencillas y de fácil instrumentación, que tal vez en muchas iteraciones sucesivas, las aproximaciones converjan a la solución!!!

Y así nuestro gran problema de la crisis que hoy vivimos, debemos analizarla por sub-problemas y en este contexto cada uno debe abordar el sub-problema con un enfoque que sea parte de sus competencias, ..., y en nuestro caso esto se reduce al CONOCIMIENTO.

Hoy nuestras competencias son el CONOCIMIENTO con matemáticas, estadística, lenguajes de programación, sistemas informáticos y todo lo que concierne la Ciencia de Grandes Volúmenes de Datos.

Así, en este contexto ¿Y tu que harías con la Ciencia de Grandes Volúmenes de Datos para enfrentar la crisis?

En el siglo pasado México tenia una gran riqueza con los pozos petroleros. En los años 90's el petroleo era la mina de oro de México, ..., pero eso ya se acabó.!!!

Sin embargo, las necesidades y condiciones que hoy imperan requiere no hablar del “hubiera” sino ver ¿hacia donde?, ¿cómo? y ¿cuándo? cambiamos de rumbo!!

Hoy el nuevo petroleo son los miles de millones de datos que genera la humanidad.

¿Y que podemos hacer con Ciencia de Grandes Volúmenes de Datos, para generar valor y riqueza que pueda distribuirse a la gran mayoría?

Si los datos es el nuevo petroleo, entonces ¿Por qué no poner refinerías que procesen el “petroleo crudo”, en productos?

Así, con los miles de millones de datos que genera la humanidad ¿por qué no crear miles de centros de conocimiento para procesar datos crudos en productos, servicios, sistemas y formación de recursos humanos,


.... en Ciencia de Datos?

¿Cómo NO sucumbir por el Trump-Tornado?

Si Donald J. Trump le quita el sueño, …, aproveche el insomnio para capacitarse!!

No desaproveche la oportunidad de conocer ¿cómo? aprovechar el CONOCIMIENTO y los nuevos motores de la civilización interconectada e Internet ADICTA!!

Hoy como preguntan los “altos dirigentes” ¿Y TU QUE HARIAS?

Yo me armaría de CONOCIMIENTO, que es la HERRAMIENTA MÁGICA que permite a los seres humanos describir, entender, modelar y tal vez resolver su problemática.

No se quede fuera de ¿CÓMO CONSTRUIR SU REFINERIA DE DATOS y aprenda las nuevas herramientas para realizar todo con BigData Analytics con Apache Spark, Cloudera, Oracle BigData Discovery, Microsoft Azure y otros tantos.

Si quiere ser de la ELITE DEL MUNDO PETROLERO, …, aprenda a TRANSFORMAR EL PETROLEO en VALOR

Si quiere estar preparado para la CRISIS, conviértase en CIENTÍFICO DE DATOS

Solo consulte la OFERTA DE EMPLEOS a nivel mundial que SE BUSCA CIENTIFICO DE DATOS!!

• Why "Data Scientist" Is The Best Job To Pursue In 2016 http://www.forbes.com/sites/gregoryferenstein/2016/01/20/report-why-data-scientist-is-the-best-job-to-pursue-in-2016/

• The Supply And Demand Of Data Scientists: What The Surveys Say http://www.forbes.com/sites/gilpress/2015/04/30/the-supply-and-demand-of-data-scientists-what-the-surveys-say/


Hoy las compañías que mas éxito financiero tienen, están asociadas al mundo de redes y en particular a los grandes volúmenes de datos.

Estas son la compañías que ahora sus iniciadores y accionistas están en las mas altas posiciones del ranking de las personas mas ricas del mundo.

Estas compañías han iniciado sus proyectos en los años 2000 y ya nos llevan la delantera, solo por mencionar las mas conocidas tenemos: Netflix, Waze, Uber, twitter, facebook, Airbnb, ... y claro esta Google y Yahoo.

Y como decía mi abuelita: “mii hijito nunca es tarde para empezar lo que te apasiona y te enriquece tu espíritu, ... y tampoco tengas prisa, sino solo concentrate y apurate”.

Yo ya estoy convencido de construir mi refinería de grandes volúmenes de datos, y entonces la pregunta inmediata que surge es ¿Por dónde empezar?

Lo que siempre dicen las personas mayores “no quieras construir un edificio de muchos pisos, sin antes hacer bien los cimientos!!!!”

Si tu gran edificio se llama Ciencia de Datos, empieza con unos buenos cimientos.

Yo quiero ser un Gran petrolero con una Refinería de Datos que procesa datos crudos y que genera servicios, sistemas, reportes y que sean de gran utilidad a mi comunidad, empresas y entidades gubernamentales.

Quiero prepararme en todas las disciplinas y herramientas que involucra la construcción de mi Refinería de Datos, pero ¿por dónde empiezo?

Lo primero que tengo que hacer es reforzar mis competencias en los ámbitos necesarios para la construcción de mi Refinería de Datos.

¿En cuales campos es necesario tener competencias para la construcción de Mi Refinería de Datos?

La Ciencia de Grandes Volúmenes de Datos esta compuesta de varios dominios del conocimiento, pero en particular tenemos 3 áreas principales: Matemáticas, Estadística y Computación.

En las matemáticas en particular pensamos en álgebra lineal, optimizan matemática y análisis numérico.


Kit básico de supervivencia de un científico de datos para salir al mundo externo, en el aspecto matemático

Álgebra Lineal

Fuera del ámbito académico de enseñanza y de los institutos de investigación en matemáticas existe un sin número de ambientes en donde la matemática tiene una gran relevancia.

En los tipos de problemáticas que se abordan siempre el primer pensamiento se asocia al mundo del Álgebra Lineal.

Hoy en día la “hoja de cálculo de toda problemática con un enfoque matemático” se inicia con una aproximación lineal, utilizando una o varias matrices para su representación.

Así el manejo de matrices con sus diferentes representaciones y transformaciones debe ser una habilidad o destreza fundamental, que los matemáticos e informáticos deben tener.

Kit básico de supervivencia de un científico de datos para salir al mundo externo, en el aspecto estadístico

La estadística hoy en día es una de las herramientas que son indispensables para todo matemático e informático que desee plantear y resolver problemas cotidianos en la era de la información.

Hoy en día, se genera una inmensa cantidad de datos que se almacenan de forma digital por todos los sistemas y dispositivos electrónicos en la era de la información.

Con las diferentes ramas de la estadística como la descriptiva y la inferencial, se tiene un conjunto de herramientas esenciales para los científicos de datos.

La estadística descriptiva es la rama de las matemáticas que recolecta, presenta y caracteriza un conjunto de datos con el fin de describir apropiadamente las diversas características de ese conjunto.

La estadística descriptiva describe los atributos principales de un conjunto de datos de manera cuantitativa.

La estadística inferencial comprende los métodos y procedimientos que por medio de la inducción determina propiedades de una población estadística, a partir de una pequeña parte de la misma. Es decir, se trata de inferir algo en un todo a partir del análisis de solo una parte.


Kit básico de supervivencia de un científico de datos para salir al mundo externo, en el aspecto informático

Fuera del ámbito académico de enseñanza y de los institutos de investigación en matemáticas existe un sin número de ambientes en donde la matemática tiene una gran relevancia. Sin embargo, dado que es un ambiente que requiere que se “muestre algo de forma tangible” es necesario que el científico de datos sea capaz de “hacer un algo tangible” y para esto se requiere el manejo de instrumentos de informática que le permitán “evaluar en una forma tangible”, el planteamiento.

Así de esta forma, el científico de datos debe manejar la computadora y establecer los mecanismos y comunicación con la computadora. Para esto se cuenta con los sistemas operativos y los lenguajes de programación, que son la forma nativa de manejo y programación de las computadoras.

Así se debe tener conocimientos en los aspectos básicos de la informática.

Sistema operativo En resumen, es de relevancia conocer con cierto grado de profundidad un sistema operativo. Hoy se cuenta con varios que los que los expertos informáticos utilizan y promueven para el desarrollo de aplicaciones, como lo es el sistema operativo Linux.

Se cuenta con una gran diversidad de versiones Linux como: CentOS (https://www.centos.org/) Fecha: 20160219, Versión: 7 (1511)

openSUSE (https://www.opensuse.org/) Fecha: 20160128, Versión: 42.1

Fedora (https://getfedora.org/) Fecha: 20151103, Versión: 23

Lenguajes de programación


Hoy los expertos informáticos en los lenguajes de programación recomiendan el uso de lenguajes “modernos” que ofrecen cada uno características particulares en diferentes aspectos.

Entre los que hoy se recomiendan, tenemos los lenguajes: Python, Scala, R

Scala (http://www.scala-lang.org/) Fecha: 20160225, Versión: Scala 2.11.8 R (https://www.r-project.org/) Fecha: 20160414, Versión: 3.2.5 Python (https://www.python.org/) Python 2.x es anterior Fecha: 2016 Versión: Python 2.7.12 Python 3.x es nuevo modelo: el presente y futuro Fecha: 2016 Versión: Python 3.6.0

El lenguaje de programación Scala es un lenguaje moderno que data de los años 2003 concebido por Martin Odersky, uno de los alumnos de Niklaus Wirth.

Scala es un lenguaje de programación multi-paradigma diseñado para expresar patrones comunes de programación en forma concisa, elegante y con tipos seguros, ofreciendo características de lenguajes funcionales y orientados a objetos.

La implementación de Scala, corre en la máquina virtual de Java (JVM) y es compatible con las aplicaciones Java existentes, de esta forma Scala ofrece todas fortalezas que se tienen en Java, pero sin sus debilidades.

En 2001 inicia el diseño Scala en la Escuela Politécnica Federal de Lausana (École Polytechnique Fédérale de Lausanne EPFL) por Martin Odersky, que por un encargo de Sun Microsystems estuvo mejorando los compiladores y diseñando la versión Generic Java y javac.

En 2003 se ofrece una versión preliminar del lenguaje Scala.

En 2004 se ofrece la versión pública del lenguaje Scala utilizando la JVM.

¿Por qué utilizar el lenguaje de programación Scala?

El lenguaje de programación Scala no es nuevo. Éste surge hace varios años y ha sido utilizado en proyectos relevantes.

Pero, ¿Por qué los creadores en la Universidad de California en Berkeley no utilizan Java en lugar de Scala, como todos los proyectos anteriores de grandes volúmenes, como Hadoop y su ecosistema de aplicaciones?

En la academia se tiene gran aprecio por el lenguaje de programación Scala, sobre todo cuando se requiere utilizar mecanismos sencillos, para describir procesos concurrentes.

¿Quién es Martín Odersky?

El Dr. Martín Odersky es un alumno de Niklaus Wirth. Obtuvo su doctorado en 1989 y en la “era Java”, en los años 2000, fue un desarrollador distinguido que


realizó el compilador “javac”, que fue una herramienta de gran utilidad en el mundo Java. En 2011 el Dr. Martín Odersky funda la compañía Typesafe Inc.

El Dr Odersky desarrolla módulos y nuevas versiones de Scala para el cómputo distribuido, introduciendo conceptos innovadores en el lenguaje como evaluación tardía (lazy evaluation) y el modelo de actores. El científico de datos debe en resumen, conocer Linux como sistema operativo y alguno de los lenguajes como Scala, R, Python o Perl para tener los instrumentos necesarios y poder “servir un pequeño platillo de sus recetas de cocina”.

La integración de Python en el proyecto Spark

En el proyecto Spark se introduce también como lenguaje de acceso Python

Por medio de PySpark se pueden escribir trabajos en Python para en ambiente Spark.

Esta funcionalidad de añade al inicio del surgimiento con la distribución Spark 0.7 en el 2012

El lenguaje de programación Python fué creado a finales de los ochenta por Guido van Rossum en el Centro para las Matemáticas y la Informática (CWI, Centrum Wiskunde & Informatica), en Holanda y como anécdota recodemos que el nombre del lenguaje proviene de la afición de su creador por los humoristas británicos Monty Python.

En 1991, van Rossum publicó el código de la versión 0.9.0, en donde incorpora un sistema de módulos adoptado de Modula-3

En 1994 se distribuye la versión 1.0

En 2016 se tiene la versión 3.6.0 y la versión 2.7.12

Aspectos de despliegue gráfico

Obviamente también se debe tener en cuenta que para los aspectos de despliegue gráfico en un mundo Internet el conocimiento de HTML es importante. Así mismo si se requiere mayor capacitación en la interacción de contenido en aplicaciones Web, se requiere un conocimiento básico del lenguaje JavaScript y sus múltiples bibliotecas jquery, ajax, node.js, d3.js y otras

Cualquiera de estos lenguajes, Scala, R, Python y Perl, ofrecen un gran número de herramientas a los desarrolladores de aplicaciones y se debería cursar al menos un semestre por lenguaje para entender su funcionamiento, el enfoque y campo de mejor aplicación del lenguaje.

Así mismo para el desarrollo de aplicaciones web se debería cursar al menos un semestre para HTML y JavaScript, en donde se muestren las características básicas de estos lenguajes html y javascript.


Algoritmos y arquitectura de cómputo distribuida y tolerante a fallas

También en el aspecto de la informática, se debe conocer las técnicas básicas de la programación de algoritmos y tener un amplio conocimiento de las bibliotecas existentes en los aspectos matemáticos que desee integrar en sus “platillos”.

Es decir, no querer programar todo desde cero, si los algoritmos y elementos matemáticos ya existen en alguna biblioteca en el lenguaje que utiliza, es mejor hacer uso de éstos y no querer volver a programarlos.

En resumen, “no inventar el agua tibia en los algoritmos. Si ya existe úsalo, entiéndelo y si es necesario mejóralo. Es decir, siempre se debe: copiar, editar e insertar”.

Así mismo, si el ámbito de conocimiento de la problemática que se desea abordar concierne problemas con una gran intensidad de cómputo y/o grandes cantidades de datos, es necesario “no inventar el agua tibia en la arquitectura de solución”.

Hoy en el mundo de arquitectura de cómputo se tiene el concepto de clúster como un conjunto de máquinas en red coordinadas y procesando bajo el control de una de ellas, que permite el uso de un gran poder de almacenamiento y procesamiento a cualquier persona, dado que estos ambientes se pueden integrar con máquinas de costo moderado.

Así es importante que el matemático e informático conozca el conjunto de ambientes de programación como Apache Hadoop HDFS, Spark y sus módulos como SparkSQL, ML para los algoritmos de aprendizaje automatizado (Machine Learning), GraphX para el procesamiento de grafos y finalmente SparkStreaming, para el uso de torrentes de datos que se generan y deben ser procesados al instante.

De manera complementaria conocer el conjunto de aplicaciones basados en Spark que permiten la generación de soluciones completas, como lo es la colección de aplicaciones BDAS (Berkeley Data Analytics Stack).

Componentes principales en la plataforma Spark

Los componentes principales de Spark son:


Spark SQL Es el módulo para el trabajo con datos estructurados.

Spark Streaming permite la construcción sencilla de aplicaciones escalables y tolerantes a fallas utilizando torrentes de datos.

MLlib es una biblioteca escalable con algoritmos de Aprendizaje Automatizado (scalable machine learning library).

GraphX es la biblioteca de Apache Spark para grafos y cómputo paralelo de grafos.

Kit básico de supervivencia de un científico de datos para salir al mundo externo, en el aspecto Aprendizaje automatizado (Machine Learning)

El Aprendizaje automatizado (Machine Learning, ML) es una rama conjunta de la matemática e informática para desarrollar técnicas que permitan a las computadoras aprender. Se trata de crear programas capaces de generalizar comportamientos a partir de una información no estructurada suministrada en forma de ejemplos.

Hoy en día, el Aprendizaje automatizado (Machine Learning) es una de las ramas mas utilizadas en las aplicaciones de la informática con un alto grado de utilización de matemáticas.

El Aprendizaje automatizado tiene una amplia gama de aplicaciones, incluyendo motores de búsqueda, diagnósticos médicos, detección de fraude en el uso de tarjetas de crédito, análisis del mercado de valores, clasificación de secuencias de ADN, reconocimiento del habla y del lenguaje escrito, juegos y robótica.

Kit básico de supervivencia de un científico de datos para salir al mundo externo, en el aspecto ejemplos y demostraciones

La Ciencia de Datos es un campo interdisciplinario, entre Matemáticas, Informática y Estadística, que involucra los procesos y sistemas para extraer conocimiento o un mejor entendimiento de grandes volúmenes de datos en sus diferentes formas (estructurados o no estructurados) y formatos (.txt, .dat, .doc, .jpg, etcétera).

La Ciencia de Datos es un nuevo paradigma sobre el cual los investigadores se apoyan de sistemas y procesos que son muy diferentes a los utilizados en el pasado, como son modelos, ecuaciones, algoritmos, así como evaluación e interpretación de resultados.


La Ciencia de Datos a diferencia de las técnicas anteriores puede trabajar con datos incompletos, con datos que pueden estar desordenados, que analiza los datos para ver qué información obtiene, que puede manejar grandes conjuntos de datos, lo que es un desafío administrar en las técnicas tradicionales, que los hallazgos obtenidos impulsan decisiones sobre operaciones y productos en sus aplicaciones empresariales.

Las experiencias que grandes matemáticos que han aportado ideas para el uso en la empresa industria siempre se refieren al uso de las matemáticas de manera creativa y con mucha lógica.

La historia de las aportaciones siempre se refiere a una evolución y mejora de lo que el anterior estaba realizando. Y así de manera recursiva, siempre la innovación y aplicación de manera creativa ha demostrado su gran eficacia. Es decir, el analizar lo anterior, copiar lo que es adecuado y modificar o reemplazar lo que tiene deficiencias, siempre ha demostrado ser un camino de las matemáticas para su aplicación exitosa.

Hoy los jóvenes matemáticos e informáticos que deseen orientar sus estudios de manera creativa deben conocer uno de los horizontes mas prometedores de aplicaciones y este es precisamente la Ciencia de datos y sus aplicaciones utilizando los ambientes de cómputo distribuido y tolerante a fallas (como Spark) y la colección de aplicaciones como las que ofrece el Berkeley Data Analytics Stack (BDAS).

Solo por mencionar uno de los módulos que ofrece el ambiente Spark, analicemos el conjunto de algoritmos y técnicas de ofrece para el Aprendizaje Automatizado (Machine Learning), es decir biblioteca de programas SparkMLlib.

MLlib es la biblioteca del ambiente distribuido y tolerante a fallas Spark para ofrecer algoritmos y modelos del Aprendizaje Automatizado (Machine Learning ML), cuyo objetivo es ofrecer que el Aprendizaje Automatizado se práctico, escalable y facil.

Sin entrar en cada uno de los algoritmos que contiene, podemos indicar que esta biblioteca contiene los algoritmos de mayor relevancia para la aplicación de técnicas estadísticas descriptiva, inferencial y analítica programados para uso en un ambiente Spark con interfaz en lenguaje Scala, Python (en particular compatible con NumPy), Java y R.

Estos algoritmos pueden soportar miles de millones de datos dado que éstos se ejecutan en un ambiente distribuido y tolerante a fallas como Apache Spark, por lo que son la mejor alternativa para generar de forma sencilla aplicaciones empresariales e industriales de grandes volúmenes.

La biblioteca MLlib de Apache Spark contiene entre otros los siguientes algoritmos y herramientas:

• Algoritmos básicos: clasificación, regresión, clustering, y filtrado colaborativo • Manejo de características: extracción características, transformación, reducción de dimensiones, y

selección • Pipelines: herramientas para construcción, evaluación, y afinación de ML Pipelines • Persistencia: guardar y cargar algoritmos, modelos, y Pipelines • Herramientas: álgebra lineal, estadística y manejo de datos

Clasificación • Logistic regression: Binomial logistic regression y Multinomial logistic regression • Decision tree classifier • Random forest classifier • Gradient-boosted tree classifier • Multilayer perceptron classifier • One-vs-Rest classifier (a.k.a. One-vs-All) • Naive Bayes

Regresión • Linear regression


• Generalized linear regression • Decision tree regression • Random forest regression • Gradient-boosted tree regression • Survival regression • Isotonic regression

Métodos lineales

• Decision trees

• Tree Ensembles • Random Forests • Gradient-Boosted Trees (GBTs)

Hoy este gran conjunto de algoritmos e instrumentos del Aprendizaje Automatizado permite generar aplicaciones de gran relevancia en el sector Industrial y Empresarial. Por ejemplo, la construcción de sistemas de recomendación es una aplicación que contiene un planteamiento de Álgebra lineal y técnicas de estadística que es muy ilustrativo y un excelente punto de partida para los jóvenes científicos de datos que deseen incursionar en el mundo de las aplicaciones.

Hoy la idea es NO INVENTAR EL AGUA TIBIA en el Aprendizaje Automatizado de Grandes Volúmenes de Datos (BigData Analytics), y aplicar el tipo de algoritmo que más conveniente a un problema y NO PROGRAMAR DESDE EL INICIO los algoritmos.

Hoy debemos pensar en los Algoritmos de Aprendizaje Automatizado como instrumentos o utensilios, como en una analogía de un gran banquete.

Hoy los comensales quieren bocadillos y banquetes JUSTO A TIEMPO y de FORMA INSTANTANEA (Streaming) para una gran población (usuarios Internet) en un extenso territorio (cobertura Internet), sin importar si en la cocina se prepararon con el mejor horno (Spark y BDAS) y las mejores recetas (Algoritmos ML eficientes) !!

RESUMEN

En resumen, se recomienda aprender de forma creativa Ciencia de Datos, analizando una problemática de Aprendizaje Automatizado (Machine Learning) y utilizar los mejores algoritmos e instrumentos existentes en un ambiente Spark, distribuido y tolerante a fallas con algún lenguaje entre los cuales tenemos Scala, Python, R y Java.

Estos son los primeros pasos en la construcción de una Refinería de Datos!!!

estamos en crisis, ¿y tú qué harías? - consultora saxsa€¦ · ... accionistas están en las...

Documents