auto machine learning, hacia la automatización de los modelos · todos los derechos reservados....

I+D www.managementsolutions.com

Auto Machine Learning, hacia la automatización de los modelos

Auto Machine Learning, hacia la automatización de los modelos

Diseño y MaquetaciónDpto. Marketing y ComunicaciónManagement Solutions - España

FotografíasArchivo fotográfico de Management SolutionsiStock

© Management Solutions 2020Todos los derechos reservados. Queda prohibida la reproducción, distribución, comunicación pública, transformación, total o parcial, gratuita u onerosa, por cualquiermedio o procedimiento, sin la autorización previa y por escrito de Management Solutions.La información contenida en esta publicación es únicamente a título informativo. Management Solutions no se hace responsable del uso que de esta información puedanhacer terceras personas. Nadie puede hacer uso de este material salvo autorización expresa por parte de Management Solutions.

Introducción 4

Índice

Resumen ejecutivo 12

Hacia la automatización de lamodelización 16

Marcos de automatización deprocesos de machine learning 22

Competiciones de AutoML: unaherramienta de exploración de enfoques de AutoML 32

Reflexiones finales 36

Bibliografía 38

Glosario 40

MANAGEM

ENT SO

LUTIONS

Auto Machine Learning, hacia la autom

atización de los mod

elos

4

Introducción

“Media docena de monos, provistos de máquinas de escribir, producirán en unas cuantas eternidades todos los libros que contiene el British Museum”

– Jorge Luis Borges1

5

Un modelo matemático es, en cierto modo, una simplificaciónde la realidad que aprovecha la información disponible parafacilitar la toma de decisiones. Esta simplificación permiteevaluar hipótesis sobre el comportamiento tanto de variablescomo de sistemas a través de su representación resumida bajoun conjunto de postulados, habitualmente basada en datos yaplicando criterios de inferencia. Tiene como principal finexplicar, analizar o predecir el comportamiento de una variable.

La revolución de las técnicas de modelización, junto con elincremento de la potencia de computación y la mayoraccesibilidad y aumento de la capacidad de almacenamiento dedatos, ha cambiado de manera radical la manera de construirmodelos en los últimos años. Esta revolución ha sido un factorclave que ha estimulado no solo el uso de estas nuevas técnicasen los procesos de toma de decisiones donde clásicamente seusaban enfoques tradicionales, sino también en ámbitos dondeno era tan habitual el uso de modelos. Por último, en algunossectores, como por ejemplo en el sector financiero, el uso demodelos ha sido impulsado además por la regulación. Normascomo las NIIFs 9 y 13 o Basilea II han promovido el uso demodelos internos con el objetivo de añadir sensibilidad ymejorar la sofisticación del cálculo del deterioro contable o de ladeterminación de los riesgos financieros.

Aunque pudiera parecer lo contrario, las técnicas demodelización más comúnmente aplicadas en el ámbitoempresarial no tienen un origen reciente. En concreto, lasregresiones lineales y logísticas datan del siglo XIX. No obstante,de un tiempo a esta parte se ha producido un significativodesarrollo de nuevos algoritmos, que tiene como objetivosofisticar la forma en la que se encuentran patrones en losdatos, pero también introduce nuevos retos como la mejora delas técnicas de interpretabilidad. La aplicación de estos nuevosmodelos matemáticos a la computación es una disciplinacientífica conocida como aprendizaje automático o machinelearning, ya que permite que los sistemas puedan aprender yencontrar patrones sin ser explícitamente programados paraello.

Existen múltiples definiciones del aprendizaje automático. Entreellas, dos de las más ilustrativas son las de Samuel y Mitchell.Para Arthur Samuel2, el aprendizaje automático es “el campo deestudio que da a las computadoras la habilidad de aprender sin

ser programadas explícitamente”, mientras que para TomMitchell3 se define como “un programa que aprende de laexperiencia E con respecto a alguna clase de tareas T y enfunción de una medida de rendimiento P, si este rendimiento enlas tareas en T, según la medida de P, mejora con la experienciaE”. Estas dos definiciones se relacionan habitualmente con elaprendizaje no supervisado y el aprendizaje supervisadorespectivamente4.

Como consecuencia de todo ello, el apetito para comprenderadecuadamente y extraer conclusiones de los datos se haincrementado drásticamente. Pero, de manera paralela, laimplantación de estos métodos ha requerido modificarmúltiples aspectos en las organizaciones5, y es, a su vez, foco deposibles riesgos derivados de errores en su desarrollo oimplementación, o de su uso inadecuado.

La modelización avanzada permite mejorar los procesoscomerciales y operativos, o incluso facilita la aparición denuevos modelos de negocio. Un ejemplo puede encontrarse enel sector financiero, donde las nuevas metodologías, en elcontexto de la digitalización, están modificando la propuesta devalor actual, pero también añadiendo nuevos servicios. Segúnuna encuesta realizada por el Bank of England y la FinancialConduct Authority sobre casi 300 empresas del sector financieroy asegurador, dos tercios de los participantes utilizan machinelearning en sus procesos6. Las técnicas de machine learning seutilizan con frecuencia en tareas típicas de control, como laprevención del blanqueo de capitales (AML, por sus siglas eninglés), el análisis de las amenazas relacionadas conciberseguridad o la detección de fraude, así como en losprocesos de negocio, tales como la clasificación de clientes, lossistemas de recomendación o la atención a clientes a través deluso de chatbots. También son utilizadas en la gestión del riesgode crédito, en pricing, en la ejecución de operaciones o en lasuscripción de seguros.

1Jorge Luis Borges, “La biblioteca total” (1939). Escritor, poeta, ensayista ytraductor argentino, autor, entre otros, de Ficciones y El Aleph.

2Samuel, 1959.3Mitchell, 1997.4Management Solutions, 2018.5Ibídem.6Bank of England, 2019.

MANAGEM

ENT SO

LUTIONS



elos

6

Esta inclusión de modelos de machine learning no solo hacenecesario el establecimiento de equipos especialistas, sinotambién el uso de nuevos procedimientos de desarrollo, y larevisión de los métodos de validación, revisión y evaluación delos modelos dentro de los ámbitos de validación y auditoría, asícomo un importante cambio cultural en el resto de áreas paraconseguir una implementación efectiva. La inclusión de estosnuevos procesos genera una reacción en cadena que afecta atodo el ciclo de vida de los modelos, destacando entre ellos la

En otros sectores se puede observar un grado de desarrollosimilar. El uso de modelos de machine learning es habitual ensectores como el manufacturero, el transporte, la medicina, lajusticia o los sectores de retail y gran consumo. Esto ha hechoque la inversión en empresas dedicadas a la inteligenciaartificial aumentase de 1.300 millones de dólares en 2010 a40.400 millones en 2018 a nivel global7 (véase figura 1). Elretorno esperado justifica esta inversión: el 63% de las empresasque han adoptado el uso de modelos de machine learning ensus unidades de negocio informan de un aumento de losingresos, siendo de más del 6% para aproximadamente la mitadde ellas. Asimismo, el 44% de las empresas reportan un ahorrode costes, siendo superior al 10% para aproximadamente lamitad de ellas8.

De los distintos cambios que se han registrado en lasorganizaciones para adaptarse a este nuevo paradigma, lacaptación y retención del talento está siendo uno de loselementos centrales. En primera instancia, se ha requerido unaumento de los equipos especialistas en machine learning. Lademanda de profesionales en este ámbito ha aumentado un728% entre 2010 y 2019 en Estados Unidos10 (véase figura 2),registrándose también un cambio cualitativo en la demanda dehabilidades y conocimientos de los data scientists.

Pero esta demanda no es genérica: con la intención de explotarla cada vez mayor cantidad de datos disponibles medianteherramientas cada vez más sofisticadas, los requisitos se hanvuelto más específicos (entre los que se incluye el conocimientode diferentes lenguajes de programación, como Python, R, Scalao Ruby, capacidad para el tratamiento de bases de datos enarquitecturas big data, conocimientos en cloud computing,conocimientos matemáticos y estadísticos avanzados,encontrarse en posesión de posgrados especializados, etc.),existiendo una gran diversidad de posiciones, con requisitosmuy concretos y, por tanto, difícil de cubrir. Además, el granaumento registrado en el volumen de generación de datos porparte de las empresas hace que, incluso con una oferta establede data scientists, la solución actual de contratación de recursosno sea escalable.

Figura 1: inversión anual (miles de millones de dólares) en empresas de IA9.

Fuente: Stanford University, 2019.

7 Incluye únicamente inversiones por importe superior a 400.000 dólares,Stanford University, 2019.

8Statista, 2019.9Stanford University, 2019.10 Ibídem.

7

identificación y gestión del riesgo de modelo, así como sugobierno11. Muchos de estos modelos requieren,adicionalmente, la aprobación de organismos supervisores,como ocurre en la industria financiera (por ejemplo, en losmodelos de capital o provisiones), o en la industriafarmacéutica, lo que añade retos adicionales a los ya existentes,como son la necesidad de garantizar la interpretabilidad de losmodelos utilizados, así como desarrollar el resto de elementosde confianza de los modelos.

Otro aspecto destacable sobre la inversión en métodos demachine learning es que esta tiene un desarrollo desigual: laobligación de superar procesos de validación, auditoría yaprobación, según la regulación establecida, o el requisito demantener unos estándares específicos de documentación, estágenerando diferencias en la implantación de modelos internos

de las empresas. De acuerdo con el informe sobre big data yanalytics de la EBA12, las entidades financieras están adoptandoprogramas de transformación digital o impulsando el uso detécnicas de machine learning en aspectos como la mitigaciónde los riesgos (incluyendo scorings automáticos, gestión deriesgo operacional o fraude) y en procesos de Know YourCustomer. No obstante, “aunque la aplicación de machinelearning puede suponer una oportunidad para optimizar elcapital, desde la perspectiva de un marco prudencial esprematuro considerar apropiado el uso de técnicas de machinelearning para determinar los requerimientos de capital”13.

Figura 2: aumento de la demanda de perfiles con conocimiento en machine learning e inteligencia artificial.

11Management Solutions, 2014.12European Banking Authority, 2020.13Ibídem.

Fuente: Burning Glass, 2019.

MANAGEM

ENT SO

LUTIONS



elos

8

Existen además riesgos operacionales difíciles de detectar,como pueden ser los de carácter humano durante el procesode implementación de un modelo o los relacionados con laseguridad del almacenamiento de datos, que deben sergestionados convenientemente para garantizar el uso de estossistemas en un entorno adecuado. Esto adquiere unarelevancia significativa para las empresas que operan enentornos considerados de alto riesgo. Un ejemplo de ello es elmarco que ha establecido la Comisión Europea en estos casosy que engloba distintos aspectos del proceso demodelización14. Por último, y también debido tanto a criteriosregulatorios como de gestión, los modelos deben funcionar deforma fiable y ser utilizados de forma ética, de modo que elusuario pueda confiar en ellos para su uso en los procesos detoma de decisiones. En esta línea, resulta de especial interés lapropuesta de la EBA basada en siete pilares de confianza15:ética, interpretabilidad, eliminación de discriminaciones,trazabilidad, protección y calidad de los datos, seguridad yprotección al consumidor. Estas cuestiones se han identificadocomo elementos clave también desde los ámbitos universitarioy empresarial16.

En este contexto las tareas de desarrollo de modelosdemandan dedicaciones muy desiguales: las tareas previas ycomplementarias al análisis requieren de una gran cantidad detiempo y recursos dirigidas a la preparación, limpieza ytratamiento general de los datos; el 60% del tiempo de un datascientist se dedica a la limpieza de datos y a organizar lainformación, mientras que un 9% y un 4% se focaliza en tareasde knowledge discovery y el refinamiento de algoritmos,respectivamente17. Todo ello impulsa la necesidad de cambiarla forma de abordar el desarrollo, la validación y laimplementación de modelos, de forma que se aprovechen lasventajas de las nuevas técnicas, pero resolviendo lasdificultades asociadas a su utilización, así como mitigando susposibles riesgos.

Derivado de los motivos comentados anteriormente, existeuna tendencia clara hacia la automatización de los procesosrelacionados con la aplicación de técnicas de advancedanalytics, que se ha denominado, de manera general, machinelearning automatizado (AutoML o automated machine learning,indistintamente), cuyo objetivo es no solo automatizaraquellas tareas donde los procesos heurísticos son limitados yfácilmente automatizables, sino también permitir lageneración de procesos de búsqueda de patrones y dealgoritmos más automática, ordenada y trazable. De acuerdocon Gartner18, más del 50% de las tareas data science estaránautomatizadas en el año 2025.

Pero además, esta tendencia a la automatización ofrece unaserie de oportunidades, como las que brinda la arquitectura desistemas utilizados en la automatización en términos dediseño de los workflows, de inventario de modelos o devalidación por componentes. Los sistemas de AutoML integrandiversas herramientas para desarrollar modelos, reduciendoademás el coste, el tiempo de desarrollo y los errores en laimplementación de dichos sistemas.

14European Comission, 2020.15European Banking Authority, 2020.16Por ejemplo, la cátedra iDanae, fruto de la colaboración entre la UniversidadPolitécnica de Madrid y Management Solutions, ha publicado newsletters sobreinterpretabilidad (Cátedra iDanae, 3T-2019) y ética en la inteligencia artificial(Cátedra iDanae, 4T-2019).

17Según una encuesta realizada por la plataforma en Inteligencia ArtificialCrowdFlower (CrowdFlower, 2017).

18Gartner, 2019.

9

Tanto los sistemas como los métodos de AutoML persiguen,entre otras cosas:

4 Reducir el tiempo dedicado por los data scientists en eldesarrollo de modelos a través de técnicas de machinelearning, e incluso permitir el desarrollo de algoritmos demachine learning por parte de equipos no especializados endata science.

4 Mejorar el desempeño de los modelos desarrollados, asícomo la trazabilidad y comparabilidad de los modelosobtenidos frente a las técnicas de búsqueda dehiperparámetros manual.

4 Permitir cuestionarse los modelos desarrollados medianteotros enfoques.

4 Reaprovechar la inversión realizada tanto en tiempo comoen recursos para el desarrollo de códigos y mejorar y refinarlos componentes incluidos en los sistemas de formaeficiente y con mayor trazabilidad.

4 Simplificar la validación de los modelos y facilitar suplanificación.

En este contexto, el presente documento pretende describir losprincipales elementos sobre los sistemas de AutoML. Para ello,se ha estructurado en tres apartados, que se corresponden a suvez con tres objetivos:

4 En el primer apartado se analiza la evolución en laautomatización de los procesos de machine learning, así como los motivos que subyacen en el desarrollo de sistemas de AutoML, tanto a través de la componentización, como de la automatización de los mismos.

4 En el segundo bloque se aporta una visión descriptiva sobrelos principales marcos de AutoML, y se explica qué enfoquesse están siguiendo, tanto en el ámbito académico como enexperiencias prácticas dirigidas a automatizar los procesosde modelización a través de técnicas de machine learning.

4 Por último, el tercer apartado tiene como objetivo ilustrar losresultados del desarrollo de sistemas de AutoML,presentando como caso de estudio una competiciónorganizada por Management Solutions a inicios de 2020dirigida a los profesionales de la firma y cuyo objetivo fue eldiseño de un modelo de Automated Machine Learning.

Principales hitos en el desarrollo de ML

Arthur Samuels desarrollaun programa en 1952 parajugar a las damas. En 1995,este programa vence alcampeón del mundo.

IBM Watson vence al jue-go Jeopardy! frente a dosde los jugadores másdestacados.

Google Deepminddesarrolla una IA capaz dejugar a diferentes juegosde Atari al nivel de unjugador humano.

Una IA desarrollada por launiversidad de Oxford escapaz de leer los labios conuna tasa de acierto del 93%.

Se entrena una IA capazde detectar cáncer de pielcon un acierto comparableal de expertos médicos.

Google DeepmindAlphastar vence a losmejores profesionales delmundo del videojuegoStarcraft II.

Un estudio publicado enNature utiliza una redneuronal que detecta laretinopatía diabética mejorque los expertos médicos.

Un traductor inglés-chinodesarrollado por Microsoftalcanza la calidad detraducción humana.

Google Deepmind AlphaGo vence al campeón delmundo de GO, Lee Sedol.

La clasificación deimágenes por computadoren image net supera la tasade error humana (3%frente al 5%,respectivamente).

Google Brain desarrolla unmodelo capaz de detectarcaras humanas enimágenes y vídeos.

IBM Deep Blue vence alcampeón del mundo deajedrez, Gary Kasparov.

MANAGEM

ENT SO

LUTIONS



elos

10

La Autoridad Bancaria Europea (EBA) ha publicado un informe sobre big data y advanced analytics, con el objetivo de dar a conocer su usoen el sector financiero europeo, así como aportar su entendimiento sobre (i) la identificación de cuatro pilares clave para su desarrollo,implementación y adopción, (ii) los principales elementos de confianza sobre los que se ha de basar un marco de big data y advancedanalytics, y (iii) señalar principales observaciones, oportunidades y riesgos que se derivan de la aplicación de estas soluciones.

I. Pilares clave de un marco de big data y advanced analytics

II. Elementos de confianza

III. Principales observaciones, oportunidades y riesgos en la utilización

Reporte sobre big data y Advanced Analytics de la EBA

GESTIÓN DE DATOS

4 Tipos de datos y fuentes: datos estructurados,desestructurados y semi-estructurados.

4 Seguridad y protección de los datos: protege laconfidencialidad, integridad y disponibilidad de los datos.

4Calidad de los datos: asegura la calidad de los datos durantetodo el ciclo de Big Data y advanced analytics (BD&AA).

INFRAESTRUCTURA TECNOLÓGICA

4 Infraestructura: enlaza recursos para transmitir big data.4 Plataforma de los datos: gestiona todos los datos utilizadospor un sistema de análisis avanzado.

4 Procesamiento: proporciona el software necesario parasostener la implementación de aplicaciones de analíticaavanzada.

METODOLOGÍA DE ANÁLISIS

4 Preparación de los datos: incluye la ingeniería de datos y elanálisis de importancia.

4Analítica: entrenamiento de modelos calibrado, validación yselección, así como prueba y lanzamiento.

4Operaciones: control y actualización de modelos.

ORGANIZACIÓN Y GOBIERNO

4 Estructura y medidas internas de gobierno: estructura degobierno, estrategia y gestión del riesgo, transparencia,desarrollo externo y subcontratación.

4Habilidades y conocimiento: nivel de comprensión delcuerpo de dirección y la alta dirección, segunda y terceralíneas, desarrolladores de sistemas avanzados de análisis.

El desarrollo, lanzamiento y uso decualquier solución de inteligenciaartificial debe adherirse a unosprincipios éticos fundamentales.

La justicia e imparcialidad requiereque el modelo asegure la protecciónde determinados grupos contra ladiscriminación, y para garantizarloel modelo debe estar libre desesgos.

Los datos deberían sercorrectamente protegidos con unsistema de BD&AA confiable, ysu calidad debe tenerse en cuentadurante todo el proceso.

Una parte fundamental para construirmodelos confiables es que seanexplicables e interpretables, transparentes,comprendidos correctamente y queaporten justificaciones claras.

El uso de soluciones que puedan sertrazables ayuda a seguir todos los pasos,criterios y decisiones del proceso, lo quepermite la repetición de procesos queresultan en las decisiones tomadas por elmodelo y ayuda a la auditoría del sistema.

Es importante mantener una vigilancia técnica delos últimos ataques de seguridad y las técnicas dedefensa relacionadas, para asegurar que el gobierno,la supervisión y la infraestructura técnica seencuentran correctamente instaladas para unaefectiva gestión del riesgo ICT (Information andcommunications technology).

Un sistema de BD&AAconfiable debe respetar losderechos de los consumidoresy proteger sus intereses.

Pilares clave de un marco de big data y advanced analytics

Elementos de confianza

Posibilidad deser explicados einterpretados

Justicia yevasión de

sesgos

Trazabilidad& posibilidadde sometersea auditorías

Proteccióny calidad delos datos

Seguridad

Proteccióndel

consumidorÉtica

11

4 Las instituciones están en distintas etapas del desarrollo de BD&AA. Algunos de los usos más comunes son la detección delfraude, el CRM y la automatización de procesos.

4 Existe una mayor dependencia en datos internos, en vez de en datos externos o redes sociales. Se incorporan soluciones de códigoabierto. Hay un uso limitado de algoritmos complejos.

4 Hay diferentes niveles de integración y gobiernos de la analítica avanzada en las instituciones.

4 Se observa una dependencia creciente en compañías tecnológicas para la provisión de servicios de infraestructura y computaciónen la nube.

Observaciones clave

4Los clientes de los servicios financieros de los sectores de comercio minorista y de ocio esperan un servicio más personalizado.Hay confianza en el sector financiero respecto al cumplimento del RGPD.

4 El aumento de la satisfacción del consumidor y el uso de información para mejorar la oferta, reducir la pérdida de clientes,optimizar procesos, y ayudar en la mitigación del riesgo y la detección del fraude.

4 Hay muchos usos y oportunidades posibles que surgen del uso demodelos interpretables.

Oportunidades clave

4El resultado de los modelos puede ser complejo, no determinista y correcto de acuerdo con una medida de probabilidad, lo quepodría dañar a la institución o a sus clientes. Debe asegurarse que los resultados de estos sistemas no violan los estándares éticosde las instituciones. Además, un ser humano debe involucrarse en el ciclo de decisión, por lo que es necesario realizarentrenamiento del personal.

4 La implementación de un marco metodológico y de gobierno de BD&AA podría promover su uso responsable, lo que deberíaincluir la documentación adecuada, una justificación suficiente y otras técnicas explicativas y de seguimiento, incluyendo el usode soluciones trazables. La explicación debería basarse en una aproximación basada en el riesgo.

4 Existe la necesidad de que los modelos sean precisos y de realizar controles regulares.

4 El uso de soluciones de machine learning podría dar lugar a riesgos ICT: seguridad de los datos, seguridad del modelo, calidad delos datos, gestión del cambio y continuidad y resistencia del negocio.

4 Como consecuencia de la dependencia en marcos de código abierto, o en herramientas y sistemas desarrollados por terceraspartes, tanto sus potenciales riesgos (falta de control y conocimiento de la tercera parte, alta dependencia de un proveedor, riesgode concentración mantenimiento de un modelo, etc.) como la responsabilidad que debe siempre mantenerse en la entidad, debenevaluarse.

4 Por último, la importancia de la calidad de los datos, la protección y la seguridad es enfatizada, tanto para propósitosregularorios, (incluyendo el cumplimiento de RGPD) como para asegurar la idoneidad del modelo.

Riesgos clave y guía propuesta

Principales observaciones, oportunidades y riesgos en la utilización

MANAGEM

ENT SO

LUTIONS



elos

12

Resumen ejecutivo

“Bastaría, en rigor, con un solo mono inmortal”Jorge Luis Borges

13

refinamiento de las técnicas; e incluso la mejora de losprocesos de validación, incluyendo la generación demodelos challenger.

Hacia la automatización de la modelización

6. En el proceso de automatización del flujo de trabajo(workflow) de modelización existen múltiples retos. Entreellos, la necesidad de contar con procesos que garanticenla adecuación de la carga de datos y aquellos relativos aldesarrollo, validación, implementación y seguimiento delos modelos. Se debe garantizar también la trazabilidad delos procesos de construcción, así como su interpretabilidady un adecuado gobierno que permita su integración en lagestión, además de cumplir con la regulación existente.

7. Con relación al proceso de tratamiento de datos, el 60%del tiempo de un data scientist se dedica a limpieza yorganización de la información, existiendo muchorecorrido en términos de automatización de estosprocesos.

8. Sobre el workflow de modelización, es posible automatizareste proceso mediante dos opciones, que usualmente secombinan: la componentización de los distintos procesosen elementos segregados, y la ejecución automática deestos componentes, sistematizándolos a través de reglaspreestablecidas y técnicas estadísticas.

9. La componentización se basa en la separación de las tareasde modelización en distintas piezas, y su programación ydesarrollo de forma independiente. Cada uno de estoscomponentes recibe un input determinado y ejecuta unatarea específica.

10. Las ventajas de la componentización son la estandarizaciónde los procesos, el aumento de la calidad y de la eficiencia, laespecialización en el desarrollo, la mejora de la usabilidad, yel impulso de la escalabilidad.

El contexto de la automatización de losmodelos de machine learning

1. La incorporación de las técnicas de big data y advancedanalytics en la economía está cambiando la manera en quese usa la información. Partiendo de la combinación dedistintos conocimientos relativos a la explotación de datosy de negocio, la capacidad de análisis se ha incrementadoradicalmente, aunque, al mismo tiempo, es foco deposibles riesgos derivados de errores en su desarrollo oimplementación, su uso inadecuado o el exceso deconfianza en su aplicación.

2. Para poder aprovechar el potencial de estas nuevastécnicas, las entidades están transformando su forma detrabajar. Estos cambios afectan directamente al desarrolloy validación de los modelos, pero también a otrosprocesos como son los relativos a las estructurastecnológicas, la selección, formación y retención deperfiles especialistas o, de manera más amplia, a la culturade trabajo.

3. Existen también riesgos operacionales difíciles de detectary, en algunos casos, regulación relativa al uso, calidad yprocesos relacionados con datos, así como con laaplicación o la interpretabilidad de modelos que generanla necesidad de contar con procesos trazables, yvalidaciones y revisiones recurrentes de los modelos.

4. En este contexto, se observa una tendencia clara hacia laautomatización de los procesos relacionados con laaplicación de técnicas de advanced analytics, cuyo objetivoes no solo automatizar aquellas tareas donde los procesosheurísticos son limitados y fácilmente automatizables, sinotambién permitir la generación más automática, ordenaday trazable de modelos.

5. Con todo ello, se favorece la reducción del tiempodedicado a tareas complementarias y repetitivas; el accesoa estas técnicas por parte de equipos no especialistas; eldesempeño, la trazabilidad y la comparabilidad de losmodelos; el reaprovechamiento de los desarrollos decódigos en proyectos específicos, la mejora y el

MANAGEM

ENT SO

LUTIONS



elos

14

11. Por otra parte, la automatización del proceso deconstrucción de modelos se fundamenta en el uso decriterios automáticos para seleccionar sus atributos, deforma que el procedimiento puede replicarse y auditarse.También garantiza que la selección final se ha hechomediante un proceso que garantice alcanzar un poderpredictivo óptimo dadas unas restricciones.

12. Las ventajas de la automatización en la búsqueda son laoptimización del proceso de selección de hiperparámetros,la generalización de los problemas de modelización, laadaptación de los espacios de búsqueda de parámetros acada problema, y la posibilidad de experimentación fuera delos rangos habituales.

Marcos de automatización de procesos demachine learning

13. En la práctica, la forma de automatizar estos procesos se habasado en (i) sistematizar la mayor parte de los aspectosrelativos al análisis y tratamiento previo de los datos,incluyendo la transformación de variables y su preselección,(ii) generar un espacio de búsqueda de posibles modelos yparámetros, así como un proceso de desarrollo y selecciónde modelos que evite tanto el overfitting19 como elunderfitting20, y (iii) automatizar la aplicación de técnicas deinterpretabilidad.

14. Existe una gran variedad de opciones para poner enproducción estos sistemas, recogidos en enfoques basadosen modelos (model-based schemes) y en procesos basadosen datos (data-driven approaches).

15. Los procesos de generación y evaluación de modelos sebasan fundamentalmente en dos componentes: eloptimizador y el evaluador.

16. El optimizador genera y actualiza combinaciones deparámetros dentro de la frontera de posibilidades definidaen función del modelo y de los datos utilizados.Posteriormente el evaluador se encarga de medir eldesempeño de las opciones propuestas por el optimizador,pudiendo influir en la estrategia de búsqueda en función delos resultados.

17. El optimizador utiliza diversas técnicas para encontrar lamejor configuración. Estas técnicas se pueden clasificar ensimples (como grid search, random search, algoritmosevolutivos u optimización bayesiana) o basados enexperiencia (como meta-learning o transfer learning).

18. El evaluador se encarga de comprobar si la configuraciónproporcionada por el optimizador es óptima. Existentambién distintos enfoques de optimización como son (i) elearly stop, en los que el evaluador deja de evaluar si eldesempeño es muy bajo en las primeras iteraciones, (ii) lareutilización, basado en el uso de configuraciones utilizadasen entrenamientos anteriores, o (iii) el uso de modelosubrogados en la evaluación.

19. En este tipo de sistemas, los retos existentes son la inclusiónde conocimiento previo en él, como puede ser elconocimiento de negocio o criterios expertos, así como eldesarrollo de sistemas que abarquen todo el proceso deconstrucción de modelos.

20. Una alternativa al uso de un sistema basado en lainteracción de un optimizador y un evaluador es labúsqueda de arquitecturas neuronales (NAS) por sus siglasen inglés. Esta técnica, utilizada en modelización dellenguaje o clasificación de imágenes, realiza de manerasimultánea las tres tareas requeridas para llevar a cabo laautomatización: la determinación del espacio de búsqueda,la estrategia de búsqueda en este espacio y la estimación delos modelos obtenidos en cada estimación.

21. En este enfoque, si bien el rendimiento es elevado, resultamás difícil explicar por qué se llega a determinadasconfiguraciones y si estas sirven para extender su uso aotros tipos de problemas.

22. Actualmente, y pese a tener aún un gran margen demejora, los sistemas de AutoML han llegado a un grado dedesarrollo que puede competir y batir a los expertoshumanos en machine learning, configurándose como unaherramienta fundamental, que puede modificar el tipo detrabajos desarrollados.

19Característica de un modelo que se da cuando este se ha ajustado demasiado ala muestra de entrenamiento, de forma que no consigue resultadossatisfactorios sobre muestras diferentes a esta.

20Característica de un modelo que se da cuando este no se ha ajustado losuficiente a la muestra de entrenamiento, de forma que no consigue resultadossatisfactorios sobre muestras diferentes a esta.

15

Reflexiones finales

27. Actualmente la configuración de los modelos de machinelearning depende de manera significativa de apriorismos yajustes manuales, lo cual puede llevar a subóptimos, comoconsecuencia tanto de overfitting como underfitting, enfunción del tamaño del dataset y las técnicas utilizadas. Enalgunas técnicas sigue siendo habitual el overfitting demodelos, lo que parece indicar que existe recorrido demejora en la generación de sistemas de AutoML en casosespecíficos.

28. Aunque los enfoques de AutoML han alcanzado un altogrado de desarrollo, se siguen encontrando limitacionesligadas a que el pipeline no está totalmente automatizadoo a la ausencia o escasez de objetivación en algunas de lasdecisiones, así como en el espacio de búsqueda.

29. Otro reto es permitir el acceso de perfiles no expertos a losentornos de AutoML, para que puedan interactuardirectamente con estos métodos y sistemas, de forma quese pueda incorporar la intuición de negocio, o evaluardirectamente la interpretabilidad de los modelos. Porúltimo, y respecto a la interpretabilidad, esta sigue siendouna de las cuestiones abiertas en los sistemas de AutoML.

30. En términos de avances recientes, estos son más habitualesen la optimización del feature engineering, así como en laselección de modelos, en detrimento del tratamiento o lapreparación de datos.

31. Por último, se prevé que los sistemas de AutoML seconfiguren como una herramienta fundamental, quemodificará los trabajos desarrollados por los data scientists,de forma que estos se centren en los análisis previos oposteriores del desarrollo de modelos, en la generación decomponentes y sistemas de AutoML, así como en laresolución de problemas específicos donde un sistema deAutoML no consiga buenos resultados.

23. Los retos pendientes, tanto para sistemas basados en laoptimización de hiperparámetros como para los métodosNAS se refieren a cuestiones relacionadas con lainterpretabilidad, la reproducibilidad, así como elreaprovechamiento en las configuraciones de los ejerciciosprevios y con objeto de facilitar una mejor interacción conel usuario.

Competiciones de AutoML: una herramientade exploración de enfoques de AutoML

24. Para profundizar en el entendimiento y puesta en prácticade enfoques de AutoML se han diseñado y ejecutadocompeticiones que confrontan metodologías. Un ejemplode estas competiciones se expone en el apartado“Competiciones de AutoML: una herramienta deexploración de enfoques de AutoML”.

25. En el caso de la competición sobre AutoML llevada a cabopor Management Solutions, los participantes han llevado acabo enfoques similares a los comentados anteriormente,utilizando enfoques grid, random search, algoritmosgenéticos o búsquedas bayesianas para llevar a cabo lageneración de modelos. Para evaluar la configuración sehan utilizado técnicas de cross validation.

26. De dicho ejercicio se han podido extraer algunasconclusiones de utilidad: i) el tratamiento de datos haresultado bastante homogéneo, mostrando que existendiversas técnicas estandarizadas en el sector, ii) lareducción de la dimensionalidad ha sido realizada por lamayoría de los participantes, debido a la gran reducciónde coste computacional que ello supone, iii) los sistemasde AutoML mejoran al realizar optimización de todo elpipeline, la utilización de modelos stacking o laparalelización de las tareas en diversos núcleos.

MANAGEM

ENT SO

LUTIONS



elos

16

Hacia la automatización de la modelización

“Sin embargo, si se sigue jugando cien años, mil años, cien mil años, con toda probabilidad saldrá una vez, por casualidad, un poema. Y si se juega eternamente tendrán que surgir todos los poemas,

todas las historias posibles”Michael Ende21

17

El desarrollo e implantación en la gestión de modelos demachine learning genera un conjunto de beneficios, que sonconsecuencia tanto de la mejora de los procesos de toma dedecisiones como de la automatización de tareas en el desarrollode modelos. Estos beneficios se materializan, por ejemplo, através de una predicción de la demanda más acertada, enmejoras en la gestión del stock, en las estrategias de pricing, enel aumento de la fidelidad de los clientes, o en mejoras en laeficiencia y la reducción de los costes de producción, entreotros. Esto a su vez implica mejores resultados en el desarrollode productos o en la prestación de servicios, una distribuciónmás eficiente de los recursos, o un mejor posicionamiento en elmercado, pudiendo generar ventajas competitivas frente acompetidores que hagan un menor uso de estas técnicas.

Sin embargo, en el proceso de construcción de modelos quepresentan también múltiples retos ligados al desarrollo y laimplementación de estos nuevos métodos:

4 Por un lado, en numerosas ocasiones los modelos demachine learning requieren grandes cantidades de datospara evitar el overfitting, lo que supone la necesidad deinvertir en la obtención, ingesta, almacenamiento y gestiónde fuentes de datos y de arquitecturas tecnológicas, consoluciones in-house o cloud para garantizar la disponibilidady la calidad de los datos utilizados.

4 Por otro, se ha de invertir en el desarrollo de los modelos, suvalidación, la implementación en los procesos de gestión, yel seguimiento y mantenimiento de los algoritmos.

4 Asimismo, se ha de considerar la trazabilidad de losprocesos de construcción, así como garantizar lainterpretabilidad de los algoritmos y de los resultadosobtenidos, ya que las decisiones basadas en algoritmosdeberían estar respaldadas por este conocimiento, aunquesea parcialmente.

4 Todo lo anterior exige una gobernanza adecuada, quegarantice la consideración tanto de los elementos degestión y éticos en el uso de modelos como de losrequerimientos regulatorios. Estos impactos resultan aúnmayores para las entidades que operan en sectoresregulados, puesto que existen limitaciones en laimplantación y uso de estos modelos para determinadosfines.

4 Por último, para garantizar que se cumple lo anterior, esnecesario contar con perfiles especialistas, bien mediantela contratación directa de data scientists y desarrolladores,bien mediante la externalización del proceso concompañías especializadas; así como transformar laestructura organizativa y adaptarla en función de lasnecesidades de desarrollo de modelos, incluyendo nuevasformas de trabajar (por ejemplo, a través de organizacionesAgile22).

Estos retos han motivado la aparición y desarrollo de sistemasde AutoML, ya que su uso puede dar respuesta a lasdificultades planteadas, permite aprovechar los beneficios dela automatización y contribuye a la democratización de losprocesos de modelización, facilitando su uso por usuarios noexpertos.

Fundamentos de la automatización

El principio de no free lunch23 sugiere que no existe un modelocuyo desempeño sea siempre mejor que todos los demás, deforma que en función del conjunto de datos analizados, el tipode modelo que mejor los predice o explica puede ser distinto.Extendiendo esta idea al ámbito de machine learning, esteprincipio se puede interpretar como la no existencia deestimadores o combinaciones de configuraciones,hiperparámetros o arquitecturas de redes que sean siempre

21Michael Ende, ”La historia interminable” (1979). Escritor alemán del siglo XX,conocido principalmente por sus obras de ficción y para niños.

22El detalle de la transformación hacia organizaciones agile se describeampliamente en la publicación “De proyectos Agile, a organizaciones Agile”,Management Solutions, 2019.

23Wolpert & Macready, 1997.

MANAGEM

ENT SO

LUTIONS



elos

1818

distintos parámetros, como la configuración de las técnicas(cuáles aplicar, en qué orden, sobre qué parte del dataset, etc.)varían dependiendo del problema, se pueden desarrollartécnicas para conseguir la automatización de múltiples tareas.Entre los objetivos principales que persigue estaautomatización se encuentran reducir el coste y los posibleserrores operacionales derivados del desarrollo end-to-end paracada problema de machine learning, así como mejorar laeficiencia del proceso de modelización.

Tres de las causas que generan la necesidad de invertir enautomatización son las siguientes:

4 Redundancia en el desarrollo: algunas tareas y funcionesprogramables para generar el proceso de modelizaciónpueden haber sido desarrolladas en otros procesosanteriores, bien internamente por equipos especialistas enla compañía, bien por la comunidad data science.

4 Existencia de errores: el desarrollo de un nuevo códigopuede conllevar una mayor probabilidad de contenererrores, por lo que es necesario realizar procesos de testeo ypruebas, lo que implica un mayor esfuerzo en tiempo yrecursos.

4 Busqueda eficiente de estrategias: que permitandescartar explícitamente combinaciones deconfiguraciones y rangos de hiperparámetros que seconsideren inadecuados o que puedan conllevar errores enla implementación25.

mejores frente a otras alternativas. Si bien a la hora de tratarproblemas específicos existen investigaciones académicas quemuestran que la selección de valores para hiperparámetros enrangos reducidos pueden garantizar modelos óptimos24, estaidea no se puede extrapolar a todos los problemas posibles.Esta situación acarrea la necesidad de encontrar métodos paragarantizar que un algoritmo de machine learning realiza unabúsqueda adecuada de las posibles configuraciones para podermaximizar su desempeño.

Dado un problema que se desea resolver mediante técnicas demachine learning, la forma de abordarlo se sustenta enestablecer las distintas opciones de parámetros yconfiguraciones que se podrán elegir a lo largo de todo elproceso. Para ello, en primer lugar, es necesario identificar lascaracterísticas de los datos que han de ser tratados, así como lastécnicas utilizadas. Posteriormente se debe establecer elenfoque de modelización que se desea usar, así como lasmétricas con las que se van a seleccionar los modelos y,finalmente, se incorporan las restricciones que puedan existirbasadas en el conocimiento del problema (por ejemplo, el signode las variables). Se configura de esta manera un workflow demodelización que servirá para obtener un grupo de modelosordenados en función de su desempeño. Sobre este flujo esposible realizar una automatización basada en lacomponentización, es decir, la separación de los distintosprocesos de construcción de modelos en componentes quepuedan ser ejecutados de manera modular.

Componentización y optimización delworkflow de modelización

En el proceso de modelización existe un amplio conjunto deopciones en cada una de las fases que integran el workflow dedesarrollo, fruto de la combinación de las distintas técnicasusadas en cada apartado. Si bien tanto la selección de los

24Ver, por ejemplo, Segal, 2004.25No obstante, aunque la generalización del problema ayuda a conseguir unaresolución eficiente, en determinados casos es necesario establecermecanismos para que el modelizador pueda probar ciertas configuraciones odefinición de hiperparámetros fuera del espacio de búsqueda.

Dos de las formas de incrementar la automatización del procesode modelización son la componentización de las tareas y laautomatización de la búsqueda de configuraciones ehiperparámetros óptimos.

Componentización del workflow

En primer lugar, la segregación de las tareas de modelización endistintas piezas, y su programación y desarrollo de formaindependiente, permiten al modelizador el uso automático decada pieza, en forma de llamadas al código desarrollado,adaptando solo los parámetros y las configuraciones, dentro delas opciones posibles, para resolver una tarea específica. Estetratamiento, que es análogo al aplicado en el desarrollo delibrerías en los entornos de programación, o a la programaciónorientada a objetos, permite aislar la tarea de desarrollo delcódigo, así como del lenguaje de programación específico, desu aplicación posterior. Esto permite contar con un entorno ágilde modelización. Cada uno de estos componentes recibe uninput determinado (habitualmente, un dataset y un conjunto deparámetros), y ejecuta una tarea específica, devolviendo comooutput otro dataset con el resultado de la tarea aplicada.

La componentización de los procesos de modelización generaun conjunto de ventajas frente al desarrollo de un workflowpara cada problema, como las siguientes:

4 Estandarización: del desarrollo de componentes utilizadosen la modelización, lo que reduce la frecuencia de loserrores y mejora la comparabilidad.

4 Mejora de la calidad: en el desarrollo de los componentes,así como en su aplicación.

Elementos de un sistema demachine learning automatizado

4 Parámetro: propiedad interna al modelo que se aprendedurante el proceso de aprendizaje, siendo necesario para larealización de predicciones.

4 Hiperparámetro: parámetro que no puede ser obtenidodurante el proceso, y debe ser fijado de forma previa. Losvalores que deben tomar los hiperparámetros para resolverun problema específico son desconocidos. El número deárboles en un Random Forest o el número de clusters en unK-Means son ejemplos de hiperparámetros.

4 Configuración: las posibles combinaciones de valores quepueden tomar los hiperparámetros.

4 Espacio de configuraciones/búsqueda: conjunto de todaslas posibles configuraciones de hiperparámetros sobre elque se busca la configuración óptima para realizar la mejorpredicción posible.

4 Arquitectura de redes neuronales: se refiereconjuntamente tanto al número de capas y neuronaspresentes en cada una de estas, así como a la forma en queestas se conectan. En algunos casos también se incluye enel concepto la forma en que la que son entrenadas.

4 Función de coste: función cuyos mínimos corresponden alas configuraciones óptimas. Buscar la configuraciónóptima equivale a encontrar los mínimos de la función decoste. Algunas funciones de coste pueden ser el errorcuadrático medio o la entropía cruzada, entre otrasopciones.

19

MANAGEM

ENT SO

LUTIONS



elos

20

4 Mejora de la eficiencia: en la aplicación de loscomponentes, en la revisión por parte de áreas devalidación interna y auditoría, así como en los procesos deaprobación.

4 Especialización: en el desarrollo de cada componente porespecialistas en cada materia.

4 Mejora de la usabilidad: en su aplicación, dado que estospaquetes pueden ser utilizados por distintos tipos deusuarios, incluidos aquellos que no tienen un conocimientode programación.

4 Escalabilidad: en el desarrollo, que puede ser basado en unhost interno o en cloud, tanto para cada filial de la empresacomo por ámbitos geográficos.

Automatización de la búsqueda de una configuraciónóptima

Una vez que se han separado los distintos pasos del proceso encomponentes, se ha de realizar una selección de los mejoresparámetros que configuran el proceso óptimo para llevar a cabola modelización. Un enfoque que permite aproximarse a dichaselección es la automatización de su búsqueda mediante ladefinición de distintas estrategias que aborden este problemadesde un punto de vista sistemático, ordenado y dejando trazadel proceso que genera cada combinación posible, pero que asu vez permita evaluar el impacto de las decisiones tomadas encada etapa del proceso sobre el desempeño del modelo final.

Sin embargo, durante el proceso de automatización,frecuentemente la evaluación de todo el conjunto de lasopciones es muy complejo y habitualmente está condicionadapor un tiempo de computación limitado, tanto por el posiblenúmero de opciones y combinaciones, por la complejidad delmodelo, como por la cantidad de datos analizados. A pesar delo anterior, la automatización en la búsqueda deconfiguraciones, aunque limitada, genera un conjunto deventajas frente a la búsqueda manual, como son:

4 Optimización en la búsqueda: ya que permite generar unconjunto de combinaciones que se evaluarán y seleccionaraquellas que mejor desempeño generen.

4 Generalización de los problemas: ya que posibilitagenerar espacios de búsqueda amplios cuando no existainformación previa que permita anticipar cuáles deberíanser los subespacios de búsqueda con mayoresprobabilidades de generar modelos con un mayordesempeño.

4 Adaptación del espacio de búsqueda: para aquellosproblemas en los que se tiene alguna información sobrecuál debería ser el espacio de búsqueda óptimo, es fáciladaptar este para mejorar los resultados en función de lasrestricciones computacionales.

4 Experimentación: dado que permite evaluar el impacto demicrodecisiones en cada uno de los componentes incluidosen la automatización sobre el desempeño final. Porejemplo, permite evaluar el cambio en diversos parámetrosdel modelo, como puede ser la profundidad máxima de losárboles en un algoritmo random forest.

21

27Puede encontrarse un detalle de estos marcos de gestión en lapublicación “Model Risk Management: Aspectos cuantitativos ycualitativos de la gestión del riesgo de modelo”, ManagementSolutions, 2014.

28Un detalle de estas técnicas puede encontrarse en la publicaciónCátedra iDanae “Interpretabilidad de los modelos de InteligenciaArtificial", UPM y Management Solutions, 2019.

Workflow de modelización

La definición de un workflow depende tanto del problema quese quiere resolver como del tipo y la calidad de los datosutilizados. Existen diferentes metodologías para el desarrollode proyectos de machine learning, como KDD (KnowledgeDiscovery in Databases), CRISP-DM (Cross-Reference IndustryStandard Process for Data Mining) o SEMMA (Sample, Explore,Modify, Model and Assess), entre otras. Aunque existendiferencias entre ellas, en todas hay elementos comunes, queson los ejes fundamentales para la construcción de modelos demachine learning. A continuación, se resume el proceso demodelización:

Identificación del problema y planificación: en primer lugar,se han de determinar cuáles son los objetivos de negocio yentender el problema que se quiere resolver con un algoritmode machine learning, así como los KPIs que servirán para medirel éxito del proyecto. Con ello, se realiza la planificación delproyecto.

Preparación de los datos: esta fase del proceso hace referenciaa un tratamiento previo de los datos, e incluye las fases derecolección (obtención, etiquetado y clasificación de los datosrecopilados y mejora de los existentes), limpieza y preparación(tratamiento de los datos para convertirlos en utilizables),análisis (detección de patrones y desarrollo de hipótesis),visualización (representación gráfica para identificartendencias, outliers o patrones), integración (combinación dediferentes datasets para tener una visión unificada) y featureengineering (conversión de los datos brutos en datos con laforma deseada, generación de nuevas variables y selección devariables a incluir en el modelo).

Desarrollo del modelo: esta fase del proceso hace referencia ala selección del tipo de modelo utilizado, al entrenamiento delmismo, a la evaluación del desempeño y de los criteriosestadísticos, así como al ajuste de parámetros, e incluye laelección (valoración de los distintos modelos disponibles paraencontrar el que mejor se adapta), el entrenamiento (evaluaciónde las distintas configuraciones para convertir la informaciónproporcionada en patrones y relaciones), la evaluación (análisisdel desempeño del modelo mediante métricas utilizando datosque no se han empleado durante el entrenamiento) y el ajustede parámetros (revisión de la posibilidad de mejorar lapredicción del modelo mediante el reajuste dehiperparámetros).

Evaluación, validación y aprobación: se han de evaluar si sehan cubierto los objetivos del negocio establecidos al inicio, y sise cumplen las expectativas iniciales. Asimismo, en función delgovernance definido y de la clasificación de los modelos (tiering)establecida en el marco de gestión de riesgo de modelo de laentidad27, pueden existir fases adicionales en los que equiposde validación y auditoría, independientes de losdesarrolladores, realizan una revisión de los distintos aspectosdel modelo (datos utilizados, metodología, resultados,documentación, etc.). Esta validación puede incluir técnicas deinterpertabilidad28, con el objetivo de entender las relacionessubyacentes que explican el resultado del modelo. Asimismo,se han de realizar los procesos de aprobación establecidos enlos marcos de gobernanza de la entidad. En el caso de modelosregulatorios, es preciso realizar un proceso final de aprobaciónpor parte del supervisor.

Despliegue e integración en la gestión: por último, una vez sehan superado las fases anteriores, el modelo se integra en lagestión, mediante la implantación en las arquitecturastecnológicas, la puesta en producción, y los procesos deseguimiento y monitorización periódica de los resultados.

26Yao, y otros, 2018.

En este sentido, un sistema de AutoML puede definirse como unmétodo que permite la construcción de modelos de machinelearning sin necesidad de intervención humana y sujeto a unasciertas limitaciones computacionales26. El rol de quien desarrollaun modelo dentro de un sistema de AutoML se centra en laelección de los datos, en seleccionar los criterios de validaciónde los mismos, así como en elegir las métricas que se van autilizar para estimar y seleccionar los modelos, en lugar dededicar su tiempo al tratamiento de datos y la optimización delos hiperparámetros de forma iterativa en función de losresultados del modelo. Todo ello determina el espacio debúsqueda, de forma que se genera un conjunto de opcionesque el algoritmo evalúa, sujeto a las condiciones fijadas.Finalmente, como resultado de este proceso se obtiene unconjunto de modelos ordenados en función de su desempeño.

En el siguiente apartado se profundizará en el enfoque deAutoML y su impacto a la hora de resolver los desafíos descritosen esta sección y la transformación que está suponiendo en laforma de modelizar y, en general, de todo el workflow de unproceso de machine learning.

MANAGEM

ENT SO

LUTIONS



elos

22

Marcos de automatización de procesos demachine learning

“Hemos oído que un millón de monos con un millón de teclados podrían producir las obras completas de Shakespeare; ahora,

gracias a Internet, sabemos que eso no es cierto“ Robert Wilensky29

23

Una vez se han discutido las razones que motivan lacomponentización y automatización de los workflows yalgoritmos de machine learning, surge como principal cuestióncuál es el mejor enfoque para llevarlo a cabo. De maneraespecífica, cuando se plantea automatizar el proceso dedesarrollo de modelos de machine learning es necesariocontestar a las siguientes preguntas:

4 ¿Cuáles son los pasos previos necesarios para preparar losdatos antes del proceso de modelización?

4 ¿Cómo deben seleccionarse los algoritmos más adecuadospara el conjunto de datos que se desea evaluar?

4 ¿Cómo se debe determinar el espacio de búsqueda dehiperparámetros y configuraciones posibles?

4 ¿Debe seguirse algún enfoque para reducir el tamaño delespacio de búsqueda?

En los enfoques tradicionales la forma de contestar a estaspreguntas ha sido a través de la selección manual de estoscriterios por parte de un analista basándose en apriorismos y enconfiguraciones que en el pasado han funcionado, así comosobre una base de ensayo y error que incluye ciertocomponente de aleatoriedad.

En la práctica, tanto para el desarrollo manual comoautomático, el problema de selección de parámetros obedece alos siguientes retos:

4 Un planteamiento maximalista basado en la revisiónexhaustiva de todas las combinaciones posibles esinabarcable tanto en tiempo como en requisitos de recursoscomputacionales. Incluso para datasets relativamentereducidos o incorporando restricciones en la búsquedafruto de la experiencia, esta tarea sigue siendo inabordable,lo que conlleva la obligación de renunciar a la optimizaciónen algunas partes del proceso.

4 Las configuraciones utilizadas dependen significativamentede los apriorismos de los analistas y de ajustes manuales, loque hace necesario programar explícitamente una gran

cantidad de código. Por tanto, la elección y el desempeñode muchos de los métodos de machine learning utilizadosdepende de gran cantidad de decisiones sobre su diseñotomadas de forma manual o basadas en hipótesis previas.

4 Si se trata de generar una función de evaluación quepermita conocer la relación entre los cambios en loshiperparámetros y el desempeño del modelo, la generaciónde esta puede ser muy costosa, y a veces esta relación no esclara o no permite realizar inferencia sobre los resultadosobtenidos.

4 Esta restricción no solo no tiene una interpretación global,dado que no se puede inferir adecuadamente cuál es elimpacto en la función de pérdida sobre los cambios en loshiperparámetros ni siquiera localmente.

4 No se puede optimizar directamente cuando los datasetstienen un tamaño grande, ya que los tiempos de ejecuciónson prologandos.

Por tanto, aunque existen incentivos para llevar a caboprocedimientos de búsqueda sistemáticos y automáticos, laconfiguración de estos sistemas pasa por resolver cómo evaluarlas posibles configuraciones dadas las restricciones existentes.

Teniendo en cuenta lo anterior, una visión que subyacehabitualmente en el desarrollo de los componentes de unsistema de AutoML se basa en:

1. Automatizar la mayor parte de los aspectos relativos alanálisis y tratamiento previo de los datos, mediante lageneración de sistemas que permitan tratar los datos ytransformar las variables utilizando las técnicas máshabituales en el tratamiento manual.

29Robert Wilensky durante un discurso en 1996. Profesor en la Escuela de laInformación de la Universidad de California en Berkeley, su principal ámbito deinvestigación fue la inteligencia artificial.

MANAGEM

ENT SO

LUTIONS



elos

24

desconocidos) como el underfitting (el concepto contrario aloverfitting: cuando un modelo no se ajusta lo suficiente aunos datos como para predecir correctamente).

4 La explicación de los patrones identificados en los datos alusuario, de manera que un humano pueda entenderlo.

El objetivo del sistema es llevar a cabo todos estos procesos demanera eficiente y robusta, teniendo en cuenta restriccionescomputacionales y de tiempos de ejecución. Actualmenteexisten muchas soluciones propuestas, que incluyen marcosque permiten su uso de manera centralizada, distribuida o encloud. Si bien, el grado de desarrollo de estos enfoques puedecompetir y batir a los expertos humanos en machine learning,aún existen muchas cuestiones que deben resolverse para quepuedan aplicarse correctamente.

Un framework general que engloba todas las posibles partespor automatizar se indica en la figura 330. Este framework sebasa en la interacción de dos componentes fundamentales: unoptimizador, que trabaja en un espacio de búsqueda definido, yun evaluador.

Por un lado, el optimizador genera y actualiza lasconfiguraciones utilizando un espacio de búsquedadeterminado en función del modelo elegido y el tratamiento delos datos que se haya realizado previamente. Posteriormente, elevaluador se encarga de medir el desempeño de lasconfiguraciones propuestas por el optimizador. En función delenfoque seleccionado, el evaluador podría afectar a laestrategia de búsqueda del optimizador.

2. Generar un espacio de búsqueda de posibles modelos yparámetros donde se configuran un conjunto de opcionespara su generación y, mediante un criterio que recorre eseespacio, se puedan obtener, comparar y seleccionar losmejores modelos.

3. Por último, automatizar técnicas de interpretabilidad,aunque de forma separada al modelo de optimizaciónanterior, de manera que se generen reportes que sean másentendibles por los distintos usuarios.

En definitiva, el objetivo es obtener un sistema que, de formaautomática, permita encontrar patrones en los datos yseleccionar una forma en la que estos den respuesta a unapregunta del usuario, siendo capaz de explicar adecuadamentelos resultados. Con ello, se sustituyen las tareas con mayorcomplejidad y menos relacionadas con el negocio, se permite elacceso a perfiles expertos en el negocio con una formaciónmenos profunda en ámbitos de data science, llevando a cabotodos los procesos de manera eficiente y robusta y teniendo encuenta restricciones computaciones y de tiempos de ejecución.Por tanto, idealmente, el sistema de AutoML debería permitirautomatizar:

4 El proceso de tratamiento de datos cuando estos tienenmissings, outliers, están mal categorizados o contienenerrores.

4 La posibilidad de combinar, reducir, transformar, crear oeliminar variables con base en criterios estadísticos.

4 El proceso de selección de variables.

4 La selección de un modelo tratando de evitar tanto eloverfitting (un ajuste excesivo sobre unos datos deentrenamiento, desvirtuando la predicción para datos 30Yao, y otros, 2018.

25

Componentes de un sistema de AutoML

En línea con lo anterior, un sistema de AutoML se puede separaren diversos componentes, de forma que, y como puede verseen la figura 4, la anatomía básica contiene los siguientesmódulos:

4 Resumen: fase exploratoria del conjunto de datos quedefinirá el grueso del conjunto de opciones que tendrá queafrontar el proceso de AutoML.

4 Preprocesado: etapa de limpieza y transformación de losdatos brutos antes del procesamiento y análisis.

4 Feature Engineering: proceso en el que se utiliza elconocimiento que aportan los datos para generar variablesque permitan que los algoritmos de machine learningrealicen un mejor desempeño.

4 Generación del modelo: proceso de búsqueda dehiperparámetros y optimización del modelo

4 Evaluación del modelo: conjunto de métricas quepermiten evaluar la precisión de los modelos obtenidos.

4 Interpretabilidad: combinación de técnicas o modelos quepermiten interpretar el resultado obtenido.

De forma general, los componentes que se automatizan dentrodel flujo son algunas fases del tratamiento de datos(preprocesamiento, feature engineering, tratamiento demissings, escalado, etc.), el modelado (selección del algoritmo,optimización de los hiperparámetros, etc.) y finalmente laevaluación de los resultados. Es frecuente que algunas piezasdel tratamiento de datos se dejen fuera del proceso deautomatización, dado que dependen en mayor medida delconocimiento del negocio. Del mismo modo, lainterpretabilidad del modelo no se evalúa de forma automática,si bien sí que se suelen incluir herramientas que ayuden a lacomprensión de los resultados.

Aunque existe una gran variedad de opciones, es necesariogenerar un sistema de AutoML en el que el método, descritocomo marco teórico, se convierta en un conjunto de tareas (enforma de programas) que se relacionan entre sí (mediante laseparación de las tareas en componentes, o a través de undiseño end-to-end). De esta forma, este sistema consta de unflujo de trabajo que automatiza el diseño del workflow demodelización.

En general, en el mercado existen enfoques mixtos, en los quealgunas fases están separadas (como son la preparación de losdatos y el tratamiento de variables, así como la explicabilidadposterior a la selección del modelo), mientras que loscomponentes de feature engineering, selección del algoritmo yevaluación del modelo están incluidas en un modelo deoptimización.

A su vez, los enfoques de modelización en el diseño de dichoflujo se clasifican en enfoques que ponen énfasis en el procesode modelización (model-based schemes) y aquellos que lo hacensobre los datos (data-driven approaches). En el primero, lamodelización requiere un conocimiento a priori tanto denegocio como del componente matemático-estadístico quesustenta el modelo. En el caso del segundo enfoque, laalternativa consiste en procesar la información de los datosdirectamente, sin realizar particiones por componentes en elproceso de modelización.

Figura 3: framework general para un sistema de AutoML.

Fuente: Yao, y otros, 2018.

MANAGEM

ENT SO

LUTIONS



elos

26

Optimización de hiperparámetros

El optimizador utiliza diversas técnicas para encontrar la mejorconfiguración de los hiperparámetros, de forma que eldesempeño del modelo sea el mejor posible. Desde un puntode vista técnico, la función del optimizador es la de buscarconfiguraciones óptimas en el espacio de búsqueda, de formaque encuentre el mínimo global o, al menos, un mínimo local,de la función de coste. Se puede distinguir entre técnicassimples (como grid search, random search, algoritmos evolutivosu optimización bayesiana) o basados en experiencia (comometa-learning o transfer learning).

El evaluador, por su parte, utiliza diversas técnicas para estimarel desempeño de las configuraciones propuestas por eloptimizador, siendo la más simple la de entrenar el modelo.

Cuando esto resulta demasiado costoso computacionalmente,puede ser necesaria la utilización de submuestras o la inclusiónde un early stop.

Técnicas para el optimizador: de los métodos greedy almeta-learning

Una vez que se ha fijado el espacio de búsqueda, es necesarioestablecer un optimizador que permita realizar búsquedas deconfiguraciones en el espacio. Dos de las aproximaciones máscomunes son el Grid Search y el Random Search, en las que no serealizan asunciones sobre el espacio de búsqueda.

31He, Zhao, & Chu, 2019.

Figura 4: diferentes componentes de un sistema de AutoML31.

Resumen Preprocesado

Interpretabilidad

Featureengineering

Generacióndel modelo

Evaluación

4Definición de

objetivos y tareas

4Análisis estadístico

4Limpieza y

tratamiento

de datos

4Exploratory Data

Analysis (EDA)

4Técnicas de

balanceo

4Selección de

variables

4Transformación,

creación y

eliminación de

variables

4Construcción de

modelos

4Búsqueda y

optimización de

hiperparámetros

4Selección del

modelo

4Early stop

4Low fidelity

Métodos gráficos Local InterpretableModel (LIME) & friends

Modelos subrogados

Fuente: He, Zhao, & Chu, 2019.

27

Una búsqueda Grid, o de fuerza bruta, establece una rejilla en elespacio de búsqueda, y evalúa la combinación dada por cadapunto de la red. Este tipo de búsqueda, que se aplicó porprimera vez con un enfoque de AutoML en 199032, no aseguraque se alcance una buena configuración (es decir, un mínimolocal) y puede resultar muy costoso computacionalmente en elcaso de un gran número de hiperparámetros. A partir de esteenfoque se han elaborado otros que mejoran el procesobasados en la utilización de una rejilla inicial para explorar todaslas regiones del espacio y posteriormente una rejilla más fina enlas regiones con mejor comportamiento, pudiendo iterarse elproceso hasta encontrar un mínimo local. Sin embargo, aunquese mejoran los resultados, el coste computacional de este tipode técnicas sigue siendo elevado.

Una de las primeras soluciones que mejora los resultados deuna búsqueda Grid es Random Search, el cual se basa en laselección de un punto en el espacio de búsqueda de formaaleatoria. Esto permite realizar búsquedas en zonas del espaciono equidistribuidas y, por tanto, pudiendo evaluar zonas conmayor desempeño (véase figura 5). Esta técnica sigue siendocostosa a nivel computacional, aunque como solución cumplecon la condición de convergencia: cuanto mayor sea el tiempode búsqueda, más probable será encontrar el set dehiperparámetros óptimo.

Algunos enfoques de algoritmos más elaborados incluyen, porejemplo, los algoritmos evolutivos (entre los que se encuentranlos algoritmos genéticos). Estos algoritmos crean, en unaprimera fase, una población inicial de configuraciones de formaaleatoria. A continuación, evalúan el desempeño de todos losindividuos de la población y se seleccionan los que tienen elmejor desempeño para crear una nueva generación con baseen los primeros. Además, es posible añadir mutaciones a lasnuevas generaciones, de forma que difieran de la generaciónanterior. Este tipo de algoritmos permiten optimizar una granvariedad de problemas, pero siguen sin ser muy eficientes en loque respecta al coste computacional, debido a que sigue siendonecesario evaluar todos los individuos de todas lasgeneraciones.

Tanto los métodos de búsqueda por rejilla o búsqueda aleatoriacomo los algoritmos evolutivos tienen como riesgo que puedeninvestigar de forma repetida regiones con muy bajo desempeñodel espacio de configuraciones sin que sea posible incluir unacondición en la programación del algoritmo que corrija estecomportamiento. La optimización bayesiana (utilizada al menosdesde 200534) soluciona este problema creando un modeloprobabilístico de la función de coste, a través del cual seleccionalas posibles mejores configuraciones de los hiperparámetrospara evaluarlos y poder estimar la verdadera función de coste.La optimización bayesiana puede actualizar el modelo de forma

32Michie, Spiegelhalter, Taylor, & Campbell, 1994.33Bergstra and Bengio, 2012.34Fröhlich & Zell, 2005.

Figura 5: comparación de búsquedas grid y random33 .

Fuente: Bergstra and Bengio, 2012.

Búsqueda derejilla

Búsquedaaleatoria

Parámetro irrelevante

Parámetro irrelevante

Parámetro relevante

Parámetro relevante

MANAGEM

ENT SO

LUTIONS



elos

28

iterativa haciendo un seguimiento de los resultados deevaluaciones anteriores. Esto permite actualizar el modeloprobabilístico en cada cálculo.

Existen casos en los que no pueden aplicarse los procesosanteriores, por ejemplo, al existir escasez de datos. En otroscasos, en los que los datasets pueden ser similares a otrosestudiados anteriormente, este conocimiento no se aplicará.Con estos objetivos se desarrolló el enfoque meta-learning,también conocido como “learning to learn”, que consiste endiseñar modelos de machine learning que sean capaces deimitar el comportamiento humano, aprendiendo nuevosconceptos y habilidades de forma rápida empleando unnúmero reducido de muestras. Es decir, pretende diseñarmodelos que puedan adquirir nuevas habilidades y seancapaces de adaptarse a nuevos entornos rápidamente con unospocos casos.

Técnicas para el evaluador

La manera más simple de evaluar la configuraciónproporcionada por el optimizador es la evaluación directa sobrelos datos de entrenamiento y prueba. Debido al gran númerode configuraciones que se espera que el optimizador leproporcione al evaluador en un proceso de AutoML, estemétodo puede resultar muy lento o muy costosocomputacionalmente. Por este motivo, existen ciertasaproximaciones para acelerar el proceso de evaluación, aunqueello suele suponer una pérdida en la capacidad predictiva enlos modelos obtenidos. Entre estas técnicas se incluyen laevaluación sobre subconjuntos de los datos de entrenamiento;procesos early stop, en los que el evaluador deja de evaluar si eldesempeño es muy bajo en las primeras iteraciones; lareutilización de parámetros entrenados en modelos anteriorespara inicializar el nuevo modelo; o finalmente, la utilización demodelos subrogados para predecir el desempeño,generalmente utilizando la experiencia de pasadasevaluaciones.

Neural Architecture Search (NAS)

Debido al auge de la aplicación de técnicas de deep learning enaspectos como el reconocimiento de imágenes,reconocimiento de voz y traducción automática, uno de losámbitos a los que más interés se ha dedicado es a laconfiguración de arquitecturas de redes neuronales. De maneraanáloga a lo comentado anteriormente, estas configuracionesse establecen habitualmente de manera manual por parte deexpertos humanos, lo que incurre en los errores anteriormentecomentados.

35Elsken, Metzen, & Hutter, 2019.

Figura 6: esquema conceptual de un NAS35.

Fuente: Elsken, Metzen, & Hutter, 2019.

29

A la hora de implementar un sistema de AutoML en la práctica esnecesario tener en cuenta algunas consideraciones, tales como elperfil del usuario que vaya a utilizar el sistema o la profundidad ypersonalización del análisis requerida. Sin embargo, es posibleenglobar estas implementaciones en dos enfoques principales:

4 Un enfoque consiste en el diseño de un flujo parcial ototalmente editable (figura 7), donde el usuario puede definirel flujo que va a seguir el proceso de tratamiento de datos, asícomo las técnicas que se aplicarán en cada fase de este proceso.En este caso, el nivel de automatización es menor, ya que soloaplica a la ejecución de los módulos una vez se ha definido suorden. Debido a estas características, este enfoque resulta másadecuado cuando el usuario posee conocimientos técnicosavanzados.

4 Un enfoque alternativo es aplicar una automatización end-to-end, con un flujo predefinido (figura 8). Los datos siguen unproceso donde el orden de cada componente de AutoML estáfijado según el pipeline general de construcción de modelos demachine learning. De esta forma, el usuario no tiene necesidad

de modificar el orden de ejecución de los componentes en eldesarrollo. Este puede elegir los tipos de técnicas que aplica encada componente, pero siempre siguiendo el ordenpredefinido. Debido a estas características, este enfoque resultamás adecuado cuando el usuario no posee conocimientostécnicos avanzados, lo que es habitual en los perfiles con focoen negocio.

Actualmente, en ninguno de los enfoques se automatiza lageneración de nuevas variables a partir de las originales. Losmotivos son tanto computacionales (crear transformacionesaleatorias de variables genera un coste computacional muy alto)como de negocio (el conocimiento experto del tipo de problema quese está tratando permite conocer qué transformación es la másapropiada y permite darle un sentido más adecuado a la hora deinterpretar el resultado).

Enfoques para la implementación AutoML

36La herramienta de modelización incorpora un módulo, Model Creator, quese basa en la automatización end-to-end, y un módulo alternativo, ModelComponent, que permite la generación del flujo por parte del usuario.

Figura 8: flujo preestablecido.Figura 7: flujo parcial o totalmente editable.

Figura 9: workflow diseñado en la herramienta de modelización por componentes creada por Management Solutions36.

Fuente: Management Solutions. Fuente: Management Solutions.

Fuente: Management Solutions.

MANAGEM

ENT SO

LUTIONS



elos

30

Como alternativa, la búsqueda de arquitecturas neuronales(NAS por sus siglas en inglés) se basa en el uso de distintastécnicas para automatizar el diseño de redes neuronales. Losaspectos sobre los que existen parámetros son análogos a loscomentados anteriormente: espacio de búsqueda, estrategia debúsqueda y estimación de desempeño. Al usar estas técnicas,todo el proceso se determina de forma simultánea, según loindicado en la figura 6.

Aunque al aplicar los enfoques NAS los elementos del procesose determinan de manera simultánea, los procesos previos,como los relacionados con la preparación de datos o el featureengineering, suelen ser necesarios y su correcta aplicaciónredunda en mejoras del poder predictivo.

En el espacio de búsqueda se incluyen diversos elementos,como son el número de capas del algoritmo, el tipo deoperación que realiza cada capa, los hiperparámetros asociadosa estas operaciones (como el número de filtros o el tamaño delkernel asociado), así como la relación y jerarquía existentesentre las distintas capas en función del algoritmo que se utilice.Si se tiene información a priori sobre posibles arquitecturas quesuelen funcionar adecuadamente para una determinada tarea,se puede reducir el tamaño del espacio, simplificando así labúsqueda. En esta misma línea, también se utilizan enfoquespara reducir el espacio de búsqueda, como es establecer este através de bloques de capas en lugar sobre la arquitecturaentera.

Respecto a las estrategias de búsqueda, y como se hacomentado anteriormente, existen diversas estrategias entre lasque se incluyen la optimización bayesiana, random search y losmétodos evolutivos o basados en experiencias previas como elreinforcement learning. En la práctica, estas técnicas nopresentan resultados mejores frente a las estrategias basadas enbúsquedas aleatorias. En el ámbito académico, un estudio

reciente37 destaca motivos como el uso de espacios debúsqueda restringido por estos algoritmos, así como losrepartos del peso de las distintas capas en la decisión finalcomo los elementos que limitan los resultados.

Por último, en relación con las estrategias para optimizar eldesempeño de NAS, existen aproximaciones “de baja fidelidad”,en las cuales se utilizan tiempos de entrenamiento más cortos,entrenamiento en subconjuntos de los datos o con menosfiltros por capa, con el problema de una subestimación deldesempeño. Otras estrategias consisten en la extrapolación dela curva de aprendizaje, en la utilización de modelossubrogados para predecir el desempeño de las nuevasarquitecturas, inicializar la red con pesos obtenidos de redesentrenadas previamente o utilizando teoría de grafos.

Si bien la búsqueda de arquitecturas neuronales ha logrado unnivel de rendimiento que puede competir con la configuraciónmanual, por el momento los motivos que explican por qué lasarquitecturas seleccionadas funcionan bien no están claros. Delmismo modo, hace falta más constatación empírica sobre si losmotivos que hacen que una configuración funcione puedengeneralizarse para diferentes problemas.

Retos actuales de los sistemas de AutoML

Actualmente, y pese a existir aún recorrido de mejora, lossistemas de AutoML han llegado a un grado de desarrollo queles permite competir, e incluso batir, a los expertos humanos enmachine learning, configurándose como una herramientafundamental, que modifica el tipo de trabajo desarrollado por

37Sciuto, 2019.

31

los profesionales implicados. De esta forma, los data scientists sedistribuyen hacia tareas más relacionadas con el análisis previoy posterior al desarrollo de los propios modelos, así como almantenimiento de estos métodos y sistemas.

Algunos de los retos actuales consisten en la mejora delproceso, así como en incorporar la interpretabilidad y permitiruna interacción más sencilla por parte de los expertos:

4 Actualmente, la mayor parte de las innovaciones estándirigidas a la selección y optimización de modelos,poniendo menos atención en el tratamiento y lapreparación de los datos. Esto se debe a la dificultad deautomatizar algunos procesos sin que acarree un gran costecomputacional.

4 Otra cuestión abierta es cómo tratar elementos con unainterpretabilidad muy baja, conocidos como black boxes, yaque pueden conllevar problemas tanto legales como éticosy técnicos en su incorporación en las decisiones. En estalínea, algunas de las principales líneas de investigación vandirigidas al Explainable AI, la interpretabilidad y la mejora enla trazabilidad y transparencia de los modelos. Esteproblema también es compartido por la forma tradicionalde desarrollar modelos de machine learning. Sin embargo, lamayor automatización ofrecida por un sistema de AutoMLhace que se enfatice más su uso en este proceso.

4 Por otro lado, para que los sistemas de AutoML seanefectivos, deben permitir al usuario interactuar con elsistema, permitiéndole modificar y sobreescribir lasdecisiones que tome, incorporando el conocimiento de losexpertos en negocio respecto a diversos aspectos delproceso, como por ejemplo las predicciones realizadas ocon relación a la complejidad e interpretabilidad de losmodelos obtenidos.

4 Por último, destaca la necesidad de establecer benchmarksque sirvan de estándar para poder comparar el desempeñoentre las diferentes soluciones propuestas, así como contarcon una definición clara de las métricas utilizadas paramedir este desempeño.

Augmented machine learning

Uno de los enfoques que está acaparando más atenciónderivados de la generalización de la aplicación de métodos ysistemas de AutoML es el denominado Augmented machinelearning. En este enfoque, la automatización de ciertos procesostiene como objetivo que los sistemas de AutoML permitanlidiar con la complejidad derivada del aumento de posiblesarquitecturas, opciones de hiperparámetros y opciones deentrenamiento, pero que siga existiendo un experto que utilicelos resultados de la herramienta y evalúe las alternativas y lascombinaciones arrojadas de una manera holística. Esto seexplica por diversos motivos:

4 El primero de ellos es que estos sistemas no puedenincorporar el contexto que sí tiene el usuario sobre losdatos, por lo que parece que mejora el proceso el hecho deque el usuario guíe al sistema en la búsqueda de patronessobre los datos. Este concepto, conocido comorepresentation engineering, es, por ejemplo, habitual enámbitos como la interpretación de búsquedas en internet38.

4 Por otro lado, el análisis de información en silos a travésde estas herramientas provoca que se reduzca el valoresperado que puede extraerse mediante las técnicas deadvanced analytics, por lo que es fundamental el papel deun experto en data science que tome decisiones sobrecuestiones como cuándo deben combinarse las distintasfuentes de datos o en qué casos aplicar técnicas de transferlearning, entre otras; dado que no es posible, por elmomento, que los sistemas de AutoML aborden el análisisde todas las posibles opciones antes de tomar la decisión.

4 Por último, y como se ha comentado en el punto anterior,las cuestiones éticas relativas al objetivo, a los datosutilizados, así como a los posibles sesgos que se generanen el proceso de decisión, requieren que un analista evalúetanto la pertinencia de utilizar el modelo en un proceso detoma de decisiones como las limitaciones del modelo. Engeneral, el uso como soporte en la toma de decisionesfunciona adecuadamente, mientras que la aplicación deljuicio automático es imperfecto, si bien está mejorando. Enel caso de la predicción del comportamiento humano, susresultados son dudosos39.

38Abbasi, Kitchens, & Ahmad, 2019.39Narayanan, 2019.

MANAGEM

ENT SO

LUTIONS



elos

32

Competiciones de AutoML: una herramienta deexploración de enfoques de AutoML

“¡Ford! -exclamó-. Afuera hay un número infinito de monos que quieren hablarnos de un guion de Hamlet que han elaborado ellos mismos.”

Douglas Adams40

4 En algunos casos, el método anterior es mejorado a travésdel uso de métodos de regularización.

4 El sobreentrenamiento es controlado mediante la inclusiónde condiciones de parada en los métodos de optimizacióniterativos.

4 No se suele optimizar la separación entre la muestra deentrenamiento y validación.

Como resultado, se puede observar que en ningún caso seconsigue automatizar todo el proceso y es necesario que existaintervención humana en las tareas más relacionadas con ladefinición del ejercicio. Aún sigue siendo difícil seleccionar unsistema según el tipo de problema, así como adaptarlo alconjunto de datos existente.

Con relación a las variables, la dificultad está directamenterelacionada con la existencia de ciertos atributos en los datasetsanalizados, como son la existencia de datos desbalanceados, laescasez de datos, la existencia de missings o la existencia devariables categóricas. En estos casos, la intervención paraidentificar, tratar y evaluar el impacto del tratamiento en elproceso es mayor.

Sobre el proceso de selección de configuraciones ehiperparámetros, los principales problemas se derivan del usode técnicas ad hoc que empeoran el desempeño del modelo,como son la separación mediante técnicas poco sofisticadas dela muestra en entrenamiento y test, la selección inapropiada dela complejidad del modelo, la selección de hiperparámetrosconsiderando únicamente la muestra de test, no usar todos losrecursos computacionales o la definición inadecuada demétricas de performance.

Como se ha visto en los apartados previos, y a pesar de losavances que se han observado últimamente en esta disciplina,aún sigue sin prevalecer un enfoque sobre el resto dealternativas en cuestiones como el preprocesamiento de datosprevio a la modelización, cómo seleccionar los algoritmos ocómo configurarlos adecuadamente. No obstante, sí queempiezan a trazarse algunas tendencias y cánones que deberíaincorporar cualquier proceso que integre técnicas de advancedanalytics y, en particular, un sistema de AutoML.

Un enfoque habitual para evaluar los distintos enfoques deAutoML ha sido el desarrollo de competiciones entre datascientists con el objetivo de construir sistemas de AutoML. Estasson una buena referencia dado que permiten enfrentar enigualdad de condiciones los distintos enfoques y, por tanto,extraer de sus resultados si existen algunas configuracionespreferibles y bajo qué circunstancias funcionan mejor. En unmomento inicial, estas competiciones se basaban en laevaluación de la selección de modelos e hiperparámetros41.Posteriormente, este tipo de ejercicios se ha refinado, de formaque se busca que los participantes desarrollen un sistemaautomático y computacionalmente eficiente capaz de entrenary evaluar modelos sin ninguna intervención humana42.

En general, el principal objetivo de estas competiciones es darrespuesta a una serie de cuestiones como son i) conocer elefecto de las limitaciones de tiempo en el diseño de losalgoritmos, ii) identificar qué tareas son más difíciles y para quétipo de participantes, iii) saber si existen ciertas configuracionesque suelen funcionar mejor para determinados tipos dedatasets o problemas, y iv) evaluar el impacto de laoptimización de hiperparámetros y configuraciones sobre eldesempeño de los modelos finales.

Un repaso a las competiciones de AutoML

En las distintas competiciones que se han analizado se puedenobservar algunos patrones43:

4 En general, es habitual el uso de enfoques heurísticos o debúsquedas grid o uniformes sobre el espacio de búsquedadefinido a través de una definición lineal o logarítmica.

33

40Douglas Adams, “Guía del autoestopista galáctico” (1979). Escritor y guionistainglés, conocido especialmente por la saga de nombre homónimo.

41Véase, por ejemplo, NIPS 2005.42NIPS 2016, ICML 2016 y PAKDD 2018.43Hutter, Kotthoff, & Vanschoren, 2019.

MANAGEM

ENT SO

LUTIONS



elos

34

Desde el punto de vista de las técnicas de búsqueda, se observaun amplio uso de técnicas basadas en grid o en distribucionesuniformes sobre los parámetros del espacio de búsqueda,aunque existen algunas sofisticaciones basadas en métodos deregularización o enfoques bayesianos que evitan el overfittingincorporando condiciones de parada.

Competición de AutoML ManagementSolutions

Objetivo y definición

Con un espíritu similar, en Management Solutions se hadiseñado y llevado a cabo una competición, dirigida a losprofesionales de la Firma, con el objetivo de generar unalgoritmo de AutoML que sea capaz de realizar predicciones endiferentes datasets sin realizar modificaciones en el código, conuna limitación temporal para incentivar la eficienciacomputacional. El ejercicio planteado se basó en la resolución, através de la aplicación de enfoques supervisados, de problemasde respuesta binaria bajos las siguientes condiciones:

4 3 datasets con distintos tamaños (<100 kb, <1 Mb y <5 Mb),todos ellos con una muestra balanceada.

4 Sin valores missings, con variables tanto categóricas comocontinuas, e incluyendo variables irrelevantes.

4 Con una limitación de recursos computacionales: equipocon Windows 10, procesador Intel Core i5-6300 CPU @2.40GHz 2.50GHz y 8 Gb de memoria RAM, y con un tiempode ejecución máximo de 20 minutos para cada dataset.

Evaluación

Se ha evaluado la función enviada con tres datasets diferentes,similares a los enviados como muestras de entrenamiento. Paraello, se han tenido en cuenta los siguientes aspectos:

4 Métrica área bajo la curva (AUC) (50%).

4 Calidad y limpieza del código y utilización de estándar PEP8(20%).

4 Utilización de Programación Orientada a Objetos (10%).

4 Originalidad (20%).

Resultados

El número de participantes ha sido superior a cien, integradosen más de setenta equipos, con perfiles muy diversos; tantofísicos, matemáticos, ingenieros y economistas. Muchos de losparticipantes, poseen o están cursando algún postgrado endata science. El origen geográfico de los participantes es,asimismo, muy diverso: Perú, Chile, Colombia, Brasil, Alemania,Estados Unidos y España.

A lo largo de la competición los participantes se han enfrentadoa diversas elecciones referidas al tratamiento de datos, a laobtención de modelos y la optimización de loshiperparámetros. La mayoría de los equipos ha realizado untratamiento de los datos basado en la eliminación de posiblesoutliers y variables correlacionadas, la normalización devariables, la reducción de la dimensionalidad y la imputación demissings. Algunos equipos han utilizado técnicas WOE o one-hot-encoding para las variables categóricas y un tratamiento

pudiendo existir modelos estimados pero no evaluados en lamuestra.

En general se ha llevado a cabo una optimización de todo elpipeline, la utilización de modelos stacking o la paralelización delas tareas en diversos núcleos, así como la inclusión de módulosde interpretabilidad por parte de algunos de los equiposparticipantes, ya sea para interpretar los datasets o parainterpretar el proceso de AutoML, como puede ser la elecciónde un modelo frente a otros.

La limitación en el tiempo de ejecución de cada dataset no hatenido un gran impacto en general, puesto que los archivos deevaluación eran pequeños y los AutoML de los participantesejecutaban sin problema en ese tiempo. Solo algunosparticipantes limitaron el número de modelos a evaluar paraevitar superar el tiempo estipulado.

específico para el caso de que existieran conjuntos de datosdesbalanceados, así como la consideración de interaccionesentre las variables para aumentar la capacidad predictiva; o laeliminación de variables irrelevantes, como pueden servariables constantes, con muy poca varianza o variablescategóricas con un número de categorías muy grande conrespecto al número total de entradas.

El objetivo detrás de estos tratamientos es claro: por un lado,prepara los datos para que sean correctamente leídos por losmodelos utilizados, y, por otro, reduce la dimensionalidad delespacio de búsqueda, de forma que se requiera menos tiempopara encontrar una configuración óptima. Otros participanteshan adoptado un enfoque distinto para tratar este problema,limitando el número de ejecuciones del algoritmo a un númeroespecífico y constante o limitando el número de modelos quese evalúan por el sistema.

La optimización de hiperparámetros se ha enfocado, en lamayoría de casos, a través del uso de búsquedas grid. Algunosequipos han utilizado random search, algoritmos genéticos obúsqueda bayesiana. Cabe destacar que un participante haimplementado el uso de un random search para posteriormenterealizar una búsqueda en un entorno de la configuraciónóptima encontrada, para tratar de mejorar la métrica con dichasconfiguraciones en el caso de que el resultado dado por elrandom search no superase una puntuación determinada.

Para evaluar el desempeño de la configuración propuesta, losequipos han utilizado cross validation, y los modelosimplementados fueron, en su mayoría, obtenidos de la libreríascikit-learn, salvo algunas excepciones como el uso de keras,lightgbm o xgboost. Para optimizar tiempo computacional,algunos participantes realizaron un estudio previo de lasvariables más predictivas para trabajar solamente con ellas,mientras que otros evaluaron una lista de modelos y dejaron deevaluar cuando se alcanzó el tiempo máximo definido,

35

MANAGEM

ENT SO

LUTIONS



elos

36

Reflexiones finales

¿Y bien? ¿Qué opinas de mi nuevo poema?Una vez leí que, dado un tiempo infinito, un millar de monos con máquinas de escribir podrían, con el tiempo, escribir las obras completas de Shakespeare

Pero, ¿qué hay de mi poema?Tres monos, diez minutos

– Scott Adams44

37

Situación actual y retos del AutoML

Las configuraciones utilizadas para la obtención de modelos demachine learning dependen significativamente de losapriorismos de los analistas y de ajustes manuales, lo quegenera que el desarrollo de modelos mediante técnicas demachine learning requiera programar explícitamente una grancantidad de código. De esta manera, la elección y por tanto eldesempeño de muchos de los métodos de machine learningutilizados depende de una gran cantidad de decisiones sobre sudiseño que se toman de manera manual o basadas en hipótesisprevias y, por tanto, se puede incurrir en subóptimos,cometiendo overfitting en modelos desarrollados con datasetspequeños y underfitting para datasets de mayor tamaño45, loque indica que aún se requieren mejoras para poder garantizarun uso adecuado de estos sistemas para su aplicación industrial.

Si bien los enfoques de AutoML han llegado a un grado dedesarrollo que puede competir y batir a los expertos humanosen machine learning, aún existen muchas cuestiones que debenresolverse para que puedan aplicarse correctamente. Elprincipal reto al que se enfrentan los actuales sistemas deAutoML es que las decisiones de diseño se tomen con unenfoque data-driven, de manera objetiva y automática.

En todo caso, lo anterior no es incompatible con que el usuariotenga la posibilidad de interactuar con el sistema y podermodificar y sobreescribir las decisiones que este tome. En estesentido, el desarrollo de modelos de machine learning se realizaa través de una industria artesanal donde los expertos abordanlos problemas mediante un diseño de soluciones manuales, queen muchos casos se toman ad-hoc para ese proyecto, así comolas preferencias y apriorismos de los expertos, pero muchasveces no incorpora la sensibilidad de los expertos en negocio.Una interfaz entendible para los business analysts que permitaejecutar un sistema de AutoML evita la decisión manual en lasconfiguraciones, y a su vez posibilita la incorporación dedecisiones de negocio respecto al signo o la importancia de lasvariables o la selección de modelos con base en lainterpretación de las proyecciones, la sensibilidad frente aescenarios o la complejidad e interpretabilidad de los modelosobtenidos.

Otra cuestión abierta es cómo tratar los elementos que sonblack boxes, ya que limitan su interpretabilidad y puedenconllevar problemas tanto legales, como éticos y técnicos en suincorporación en las decisiones. En esta línea, algunas de lasprincipales líneas de investigación van dirigidas al ExplainableAI, la interpretabilidad y la mejora en la trazabilidad ytransparencia de los modelos.

Por último, algunos aspectos, como la eficiencia de los procesosde búsqueda, están siendo constantemente mejorados, comopuede verse en las distintas competiciones46.

Grado de desarrollo

Los avances en AutoML son desiguales: la mayor parte de lasinnovaciones están dirigidas a algunas técnicas de featureengineering y a la selección de modelos frente al tratamiento ypreparación de datos47, donde aún queda mucho recorrido demejora. Esto tiene efectos tanto sobre el tipo de tareas que sedeben desarrollar en las organizaciones, como en el volumen deempleo.

Por un lado, sustituye las tareas con mayor complejidad ymenos relacionadas con el negocio relativas al diseño depipelines para cada problema específico, lo que permite eldiseño de un pipeline completo por parte de perfiles con menosconocimiento de machine learning y por tanto dedicar a estastareas a expertos en el negocio con una formación menosprofunda en ámbitos data science.

Por otro, requiere una infraestructura que permita llevar a caboestos procesos, así como mantenerlos actualizados, bien sea através de la externalización o la contratación de servicios deAutoML bien a través de la generación de un AutoML propioque requiera de equipos especializados para que el workflowfuncione correctamente.

Además, existen cuestiones que apenas han sido tratadas porparte de los sistemas de AutoML, de forma que tareas como laintegración o la limpieza de datos, la generación de variables oel tratamiento de estas, así como algunos enfoques de machinelearning como, por ejemplo, el aprendizaje no supervisado o elreinforcement learning, no están habitualmente integrados enestos sistemas.

De esta manera, se prevé que los sistemas de AutoML seconfiguren como una herramienta fundamental, que puedemodificar el tipo de trabajos desarrollados, de forma que losdata scientists se distribuyan hacia tareas más relacionadas conel análisis tanto previo como posterior al desarrollo de lospropios modelos, a la generación de los sistemas de AutoML, y ala resolución de problemas donde las herramientas genéricas deAutoML no permitan una adecuada configuración.

44Scott Adams en una viñeta de Dilbert de 1989. Dibujante, autor de la tira diariahomónima

45Por ejemplo, en el caso de los métodos HPO. Ver Hutter, Kotthoff, & Vanschoren,2019.

46Hutter, Kotthoff, & Vanschoren, 2019.47Ibídem.

MANAGEM

ENT SO

LUTIONS



elos

38

Bibliografía

39

Abbasi, A., Kitchens, B., & Ahmad, F. (2019). The Risks ofAutoML and How to Avoid Them. Harvard Business Review.

Bank of England. (2019). Machine learning in UK financialservices. Bank of England.

Bergstra, J., & Bengio, Y. (2012). Random Search for Hyper-Parameter Optimization. Journal of machine learning research.

Cátedra iDanae. (3T-2019). Interpretabilidad de los modelosde Machine Learning. Cátedra iDanae.

Cátedra iDanae. (4T-2019). Ética e Inteligencia Artificial.Cátedra iDanae.

CrowdFlower. (2017). Data Scientist Report. CrowdFlower.

Elsken, T., Metzen, J. H., & Hutter, F. (2019). NeuralArchitecture Search: A Survey. Journal of Machine LearningResearch.

European Banking Authority. (2020). EBA report on Big Dataand Advanced Analytics. European Banking Authority.

European Comission. (2020). White paper on ArtificialIntelligence - A European approach to excellence and trust.European Comission.

Fröhlich, H., & Zell, A. (2005). Efficient Parameter Selection forSupport Vector Machines in Classification and Regression viaModel-Based Global Optimization. IEEE Xplore.

Gartner. (2019). How Augmented Machine Learning IsDemocratizing Data Science. Gartner.

He, X., Zhao, K., & Chu, X. (2019). AutoML: A Survey of theState-of-the-Art. arXiv preprint arXiv:1908.00709.

Hutter, F., Kotthoff, L., & Vanschoren, J. (2019). AutomatedMachine Learning: Methods, Systems, Challenges. Springer.

Management Solutions. (2014). Model Risk Management:Aspectos cuantitativos y cualitativos de la gestión del riesgo demodelo. Management Solutions.

Management Solutions. (2018). Machine Learning, una piezaclave en la transformación de los modelos de negocio.Management Solutions. Obtenido de Management Solutions.

Management Solutions. (2019). De proyectos Agile, aorganizaciones Agile. Management Solutions.

Michie, D., Spiegelhalter, D., Taylor, C., & Campbell, J.(1994). Machine Learning, Neural and Statistical Classification.Ellis Horwood.

Mitchell, T. M. (1997).Machine learning. McGraw-Hill.

Narayanan, A. (2019). How to recognize AI snake oil.

Samuel, A. L. (1959). Some studies in machine learning usingthe game of checkers. IBM Journal of research anddevelopment. IBM J. Res.

Sciuto, C. &. (2019). Evaluating the Search Phase of NeuralArchitecture Search. Sciuto, Christian & Yu, Kaicheng & Jaggi,Martin & Musat, Claudiu & Salzmann, Mathieu.

Segal, M. R. (2004). Machine Learning Benchmarks andRandom Forest Regression.

Stanford University. (2019). AI Index Report. StanfordUniversity.

Statista (2019). Cost decreases from adopting artificialintelligence (AI) in organizations worldwide as of 2019, byfunction. Statista.

Wolpert, D. H., & Macready, W. G. (1997). No Free LunchTheorems for Optimization. IEEE transactions on evolutionarycomputation.

Yao, Q., Wang, M., Chen, Y., Dai, W., Li, Y.-F., Tu, W.-W., . . .Yu, Y. (2018). Taking Human out of Learning Applications: ASurvey on Automated Machine Learning. arXiv preprintarXiv:1810.13306.

MANAGEM

ENT SO

LUTIONS



elos

40

Glosario

41

Cloud Computing: disponibilidad de recursos, como porejemplo almacenamiento de datos y potencia computacional,sin una gestión activa por parte del usuario.

Configuración: las posibles combinaciones de valores quepueden tomar los hiperparámetros.

Cross Validation: proceso de validación de muestras cruzadasque consiste en dividir la muestra en k grupos, y de formaiterativa utilizar cada uno de los grupos para la validación y elresto para la construcción, cambiando el grupo de validación encada iteración.

Early Stop: técnica que consiste en parar el proceso debúsqueda de forma anticipada a la planeada si se cumplenciertos requisitos.

Espacio configuraciones: conjunto de todas las posiblesconfiguraciones sobre el que se busca la configuración óptimapara realizar la mejor predicción posible.

Feature Engineering: proceso de extracción de característicasde los datos mediante el uso de técnicas de data mining yconocimiento de un ámbito concreto.

Función de coste: función cuyos mínimos corresponden a lasconfiguraciones óptimas. Buscar la configuración óptimaequivale a encontrar los mínimos de la función de coste.Algunas funciones de coste pueden ser el error cuadráticomedio o la entropía cruzada, entre otras opciones.

Grid / random / evolutivos / bayes / meta / transfer: diferentesmétodos que se utilizan para buscar optimizaciones dehiperparámetros.

Hiperparámetro: parámetro que no puede ser obtenidodurante el proceso, y debe ser fijado previamente. Los valoresque deben tomar los hiperparámetros para resolver unproblema específico son desconocidos.

Machine learning: campo de las ciencias de la computaciónque se centra en desarrollar técnicas que permitan que unprograma pueda aprender a encontrar patrones en un conjuntode datos.

Métrica: medida para evaluar el desempeño de un modelo.

Missings: valores que faltan dentro de un dataset.

Modelo subrogado: modelo, generalmente más simple, quetrata de emular un modelo más complejo en determinadosentornos o situaciones.

Normalización: tratamiento de datos que consiste en hacer quela media de los valores de una variable esté centrada en cero yse mueva entre -1 y 1.

Outliers: valores que, por haber sido mal medidos, o por ser uncomportamiento atípico, se encuentra numéricamente alejadosdel resto de datos.

Overfitting / underfitting: característica de un modelo que seda cuando este se ha ajustado demasiado / demasiado poco a lamuestra de entrenamiento, de forma que no consigueresultados satisfactorios sobre muestras diferentes a esta (porejemplo, sobre la muestra de validación).

Parámetro: propiedad interna al modelo que se aprendedurante el proceso de aprendizaje, siendo necesario para larealización de predicciones.

Reducción de dimensionalidad: proceso por el cual se hace máspequeño el espacio de búsqueda, ya sea por combinación devariables, eliminación u otros métodos.

Regularización: técnica matemática que consiste en añadir uncomponente a la función de coste para detectar aquellasvariables que no están aportando al modelo informaciónsignificativamente diferente. Se utiliza para evitar problemas deoverfitting (como, por ejemplo, el caso de las redes elásticas).

Variable continua / categórica: una variable continua es unavariable numérica que puede tomar cualquier valor entre dosvalores límite. Una categórica puede ser una variable numéricaque sea discreta, o pueden ser palabras u otro tipo de variable.

Variables correlacionadas: variables que tienen uncomportamiento similar.

WOE (Weight of Evidence): tratamiento de datos para variablescategóricas.

MANAGEM

ENT SO

LUTIONS



elos

42

Nuestro objetivo es superar lasexpectativas de nuestros clientes

convirtiéndonos en socios deconfianza

Management Solutions es una firma internacional de servicios deconsultoría centrada en el asesoramiento de negocio, finanzas,riesgos, organización y procesos, tanto en sus componentesfuncionales como en la implantación de sus tecnologíasrelacionadas.

Con un equipo multidisciplinar (funcionales, matemáticos,técnicos, etc.) de 2.500 profesionales, Management Solutionsdesarrolla su actividad a través de 31 oficinas (15 en Europa, 15 en América y 1 en Asia).

Para dar cobertura a las necesidades de sus clientes,Management Solutions tiene estructuradas sus prácticas porindustrias (Entidades Financieras, Energía, Telecomunicaciones yOtras industrias) y por líneas de actividad (FCRC, RBC, NT) queagrupan una amplia gama de competencias: Estrategia, GestiónComercial y Marketing, Gestión y Control de Riesgos, Informaciónde Gestión y Financiera, Transformación: Organización yProcesos, y Nuevas Tecnologías.

El área de I+D da servicio a los profesionales de ManagementSolutions y a sus clientes en aspectos cuantitativos necesariospara acometer los proyectos con rigor y excelencia, a través de laaplicación de las mejores prácticas y de la prospección continuade las últimas tendencias en data science, machine learning,modelización y big data.

Javier Calvo MartínSocio de Management [email protected]

Manuel Ángel GuzmánDirector de I+D deManagement [email protected]

Daniel Ramos GarcíaSupervisor de I+D deManagement [email protected]

Segismundo JiménezSupervisor de I+D deManagement [email protected]

Carlos Alonso Viñas Consultor de Management [email protected]

Management Solutions, servicios profesionales de consultoría

Management Solutions es una firma internacional de servicios de consultoría, centradaen el asesoramiento de negocio, riesgos, finanzas, organización y procesos.

Para más información visita www.managementsolutions.com

Síguenos en:

© Management Solutions. 2020Todos los derechos reservados

Madrid Barcelona Bilbao Coruña London Frankfurt Paris Amsterdam Copenhaguen vOslo Warszawa Zürich Milano Roma Lisboa Beijing New YorkBoston Atlanta Birmingham Houston San Juan de Puerto Rico San José Ciudad de México Medellín Bogotá Quito São Paulo Lima Santiago de Chile Buenos Aires

auto machine learning, hacia la automatización de los modelos · todos los derechos reservados....

Documents