analisis nutricional de los alimentos soportado en

39
1 ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN APRENDIZAJE NO SUPERVISADO WILLIAN ANGULO IBARRA ANTEPROYECTO DE GRADO PARA OPTAR AL TÍTULO DE: INGENIERO DE SISTEMAS JOSE ARMANDO ORDOÑEZ FUNDACION UNIVERSITARIA DE POPAYÁN FACULTAD DE INGENIERÍA PROGRAMA DE INGENIERÍA DE SISTEMAS GRUPO DE INVESTIGACIÓN IMS/LOGICIEL” Popayán, julio de 2020

Upload: others

Post on 09-Jul-2022

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

1

ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN APRENDIZAJE NO SUPERVISADO

WILLIAN ANGULO IBARRA

ANTEPROYECTO DE GRADO PARA OPTAR AL TÍTULO DE: INGENIERO DE SISTEMAS

JOSE ARMANDO ORDOÑEZ

FUNDACION UNIVERSITARIA DE POPAYÁN FACULTAD DE INGENIERÍA

PROGRAMA DE INGENIERÍA DE SISTEMAS GRUPO DE INVESTIGACIÓN “IMS/LOGICIEL”

Popayán, julio de 2020

Page 2: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

2

CONTENIDO

RESUMEN .........................................................................................................................................5

1. INTRODUCCIÓN ........................................................................................................................6

2. PLANTEAMIENTO DEL PROBLEMA ...........................................................................................7

1.2 Formulación del Problema. ....................................................................................................7

2 OBJETIVOS ................................................................................................................................8

2.1 Objetivo General ....................................................................................................................8

2.2 Objetivos Específicos ..............................................................................................................8

3 JUSTIFICACIÓN .........................................................................................................................8

4 MARCOS DE REFERENCIA .........................................................................................................9

4.1 Marco Teórico – Conceptual ..................................................................................................9

4.1.1 Seguridad Alimentaria .........................................................................................................9

4.1.2 Minería de datos .................................................................................................................9

4.1.3 Machine Learning ............................................................................................................. 10

4.1.3.1 Aprendizaje Supervisado o Predictivo .......................................................................... 10

4.1.3.2 Aprendizaje No Supervisado ......................................................................................... 10

4.1.3.2.1 Clustering ................................................................................................................... 10

4.1.3.2.2 k-mean Clustering ...................................................................................................... 10

4.1.3.2.3 Cluster jerárquicos ..................................................................................................... 11

4.1.4 Data Analytics .................................................................................................................. 11

4.2 Antecedentes y estado del arte. ......................................................................................... 11

5 METODOLOGÍA ..................................................................................................................... 16

5.1. Metodología de Aplicación systematic Review ................................................................. 16

5.2. Metodología de Aplicación CRISP-DM .............................................................................. 16

6. RESULTADOS Y DISCUSIÓN ................................................................................................... 34

7. CONCLUSIONES ..................................................................................................................... 35

8. RECOMENDACIONES ............................................................................................................. 36

9. BIBLIOGRAFÍA ........................................................................................................................ 37

Page 3: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

3

TABLAS

Tabla 1. Resultado de la búsqueda (documentos filtrados). 12 Tabla 2. Artículos relacionados. 13 Tabla 3. Variable de datos del conjunto de datos 18

GRAFICAS

Grafica 1. Diafragma de dispersión de tres variables 26 Grafica 2. Gráfico método del codo 28 Grafica 3. Suma de los cuadrados 29 Grafica 4. Puntaje de distorsión del codo para el cluster 29 Grafica 5. Método de la silueta 30 Grafica 6. Componentes principales 31 Grafica 7. Componentes principales y cada cluster 32 Grafica 8. Valores de la Silueta 33

FIGURAS

Figura 1. Fases de la Metodología de Aplicación CRISP–DM 16 Figura 2. Librerías de Python 19 Figura 3. Eliminación de columnas del conjunto de datos 20 Figura 4. Valor total de nulos en las características 20 Figura 5. Ejemplo del método dropna() en Python 21 Figura 6. Crear Índice del Conjunto de Datos 22 Figura 7. Seleccionar características de tipo numérico 22 Figura 8. Seleccionar características de tipo Object 22 Figura 9. Normalización de los datos 27 Figura 10. Variables para el modelamiento 28 Figura 11. Centros para las 28 variables en los 4 grupos 30 Figura 12. Medida de los cluster y sus etiquetas 31 Figura 13. Agrupación del cluster por descripción de alimentos 34

MAPAS

Mapa 1. Mapa correlación de variables 23 Mapa 2. Resultado de la correlación 25

Page 4: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

4

CERTIFICACION DE AUTORIA

Certifico que conozco el concepto de plagiar según la Real Académica de la lengua (“Copiar en lo

sustancial obras ajenas, dándolas como propias.”)

Y certifico que el contenido de este documento es de mi autoría, no hay contenido que haya sido

copiado directamente y al pie de la letra de ninguna fuente. En el caso de ideas, teorías, conceptos,

resultados y otros contenidos tomados de otros autores se menciona explícitamente la fuente

original, y sólo en unos pocos casos se han mantenido el mismo texto, colocándolo entre comillas.

Reconozco las consecuencias académicas, jurídicas y económicas que conlleva el plagio.

Page 5: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

5

RESUMEN

En esta investigación se plantea el análisis nutricional de los alimentos soportado

en aprendizaje no supervisado, que con un proceso de hallazgo y discernimiento de

variables nutricionales que llevan al uso de los alimentos de una manera más

inteligente, permitiendo al consumidor elegir un alimento con características

similares a otros que probablemente no se encuentren disponibles en el lugar o en

ese momento. Para esto se usó un dataset nacional de nutrientes del USDA con

una referencia estándar de versión número 28 (2015). Contando con 8790 registros

distintos por nombre de la descripción de alimentos, donde se hizo una limpieza de

datos, eliminando columnas de medidas de peso y el identificador del conjunto de

datos, obteniendo como resultado 3389 registros y 46 columnas. Se aplicaron

técnicas de minería de datos, para obtener patrones de similitud estadísticamente y

el algoritmo de aprendizaje no supervisado para implementarlo en el modelo de

agrupación. Proporcionando 4 cluster, permitiendo así realizar agrupaciones de

alimentos con un contenido similar en variables nutricionales.

Palabras claves: Aprendizaje Supervisado o Predictivo, Clustering, Machine

Learning, Minería de datos, Seguridad Alimentaria

Page 6: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

6

1. INTRODUCCIÓN

La sociedad acelerada de este siglo presenta una característica de preferencias

por la alimentación como es el caso de optar por comer simples emparedados y

productos momentáneos, esto lleva a enfermedades comprometidas. En efecto,

cada vez es difícil el consumo de un alimento nutricionalmente bueno para la salud

humana [1].

La nutrición es un elemento significativo en la defensa del cuerpo contra el progreso

de cualquier enfermedad. El consumo de nutrientes se puede valorar por medio de

un análisis directo de los alimentos que consumen los individuos, pero este método

no es adecuado para una población global[2]. Se requiere alternativas que generen

diversidad de opciones de alimentos nutricionalmente similar. Debido a que en

muchas poblaciones no se encuentran o no hay el recurso económico para adquirir

dicho alimento y se tenga la opción de otro alimento que nutricionalmente aplique a

la necesidad del consumidor. De la cual se genera el objetivo de esta investigación

de proyectar un modelo soportado en aprendizaje no supervisado para la

clasificación de alimentos basados en sus componentes nutricionales.

Para esta investigación se realizó la técnica de revisión sistemática en el estado del

arte, para poder soportar el trabajo con 5 artículos que tienen aproximación con el

proyecto. Luego se contó con una Metodología de Aplicación CRISP-DM,

generando así la Comprensión del Problema, la Comprensión de los Datos donde

se obtiene un conjunto de datos que se encuentra organizado por 8790 alimentos

en la base de datos conformados por 25 grupos de alimentos y 52 valores de

nutrientes, y otros aspectos que indican la cantidad total de nutrientes presentes en

la porción comestible de la comida. Seguidamente se hace exploración del conjunto

de datos se utilizando el lenguaje de programación Python, dando así una serie de

pasos de limpieza de datos obteniendo como resultado 3389 registros y 46

columnas. Posteriormente se preparan los datos donde se prosiguió a eliminar 14

variables en el cluster.

Consecutivamente una vez realizado todo el pre-procesamiento necesario de los

datos, conforme a las características del trabajo, se efectuaron diferentes

actividades con el fin de construir el modelo Machine Learning no supervisado

aplicable al conjunto de datos, se halló el método del codo, Error cuadrático para el

cluster, Puntaje de distorsión del codo para el cluster y otros pasos que ayudan a la

evaluación en el cual se generó el número óptimo de cluster en este caso 4, esto

permitió encontrar alimentos con similitud de componentes nutricionales, para lo

cual se puede tomar una mejor alternativa a la hora de consumir algún alimento.

Page 7: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

7

2. PLANTEAMIENTO DEL PROBLEMA

1.2 Formulación del Problema.

Uno de los elementos primordiales para la salud y la supervivencia humana está en

manos de una ingesta de nutrientes [1][3], el desequilibro en los nutrientes

esenciales puede producir insuficiencias en el desarrollo físico y mental [4][5]. Por

consiguiente, se debe ingerir una cantidad suficiente de energía y nutrientes que se

encuentran en los carbohidratos, lípidos, proteínas, vitaminas y minerales presentes

en los alimentos; Comprendiendo que existe una infinidad de combinaciones en los

grupos de alimentos a partir de los cuales se obtienen todos estos nutrientes [6].

Por otra parte, los vacíos alimentarios pueden contribuir a la inseguridad alimentaria

[7]. Justamente por ese motivo, se une el impacto de que hay personas que viven

en lugares en los que no es posible obtener alimentos nutritivos, es decir, que las

personas no pueden comprar comida nutritiva con regularidad, según ha estudios

de las últimas décadas del Departamento de Agricultura de Estados Unidos.

Percibiendo que casi la mitad de los adultos en los Estados Unidos tiene una (o

más) enfermedad crónica prevenible relacionada con la dieta incluyendo las

enfermedades cardíacas, la diabetes tipo 2, el sobrepeso, la obesidad y ataque

cerebral [8]. Esta situación se ha generalizado en todo el mundo, con factores como

la comida rápida, las porciones gigantes de comida, los mayores costos de la

comida saludable, las limitaciones de tiempo para cocinar, debido a esto se ha

cambiado el concepto de alimentación saludable y nutricional [9].

Ante estas situaciones de inseguridad alimentaria y malos hábitos alimenticios algunas instituciones como la USDA (Departamento de Agricultura de los Estados Unidos de América) ofrecen sistemas de información para ayudar a los consumidores a comprender cómo poner en marcha las recomendaciones de nutrición de acuerdo con los conocimientos médicos y científicos actuales [8]. También está el desarrollo de aplicaciones móviles que ofrece un administrador de calorías, estos proporcionan información en tiempo real para el consumo de calorías y nutrientes en los productos alimenticios. Además, el servicio puede gestionar dietas personalizadas para el control de peso por usuarios individuales [1]. Otros acercamientos [5][10] han utilizado sistemas de personalización soportados en métodos de inteligencia artificial para mejorar la dieta en una determinada población.

La técnica de machine learning permite direccionar conceptualmente y de igual manera extraer información de los datos. Asimismo, es preciso comprender las medidas y las características de los algoritmos para listar los datos a estudiar [11]. Teniendo encueta que los algoritmos de minería de datos se clasifican en dos grandes técnicas de aprendizaje como son: el aprendizaje supervisado y el aprendizaje no supervisado, en este caso, se decide trabajar con el aprendizaje no

Page 8: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

8

supervisado o de descubrimiento de conocimiento que permite descubrir patrones y tendencias mediante, análisis de los componentes principales, estadística, visualización (graficas), interpretación, selección de técnicas, extracción y relación de características reales para la toma de decisiones [12]. En este trabajo se busca usar e implementar estas técnicas, además de las etapas de proceso de minería de datos, de modo, que identifiquen patrones que puedan ser útiles para dar una información que lleve a la toma de decisiones y logre dar respuesta a los objetivos propuestos. Este mecanismo permitirá al consumidor tener más opciones de alimentos en grupos con similitudes con respecto a su nivel nutricional generando una mayor variedad de alimentos, ya sea de origen animal o vegetal, fortaleciendo la seguridad alimentaria en la población colombiana. Teniendo en cuenta que nuestro país enfrenta problemas estructurales como inestabilidad económica, social y política, dado a la inequidad y la pobreza, presentando ante esto desempleo, desnutrición, entre otros [13]. Esto genera la siguiente pregunta de investigación: ¿Cómo se puede utilizar el mecanismo soportado en Clustering para realizar la clasificación de alimentos basados en sus componentes nutricionales?

2 OBJETIVOS

2.1 Objetivo General

Construir un modelo soportado en aprendizaje no supervisado para la clasificación de alimentos basados en sus componentes nutricionales

2.2 Objetivos Específicos

1. Realizar una revisión del estado del arte sobre minería de datos y aprendizaje no supervisado para el análisis de alimentos.

2. Procesar las etapas de minería de datos para el conjunto de datos de

conglomerado de alimentos del Departamento de Agricultura de los Estados Unidos USDA.

3. Definir un modelo de minería de datos utilizando el conjunto de datos de alimentos del Departamento de Agricultura de los Estados Unidos

3 JUSTIFICACIÓN

El estudio de un modelo soportado en minería de datos para realizar la clasificación de alimentos basados en sus componentes nutricionales tendrá un impacto no solo para la sociedad estadunidense sino para el mundo que quiera conocer grupos nutricionales que le generen bienestar a su vida, de igual manera será un recurso para los servicios nutricionales del estado y otros agentes involucrados en la salud,

Page 9: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

9

además de beneficiar directamente a instituciones como son las secretarias de agricultura, ministerios, escuelas, universidades etc. otorgando un mejor servicio de las instituciones encargadas del tema y así causar un impacto favorable para los hogares [14]. La importancia que tienen ciertos grupos de alimentos clave en la composición de la canasta básica. Por ejemplo, el gasto de los hogares pobres en alimentos se destina a cuatro grupos de alimentos: cereales y derivados, carnes, productos lácteos, huevos, y hortalizas; de ahí que la inseguridad alimentaria y la malnutrición tienen como causa principal la falta de acceso físico y económico a los recursos necesarios para asegurar suficientes alimentos y consumir una dieta nutricionalmente adecuada, tanto en términos de cantidad (de energía) y calidad (variedad, diversidad, contenido de nutrientes e inocuidad alimentaria) [15]. Por eso es importante un modelo que permita agrupaciones de alimentos que contengan una similitud ente sus valores nutricionales para ofrecer a los consumidores una variedad de productos que se encuentran en el conjunto de datos de alimentos del Departamento de Agricultura de los Estados Unidos USDA, dentro de los límites de la ingesta máxima tolerable diaria.

4 MARCOS DE REFERENCIA

4.1 Marco Teórico – Conceptual

4.1.1 Seguridad Alimentaria

Según la política nacional de seguridad alimentaria y nutricional (PSAN) de Colombia, del 31 de marzo de 2007 [3], la seguridad alimentaria es definida como: “ la seguridad alimentaria y nutricional es la disponibilidad suficiente y estable de alimentos, el acceso y el consumo oportuno y permanente de los mismos en cantidad, calidad e inocuidad por parte de todas las personas, bajo condiciones que permita su adecuada utilización biológica, para llevar una vida saludable y activa”.

4.1.2 Minería de datos

La minería de datos permite detectar fácilmente patrones en los datos, razón por la

cual esta técnica es mucho más eficiente para la verificación cuando se intenta

explorar datos procedentes de repositorios de gran tamaño y complejidad. Dichas

técnicas reconocimiento de patrones, inteligencia artificial, sistemas expertos,

estadística, visualización, recuperación de información, y computación de gran

beneficio con el propósito de identificar información importante para la toma de

decisiones [14].

Page 10: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

10

4.1.3 Machine Learning

Es una rama de la inteligencia artificial y a su vez es un método científico que nos permite utilizar los ordenadores y otros dispositivos con capacidad computacional para que asimilen a extraer los esquemas y relaciones que hay en nuestros datos por sí solos. Esos esquemas se pueden usar luego para predecir comportamientos y en la toma de decisiones. Donde, muchos de los métodos de aprendizaje automático dependen del cálculo de distancias para estimar la similitud entre dos ejemplos teniendo en cuenta la estructura de los datos [16][17].

4.1.3.1 Aprendizaje Supervisado o Predictivo

Es un modelo que determina uno o varios valores de salida a cada dispositivo de entrada, en base al conocimiento obtenido a partir de un conjunto de datos cuyas salidas son conocidas, que se caracteriza por el discernimiento de cuáles son las salidas esperadas para cierto conjunto de datos de entrada (datos etiquetados) [18]. Un problema bastante grande de este modelo es que demanda un gran número de patrones etiquetados de cada clase, lo cual es hecho generalmente en forma manual [19].

4.1.3.2 Aprendizaje No Supervisado

Este trata de extraer información valiosa de los datos a partir de características,

regularidades, correlaciones o categorías en los datos de entrada y se obtengan de

forma codificada en la salida [20].

4.1.3.2.1 Clustering

Es una técnica de minería de datos para agrupar datos similares en un clúster y datos diferentes en diferentes grupos. La agrupación: Es "el proceso de organizar objetos en grupos cuyos miembros son similares de alguna manera". Por lo tanto, un grupo es una colección de objetos que son "similares" entre ellos y son "diferentes" a los objetos que pertenecen a otros grupos. Un algoritmo de agrupamiento divide un conjunto de datos en varios grupos de modo que la similitud dentro de un grupo es mayor que entre grupos. Además, la mayoría de los datos recopilados en muchos problemas parecen tener algunas propiedades inherentes que se prestan a agrupaciones naturales. Los algoritmos de agrupamiento se usan ampliamente no solo para organizar y clasificar datos, sino que también son útiles para la compresión de datos y la construcción de modelos [21].

4.1.3.2.2 k-mean Clustering

es una técnica de estudio de aglomerados que tiene como fin dividir n comparaciones en k grupos en los que cada observación pertenece al conjunto con la media más contigua. En el algoritmo K-Means, k es el número de grupos que

Page 11: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

11

pretendemos, Puesto que se determina un argumento al grupo para el cual su trayecto a la media del grupo es la más pequeña.[22]

4.1.3.2.3 Cluster jerárquicos

Esta técnica realiza un agrupamiento de forma ascendente multicapas, a partir de dos objetos más cercanos además de requerir una semejanza entre grupos los cuales son agrupados en un único grupo para obtener una jerarquía de grupos denominada dendograma, donde una jerarquía de grupos, previamente construida por el algoritmo, cada vez que se agrega o se elimina un objeto es necesario actualizar los grupos existentes en todos los niveles de la jerarquía.[23]

4.1.4 Data Analytics

Data analytics (análisis de datos) es un enfoque que implica el análisis de datos para sacar conclusiones. Esta tiene en cuenta cualquier tipo de dato, sea de la índole que sea, con el propósito de extraer la máxima información posible, al acceder navegar por la información sin las limitaciones que imputan unos modelos determinados de búsqueda[24].

4.2 Antecedentes y estado del arte.

Se utilizó la técnica de revisión sistemática (Grant, M. y Brooth, A. 2009) con la cual

se pudo abordar de fondo la inseguridad alimentaria, grupos de nutrientes

(Información de USDA) e información del modelo de Clustering con conjunto de

datos. Para esta técnica se usaron 7 fuentes de información científica: Elsevier,

Google Scholar, Research gate, Scientific Research Publishing, Cross mark y Open

Access, una fuente de información sobre datos de grupos de alimentos en la página

web del Departamento de Agricultura de los Estados Unidos USDA, Machine

Learning, Data Analysis, Data Mining y otras Páginas Web (FAO).

Se obtuvieron 45 documentos: 17 de “Food Insecurity” (6 Google Scholar, 7 Página Web, 1 Scientific Research Publishing, 1 Cross mark y 2 Open Access ); 9 de Normativas y recomendaciones nutricionales (2 Google, 1Elservier, 6 Página Web (3(OMS), 3(FAO))), 14 de “modelo Clustering” (7 Google Scholar, 2 Elsevier, 1 Scientific Research Publishing, 1 Research gate, 2 Cross mark y 1 Open Access ), y 5 de Machine Learning, Data Análysis, Data Mining (5 Página Web) (ver Tabla 1).

CADENA DE BUSQUEDA

ARTICULOS POR FUENTE DE BUSQUEDA

TOTAL Google Scholar

Elservier Página Web

Research gate

Scientific Research Publishing

Cross

mark

Open

Access

Inseguridad alimentaria

6 0 2

(USDA) 5(FAO)

0

1

1

2

17

Page 12: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

12

Normativas y recomendaciones

nutricionales 2 1

3(OMS) 3(FAO)

0 0 0 0 9

Machine Learning

0 0 2 0 0 0 0 2

Data Analysis 0 0 2 0 0 0 0 2

Data Mining 0 0 1 0 0 0 0 1

Modelo Clustering

7 2 0 1 1 2 1 14

TOTAL 15 3 18 1 2 3 3 45

Tabla 1. Resultado de la búsqueda (documentos filtrados). Los datos recolectados son dataset de la composición de alimentos preparados,

crudos y tratados de la población de los estados unidos, del cual tenemos un archivo

csv con 8790 alimentos compuesto por sus contenidos en carbohidratos, lípidos,

proteínas, vitaminas y minerales que consume esta población. Los datos fueron

tomados de la página oficial del Departamento de la Agricultura de los Estados

Unidos de la base de datos para la referencia estándar de 2015.

Para hacer la corrección o eliminación de registro de datos del dataset se

identificaron datos nulos y columnas cuyos datos no fueron útiles, si se encuentran

valores numéricos en cero se hace necesario la limpieza de datos: Los datos

limpiados en Python anaconda [25][26]. Se borran atributos que tengan valores

almacenados no útiles para no provocar alguna lentitud en los resultados de

procesamiento en la minería de datos.

Los datos recolectados se introducen en el modelo de minería de datos con el

propósito de dividir los datos en tres grupos útiles para detectar agrupaciones

homogéneas de grupos de alimentos significativos en salud y nutrición además de

un gráfico denominado dendograma que permite un análisis visivo útil para la

jerarquía de similitud entre objetos (Vandegisnte y colaboradores, 1998).

Algoritmos Resultados Brecha

[5] Se busca visualizar y analizar la relación existente entre los objetos multivariantes de bases de datos de alimentos (PCA cluster de tipo jerárquico y mapas de Kohonen).

Extracción

información de

grandes bases de

datos, en este caso

de tablas de

composición de

alimentos.

Set de datos de

Alimentos y

Variables es muy

reducido y no abarca

todos los

componentes

nutricionales y la

Page 13: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

13

cantidad de

alimentos que

existen. El método

es diferente.

[1]

Busca recomendar productos alimenticios alternativos cuya estructura de dieta y nutrición influyen positivamente en las condiciones de salud de los usuarios (Análisis de datos alimentarios, K-mean, distancia euclidiana más cercana, clúster hibrido, coeficiente de similaridad).

Precisión de un método de recomendación basado en información para mejorar los hábitos alimentarios

Solo trabaja con dieta y nutrición para una determinada población, sin tener encuenta la diversidad y similitud de nutrientes que tienen los alimentos.

[27] Caracterizar exhaustivamente las regiones con un bajo acceso de la asistencia alimentaria y encontrar maneras de aumentar su acceso a los alimentos (Método de cluster GMM emplea expectativa de maximización, Lenguaje r).

Administración y distribución de los recursos alimenticios a la población de manera eficiente y equitativa de regiones aisladas para la asistencia alimentaria.

No aplica un método que genere grupos de alimentos con una similitud de nutrientes, que proporcione diversidad de recursos alimenticios a la población general.

[10] Seleccionar el método de agrupamiento más apropiado y el número de grupos para la descripción de los patrones dietéticos en una población (Métodos K-means, K-medianas y Ward ' y un número de grupos que varían de 2 a 6).

Promoción del beneficio de un patrón de dieta prudente y otras conductas saludables para los subgrupos relevantes.

El trabajo no consideró la evaluación de la diversidad de nutrimientos y similitud de alimentos para una población global.

[28] El objetivo del análisis actual fue comparar los patrones dietéticos derivados de PCA y CA y examinar sus asociaciones con los comportamientos sociodemográficos y de salud de una muestra de adultos de 55 a 65 años.

PCA y CA identificaron patrones dietéticos comparables entre los australianos mayores. PCA identificó cuatro patrones dietéticos en hombres y dos patrones dietéticos en mujeres. CA identificó tres

No proporciona una similitud de alimentos con respecto a sus nutrientes para ayudar a que el método de patrones dietéticos basados en alimentos puede informar consejos dietéticos que la

Page 14: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

14

patrones dietéticos en hombres y mujeres.

comunidad en general entienda.

[29] Identificar patrones dietéticos en una cohorte de niños de 7 años a través del análisis de conglomerados, comparar con patrones derivados del análisis de componentes principales (PCA) e investigar asociaciones con variables sociodemográficas.

Tanto el análisis de conglomerados como el PCA identificaron tres patrones dietéticos muy similares en los alimentos asociados con ellos como en las características Sociodemográfica.

No abarca un algoritmo de agrupamiento para similitud de alimentos nutricionales para una población a nivel global.

Tabla 2. Artículos relacionados Los artículos mencionados en la tabla 2, son trabajos relacionados a la alimentación o consumo de alimentos en una determinada población, con técnicas de minería de datos, el cual tiene relación al trabajo que se desea realizar con un método de agrupación.

En 2015 los autores Cárdenas, Fernando; Rojas, Cristian y Tripaldi, Piero [5],

realizaron un proyecto de Métodos Multivariantes para la Exploración de Tablas de

Composición de Alimentos basado en PCA cluster de tipo jerárquico y mapas de

Kohonen. En el que el objetivo era visualizar grupos homogéneos tanto de objetos

como variables, con una característica de relación existente entre los objetos

multivariantes de bases de datos de alimentos, donde este método extrae

información de grandes bases de datos de composición de alimentos.

En el trabajo de Smith [29] en 2011, donde su objetivo era identificar patrones

dietéticos en una multitud de niños de 7 años a través del análisis de

conglomerados, comparar con patrones derivados del análisis de componentes

principales (PCA) e investigar asociaciones con variables sociodemográficas.

Donde, el análisis de conglomerados como el PCA identificaron tres patrones

dietéticos muy similares tanto en los alimentos asociados con ellos como en las

características sociodemográficas. Ambos métodos son útiles para derivar patrones

dietéticos significativos.

En el año 2016 en el artículo [28] se caracterizó por trabajar con una población de

adultos mayores con patrones dietéticos pobres donde los métodos de patrones

dietéticos basados en técnicas de PCA y CA identificaron patrones dietéticos

comparables entre los australianos mayores, Sin embargo, PCA puede proporcionar

algunas ventajas en comparación con CA con respecto a la interpretabilidad de los

patrones dietéticos resultantes. ya que su objetivo fue comparar los patrones

dietéticos derivados del análisis de componentes principales (PCA) y el análisis de

conglomerados (CA) en adultos mayores y examinar sus asociaciones con los

comportamientos sociodemográficos y de salud.

Page 15: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

15

En el 2017 se publicó el trabajo Stability-based validation of dietary patterns

obtained by cluster análisis [10], donde utilizaron Métodos K-means, K-medianas y

Ward ' y un número de grupos que varían de 2 a 6. En este caso se analizó la

agrupación caracterizada por el consumo de alimentos saludables y no saludables

en población con comportamiento dietético, teniendo en cuenta que el objetivo era

seleccionar el método de agrupamiento más apropiado y el número de grupos para

la descripción de los patrones dietéticos en una población. Esto permitió promover

el beneficio de un patrón de dieta prudente y otras conductas saludables para los

subgrupos relevantes.

También, en el año 2019 los investigadores del proyecto Hybrid clustering-based

health decision-making for improving dietary habits [1], perfeccionaron una precisión

de un método de recomendación basado en información para mejorar los hábitos

alimentarios, utilizando un análisis de datos alimentarios, K-mean, distancia

euclidiana más cercana, clúster hibrido, coeficiente de similaridad. Donde se analizó

los productos alimenticios relacionados con las enfermedades crónicas de los

consumidores, puesto que el objetivo era recomendar productos alimenticios

alternativos cuya estructura de dieta y nutrición influyeran positivamente en las

condiciones de salud de los usuarios.

En ese mismo año, Srinivas y Seokcheon (2020) [27], usaron el método de cluster

GMM emplea expectativa de maximización, Lenguaje r, para caracterizar

exhaustivamente las regiones con un bajo acceso de la asistencia alimentaria y

encontrar maneras de aumentar su acceso a los alimentos, teniendo como meta

distinguir los posibles factores que afectan la inseguridad alimentaria en una cadena

de suministro de banco de alimentos. Donde permitió administrar y distribuir los

recursos alimenticios a la población de manera eficiente y equitativa de regiones

aisladas para la asistencia alimentaria.

De los trabajos anteriores podemos concluir que no consideraron la evaluación de

un método que aplique la diversidad de nutrimientos y similitudes de alimentos para

la población en general. Contrario a estos trabajos, se buscó aplicar un análisis de

componentes principales para utilizar únicamente las componentes significativas,

además, de la correlación entre ellas para construir Clustering de tipo k-mean y

jerárquico sobre el conjunto de datos de conglomerado de alimentos del

Departamento de Agricultura de los Estados Unidos USDA, con la finalidad de

visualizar grupos de similitud entre objetos y variables.

Page 16: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

16

5 METODOLOGÍA

5.1. Metodología de Aplicación systematic Review

Revisión del estado del arte: para esta actividad se utilizó la metodología systematic Review descrita en que se divide en tres actividades[30]. Donde se ejecutaron las siguientes actividades

▪ Definición para la búsqueda ▪ Ejecución de búsqueda. ▪ Análisis de los resultados. ▪ Elaboración artículo para envío a conferencia sobre el estado del arte. ▪ Documentación

5.2. Metodología de Aplicación CRISP-DM

La Metodología CRISP-DM (Cross-Industry Standard Processfor Data Mining): Esta

metodología CRISP-DM es una de las más empleadas actualmente para el

desarrollo de proyectos de minería de datos [31]. Consiste en seis fases definidas

de manera cíclica: análisis del problema, comprensión de datos, preparación de

datos, modelado, evaluación y despliegue. La minería de datos es de las principales

y encargadas de este tipo de proceso y para hacer menos complejos sus

procedimientos se han diseñado metodologías que los guíen. Debido a que estas

metodologías son de designio general, en ellas no se describen cuestiones

importantes como técnicas y algoritmos a usar en cada etapa [14].

Figura 1. Fases de la Metodología de Aplicación CRISP–DM[32]

Page 17: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

17

5.2.1. Comprensión del Problema En esta etapa se realiza la identificación de las variables que se estudiaran, según lo observado en el estado del arte. Esto permitiendo la construcción de las preguntas que tendrán como objetivo obtener información relacionada con aspectos.

5.2.2. Comprensión de los Datos

1. Obtención del conjunto Inicial de datos. Para el desarrollo del presente trabajo se ha extraído un conjunto de datos por

miembros del personal del Laboratorio de Datos de Nutrientes (NDL), centro de

investigación de Nutrición Humana, Servicio de Investigación Agrícola y el

Departamento de Agricultura de los Estados Unidos (USDA); de la base datos

nacional de nutrientes del USDA con una referencia estándar de versión número 28

(2015).

Los datos actualizados se han descargado electrónicamente en el sitio web público,

(https://data.nal.usda.gov/dataset/composition-foods-raw-processed-prepared-

usda-national-nutrient-database-standard-reference-release-28-0) del laboratorio

de datos de nutrientes (NDL) del USDA en un archivo comprimido de tamaño de

4.49 GB, que al ser descomprimido se encuentra un formato tipo hoja de cálculo de

Microsoft Excel y un documento pdf, relacionado con la literatura del archivo. El

archivo de datos contiene información sobre la descripción de alimentos, pesos,

medidas y los valores de los nutrientes de alimentos crudos, procesado y preparado.

El conjunto de datos se encuentra organizado por 8790 alimentos en la base de

datos conformados por 25 grupos de alimentos y 52 valores de nutrientes, y otros

aspectos que indican la cantidad total de nutrientes presentes en la porción

comestible de la comida [33], en la tabla 3 se describen las variables que compone

el conjunto de datos con su respectivo nombre, descripción y tipo de dato.

CAMPO DESCRIPCION TIPO DE DATO

NDB_No Identificador de alimentos de 5 dígitos. carácter

Shrt_Desc Descripción abreviada del alimento de 60 caracteres. carácter

Water Agua (g/100 g) decimal

Energ_Kcal Energía Alimentaria (kcal/100 g) numérico

Protein Proteína (g/100 g) decimal

Lipid_Tot Lípidos Totales (grasa) (g/100 g) decimal

Ash Ceniza (g/100 g) decimal

Carbohydrt Carbohidratos, por diferencia (g/100 g) decimal

Fiber_TD Fibra Dietética Total (g/100 g) decimal

Page 18: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

18

Sugar_Tot Azúcar Total (g/100 g) decimal

Calcium Calcio (mg/100 g) numérico

Iron Hierro (mg/100 g) decimal

Magnesium Magnesio (mg/100 g) numérico

Phosphorus Fosforo (mg/100 g) numérico

Potassium Potasio (mg/100 g) numérico

Sodium Sodio (mg/100 g) numérico

Zinc Zinc (mg/100 g) decimal

Copper Cobre (mg/100 g) decimal

Manganese Manganeso (mg/100 g) decimal

Selenium Selenio (µg/100 g) decimal

Vit_C Vitamina C (mg/100 g) decimal

Thiamin Tiamina (mg/100 g) decimal

Riboflavin Riboflavina (mg/100 g) decimal

Niacin Niacina (mg/100 g) decimal

Panto_acid Acido Pantoténico (mg/100 g) decimal

Vit_B6 Vitamina B6 (mg/100 g) decimal

Folate_Tot Folato Total (µg/100 g) numérico

Folic_acid Ácido Folico (µg/100 g) numérico

Food_Folate Folato Alimentario (µg/100 g) numérico

Folate_DFE Folato (µg Equivalente a Folato en la Dieta/100 g) numérico

Choline_Tot Colina Total (mg/100 g) numérico

Vit_B12 Vitamina B12 (µg/100 g) decimal

Vit_A_IU Vitamina A (IU/100 g) numérico

Vit_A_RAE Vitamin A (µg Equivalentes de Actividad de Retinol/100g) numérico

Retinol Retinol (µg/100 g) numérico

Alpha_Carot Alfa-Caroteno (µg/100 g) numérico

Beta_Carot Betacaroteno (µg/100 g) numérico

Beta_Crypt Beta-criptoxantina (µg/100 g) numérico

Lycopene Licopeno (µg/100 g) numérico

Lut+Zea Luteína + Zeaxantina (µg/100 g) numérico

Vit_E Vitamina E (Alfa-Tocoferol) (mg/100 g) decimal

Vit_D_mcg Vitamina D (µg/100 g) decimal

Vit_D_IU Vitamina D (IU/100 g) numérico

Vit_K Vitamina K (Filo quinona) (µg/100 g) decimal

FA_Sat Ácidos Grasos Saturados (g/100 g) decimal

FA_Mono Ácidos Grasos Monoinsaturados (g/100 g) decimal

FA_Poly Ácidos Grasos Poliinsaturados (g/100 g) decimal

Cholestrl Colesterol (mg/100 g) decimal

GmWt_1 Primer peso en el hogar para este artículo del Archivo de peso decimal

Page 19: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

19

GmWt_Desc1 Descripción del peso del hogar número 1 carácter

GmWt_2 Segundo peso familiar para este artículo del Archivo de peso. decimal

GmWt_Desc2 Descripción del peso en el hogar número 2 carácter

Refuse_Pct Porcentaje de rechazo numérico

Tabla 3. Variable de datos del conjunto de datos

Fuente: Elaboración propia, 2020.

2. Exploración del conjunto de datos. Para el procesamiento de los datos se utiliza el lenguaje de programación Python, por su expresión de programación versátil multiplataforma y multiparadigma que se destaca por su código legible simple y limpio para ser leído con: facilidad, fácil aprendizaje, filosofía de código abierto, permite trabajar con diferentes tipos de datos. También para el trabajo se utiliza el lenguaje de programación Python en el editor de código de Visual Studio Code con la capacidad de ejecutar e integrar código Python directamente en núcleo Jupyter, herramienta extraordinaria para evaluar y explorar datos con interfaz gráfica. Al cambiar el formato del archivo de Microsoft Excel a archivo tipo csv, y cargar el conjunto de datos por medio del lenguaje de programación Python con la ayuda de la herramienta Jupyter-notebook atreves de Visual Studio Code se realiza un análisis exploratorio básico para identificar características de los datos como son el tipo, formato, distribución y el significado de cada dato, se agrega la aplicación de pruebas de estadística básicas que permitan conocer y entender las propiedades de los datos, teniendo en cuenta, como punto de partida, cargar las librerías necesarias para la visualización, operación de técnicas y funciones necesarias para el análisis, en el archivo de datos se obtiene lo siguiente:

1. Se procede a importar las librerías que se necesitaran para la limpieza,

preparación de los datos y demás pruebas en la figura 2.

Page 20: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

20

Figura 2. Librerías de Python

Fuente: Elaboración propia, 2020.

2. En primer lugar, se importan el archivo en formato .csv los datos información sobre la descripción de alimentos, pesos, medidas y los valores de los nutrientes de alimentos crudos, procesado y preparado.

3. Se detecto un total de 8790 registros distintos por nombre de la descripción de alimentos, muestra la dimensión de registros, conteo de valores existentes y tipo de variables por medio del método que dispone Python denominado info () para desplegar la información del archivo como se evidencia en la tabla 3.

4. En la figura 3 muestra la eliminación de las columnas de medidas de peso y el identificador del conjunto de datos, como son: NDB_No = Identificador de alimento, Refuse_Pct = Porcentaje de Rechazo, GmWt_Desc2 = Descripción del peso de hogar número 2, GmWt_2 = Segundo peso familiar para este artículo del archivo de peso, GmWt_Desc1 = Descripción del peso de hogar número 1, GmWt_1 = Primer peso familiar para este artículo del archivo de peso.

Page 21: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

21

Figura 3. Eliminación de columnas del conjunto de datos

5. Python dispone de un método denominado describe () que ofrece un resumen estadístico sobre las variables vistas en el conjunto de datos, dando como resultado la media, desviación típica, cuartiles, valor mínimo, valor máximo y el total de instancias por cada atributo del archivo.

6. En la figura 4 se observa los valores ausentes totales que se encuentran presentes en cada una de las variables que conforman el conjunto de datos.

Figura 4. Valor total de nulos en las características

5.2.3. Preparación de los Datos Para realizar este proceso, se aplicaron diferentes técnicas para el tratamiento, de acuerdo con los resultados de la etapa anterior.

Se excluyeron los registros que tienen datos nulos en las características de las

variables, no se realizó el complemento de datos faltantes, por cada una de las

Page 22: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

22

variables del archivo, además, se borra una variable colina total (Choline_Tot_(mg)),

que cuenta con 4016 de los registros nulos, obteniendo como resultado 3389

registros y 46 columnas.

La Figura 5 deja ver las los registros después de aplicar esta limpieza de valores

nulos.

Figura 5. Ejemplo del método dropna () en Python

1. Se cambia el formato de datos de tipo (int) al tipo de dato (float) sin modificar

su significado, a fin de unificar métricas para no generar errores y poder aplicar técnicas particulares en la etapa de modelamiento.

2. La creación de indicadores para potenciar la capacidad predictiva de los datos a partir de los datos existentes y ayuden a detectar comportamientos interesantes para modelar se descubre en las figuras 6, 7. Y 8

Page 23: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

23

Figura 6. Crear Índice del Conjunto de Datos

Figura 7. Seleccionar características de tipo numérico

Figura 8. Seleccionar características de tipo Object

Page 24: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

24

5. Para la aplicación de técnicas de Clustering, se necesita que las características tengan un solo tipo de dato y una distribución, para ello se convierten las variables, realizando el tratamiento de dividir la media en cada variable del conjunto de datos.

6. Se genera la tabla de correlación como un mapa de colores como se muestra en el mapa 1, para reducir la cantidad de atributos a un número menor de variables o de instancias, aplicando la definición de correlación, generalmente utilizada como R de Pearson, que radica en un término estadístico y su función se centra en enfrentar a cada par de variables, para conocer la relación lineal entre ellas, que da como resultado un valor en el rango [-1, 1]. El coeficiente de correlación tiene valores entre -1 y 1. El color verde indica correlación positiva que comprende del 0 al 1 y el color rojo indican una correlación negativa comprende del 0 al -1, tomando a 0 como neutro indicado que no existe correlación.

Mapa 1. Mapa correlación de variables

Page 25: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

25

a. Se elimina la variable Ácidos grasos poliinsaturados (FA_Poly_ (g)), Ácidos grasos saturados (FA_Sat_(g)), Ácidos grasos monoinsaturados (FA_Momo_(ug)) y Energía Kcal, ya que tienen una correlación positiva alta al observar la variable Lípidos Totales (grasas) (Lipid_Tot_(g)).

b. Se anula la característica Tiamina (Thiamin (mg)) ya que tiene una alta

correlación positiva semejante con las variables Riboflavina, Niacina, Folato Total (Folate_Tot_(ug)), Ácido fólico (Folic-acid(ug)) y Folato Equivalente a Folato en la Dieta (Folate_DFE (ug)).

c. Se suprime la variable Riboflavina (Riboflavin_(mg)) ya que tiene una correlación positiva casi semejante con las variables Niacina (Niacin_(mg)), Folato Total (Folate_Tot(ug)), Ácido fólico (Folic_Acid(ug)) y Folato Equivalente a Folato en la Dieta (Folate_DFE (ug)).

d. Se descarta la característica Niacin_(mg) ya que tiene una correlación

positiva con las variables (Vit_B6(mg), Folate_Tot(ug), Folic_Acid(ug) y Folate_DFE (ug).

e. Se elimina la variable Folic_Acid(µg) ya que tiene una correlación

positiva alta de con las variables (Folate_Tot(ug), Folate_DFE (ug)).

f. Se descarta la caracterista Folato_DFE(µg) ya que tiene una correlación positiva con la variable (Folate_Tot(ug).

g. Se quita la variable Vit_A_RAE ya que tiene una correlación positiva

con las variables Vitamina_B12(ug), Vit_A_IU y Retinol.

h. Se anula la característica Vit_A_IU ya que tiene una correlación positiva con las variables Alfa_caroten, Beta_caroteno.

i. Se suprime la variable Vit_D_IU ya que tiene una correlación positiva

con las variables (Vitamina_D(µg).

j. Se elimina la característica Sodium_(mg) ya que tiene una correlación positiva con la variable ash_(g).

k. Se retira la variable Sugar_Tot_(g) ya que tiene una correlación

positiva con la variable Carbohidrt_(g).

l. Se descarta la característica Calcium_(mg) ya que tiene una correlación positiva con la variable Phosphorus_(mg).

Page 26: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

26

m. Se suprime la variable Beta_Carot_(µg) ya que tiene una correlación positiva con la variable Alpha_Carot_(µg).

n. Se elimina la caracterista Lut+Zea_ (µg) tiene una correlación positiv

a con la variable Vit_K_(µg).

Mapa 2. Resultado de la correlación

Representando esta matriz de diagramas de dispersión, se pueden observar

patrones en los datos, donde se eligió una forma personal de hacerlo, eligiendo

3 variables del conjunto de datos para realizar el histograma en diagonal. Las 3

variables están normalizadas para una mejor visualización según grafica 1.

Page 27: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

27

Grafica 1. Diafragma de dispersión de tres variables

7. Para este punto se utilizó la función MinMaxscaler que normaliza todos los datos entre [0, 1]. Es un paso importante para poder aplicar el algoritmo de machine learning que maneja funciones de distancia, según la figura 9.

Figura 9. Normalización de los datos

Page 28: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

28

8. Después de aplicar el escalado, el nuevo dataframe se llama X1. Con el cual se trabajó para el modelamiento, Con las nuevas variables creadas figura 10. Las seleccionadas del conjunto de datos se ejecutó la aplicación de los algoritmos de Machine Learning no supervisado (cluster).

Figura 10. Variables para el modelamiento

5.2.4. Modelamiento Una vez realizado todo el pre-procesamiento necesario de los datos, conforme a las características del trabajo, en esta fase se realizaron diferentes actividades con el fin de construir el modelo Machine Learning no supervisado aplicable al conjunto de datos, mediante la técnica de agrupamiento K-means que fueron encontrados en la revisión del estado del arte para que más adelante sea evaluado.

Page 29: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

29

1. Primero se adoptó para cálculo del número de grupos, la construcción del

método del codo, que se pude ver en la gráfica 2, 3 y 4 la cual nos permite identificar el número óptimo de grupos, para no elegirlo por intuición.

Grafica 2. Gráfico método del codo

Grafica 3. Suma de los cuadrados

Page 30: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

30

Grafica 4. Puntaje de distorsión del codo para el cluster

2. Otra forma de encontrar el número óptimo de clusters es el método coeficiente de Silhouette Score que consiste en calcular el puntaje promediando el coeficiente de silueta para cada muestra, es útil para identificar el número óptimo de agrupamientos, según la gráfica 5.

Grafica 5. Método de la silueta

3. Se obtienen los 4 clúster para las 28 variables, los datos obtenidos para las

etiquetas y los centroides se muestran en la figura 11.

Page 31: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

31

Figura 11. Centros para las 28 variables en los 4 grupos

4. Se obtiene el arreglo de las etiquetas de los cluster para todos los registros de las variables y se almacenan en una columna con el nombre Cluster que va a relacionar el número del cluster con los registros del conjunto de datos, además del tamaño de cada cluster conforme al número de registros, como se muestra en la figura 12.

Figura 12. Medida de los cluster y sus etiquetas

Page 32: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

32

5. Para tener una idea de manera gráfica de como quedaron formados los cluster clara de cómo quedaron formados los cluster se realizó la aplicación de la técnica de reducción de variables o PCA, que permitió trabajar un menor número variables para nuestro caso dos para representar lo mejor posible a las variables originales según el grafico 6 y 7.

Gráfica 6. Componentes principales

Page 33: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

33

Grafica 7. Componentes principales y cada cluster

5.2.5. Evaluación

Evaluación del modelo: En esta etapa del modelo se evaluó la calidad de los clusters en base al análisis de ciertas métricas estadísticas que ofrece el modelo para encontrar el número óptimo de grupos. Validación Interna: se utilizó una métrica como es el análisis de silueta refiriéndose a un método de interpretación y validación de equilibrio dentro de grupos de datos. El valor de la silueta es una medida de cuán similar es uno o varios registros de alimentos dentro de un grupo (cluster). La silueta representa una medida de qué tan cerca está cada punto de un grupo a los puntos en los grupos cercanos, además, brinda una forma de evaluar visualmente parámetros como el número de grupos, según la gráfica 8.

Page 34: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

34

Grafica 8. Valores de la Silueta

6. RESULTADOS Y DISCUSIÓN

Con respecto a los objetivos planteados en la investigación se ejecutó una revisión del estado del arte sobre minería de datos y aprendizaje no supervisado para el análisis de alimentos se encontraron seis (6) artículos relacionados con el tema de investigación sobre análisis de conglomerados en clasificación de productos alimenticios a una población especifica. Con respecto a los artículos del estado del arte se encuentra uno de ellos que tiene relación al trabajo realizado como lo es, encontrar número de cluster para una tabla de composición de alimentos [5].

Seguidamente, se aplicó la metodología CRISP-DM para procesar las etapas de minería de datos para el conjunto de datos seleccionado, la cual se inició con el número total de 8790 registros sobre alimentos en la base de datos, conformados 52 valores de nutrientes del conjunto de datos descargado inicialmente, que por medio del análisis exploratorio de datos utilizando técnicas estadísticas, limpieza y preparación de los datos quedando con un resultado de 28 característica y 3389 registros con el propósito de no causar ruido y tiempo de procesamiento computacional [34]. Luego se normalizan las variables para ordenar los datos de forma escalonada, con el fin de haya un mayor rendimiento por parte del modelo de agrupación o cluster. El modelamiento arrojo las etiquetas para los registros del conjunto de datos además de los centros para cada variable los cuales se relacionan con los valores de K=4 seleccionados en los parámetros del modelo de aprendizaje no supervisado. También se logra evidenciar el número de registro totales asignados por cada valor K. Para visualizar los grupos se realiza una reducción de variables por medio de análisis de componentes principales (PCA), con el fin de representar lo mejor posibles a las variables originales en un diagrama de 2 dimensiones.

Page 35: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

35

Según el algoritmo de aprendizaje no supervisado por medio de técnicas se logró determinar el número óptimo para para lo cual se determina el número de clúster de 4 grupos para la ejecución del modelo de agrupamiento k-mean. figura 13.

Figura 13. Agrupación del cluster por descripción de alimentos Es importante utilizar las técnicas necesarias para encontrar un número de grupos adecuado, donde el algoritmo pueda conformar agrupaciones homogéneas en base a la similitud de variables, luego ser analizados.

7. CONCLUSIONES

En este estudio se aplicaron las fases de la metodología para la construcción de un proyecto de minería de datos, lo que permitió terminar a satisfacción el presente. El cual tenía como objetivo construir un modelo soportado en aprendizaje no supervisado para la clasificación de alimentos basados en sus componentes nutricionales.

Page 36: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

36

Con lo anterior y en conjunto de la depuración de datos, se generó un archivo para la aplicación de las técnicas de aprendizaje no supervisado. También con la aplicación de las técnicas de agrupamiento se encontró que los alimentos si tienen características en común que hacen que se agrupen según el valor de composición nutricional. Para completar este proceso se realizó la aplicación de la técnica de reducción de variables o PCA, que permitió trabajar un menor número variables para nuestro caso dos, se realizó una comparación de resultados obtenidos, donde se obtuvieron las 4 agrupaciones para el caso de PCA. Esta caracterización sirve para posibles usos del sistema en analizar alimentos que contengan en común nutrientes con alto o bajo contenido nutricional, para las diferentes índices ingestas en ámbitos profesionales y en brindar alternativas de alimentos que contengan similitud en sus componentes nutricionales. En trabajos futuros se podría aplicar otras técnicas de machine learning ya sean supervisadas o no supervisadas para el análisis y comparación de resultados, de igual modo se podría comparar la eficiencia de estos algoritmos en el campo de nutrición, Para generar un buscador en cada grupo o aplicaciones de alimentos. .

8. RECOMENDACIONES

• Para esta técnica de machine learning se requiere que el conjunto de datos

no contenga falta de valores en las variables, que no se encuentren registros

repetidos y también que los datos de las variables se encuentren

debidamente normalizadas y otros requerimientos predios para la aplicación

del modelo.

• A partir de este trabajo se pueden derivan otras investigaciones en base a

segmentación de clientes o a recomendaciones de hábitos alimenticios y

aplicativos móviles.

Page 37: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

37

9. BIBLIOGRAFÍA

[1] J. Baek, J. Kim, J. Chun, and K. Chung, “Hybrid clustering based health decision-making for improving dietary habits,” vol. 27, pp. 459–472, 2019.

[2] J. S. Shim, J. S. Lee, K. N. Kim, H. S. Lee, H. Y. Kim, and M. J. Chang, “Selection of key foods for the systematic management of a food and nutrient composition database,” Nutrition Research and Practice, vol. 11, no. 6, pp. 500–506, 2017.

[3] E. F. de las N. U. para la I. Organizacion de las Naciones Unidas(FAO), La Organizacion Panamericana de la Salud(OPS),Programa Mundial de Alimentos(WFP), “Panorama de la seguridad alimentaria y Nutricional,” pp. 1–109, 2018.

[4] Organizacion de las Naciones Unidas(FAO), Panorama de la seguridad Alimentaria y Nutricional en America Latina y el Caribe 2012. 2012.

[5] P. T. del A. Fernando Cardenas, Cristian Rojas, “Métodos multivariantes para la exploración de tablas de composición de alimentos,” no. ResearchGate, pp. 1–6, 2015.

[6] D. de A. y P. del C. Grupo de Educacion Nutricional y de Sensibilizacion del Consumidor, Division de Nutriciony Proteccion del Consumidor, “La Importancia de la Educacion Nutricional,” pp. 1–16, 2011.

[7] Comite Cientifico de la ELCSA, Escala Latinoamericana y Caribeña de Seguridad Alimentaria(ELCSA). 2012.

[8] USDA, “Pautas Alimentarias para los Estadounidenses 2015-2020,” pp. 1–7, 2020.

[9] Alejandro Larreategui (Produce Marketing Association), “Transformación de la alimentación estadounidense : Cómo viven y comen los consumidores,” pp. 1–8.

[10] N. Sauvageot et al., “Stability-based validation of dietary patterns obtained by cluster analysis,” Nutrition Journal, pp. 1–13, 2017.

[11] Molina Lopez Jose Manuel and Garcia Herrero jesus, “Técnicas de análisis de datos,” pp. 1–240, 2006.

[12] Sáiz Manzanares María Consuelo, “Análisis de datos a través de técnicas de minería de datos utilizando distintos softwares,” pp. 1–39.

[13] Gobierno Nacional de Colombia, “Plan Nacional de Seguridad Alimentaria y Nutricional,” pp. 1–66.

[14] Y. L. M. R. (Universidad P. Union), “Sistema de Geo - sectorización de la inseguridad ciudadana para la sectorización de zonas delictivas en el contexto turístico utilizando Algoritmos de clustering.,” pp. 1–78, 2019.

[15] D. Lee, E. Sönmez, M. I. Gómez, and X. Fan, “Combining two wrongs to make two rights : Mitigating food insecurity and food waste through gleaning operations,” Food Policy, vol. 68, pp. 40–52, 2017.

[16] A. Ramiro and V. Alvarado, “Introduccion al Machine Learning,” pp. 1–43, 2018.

[17] P. Verona, I. Cristina, and A. García, “Una revisión sobre aprendizaje no supervisado de métricas de distancia A brief review on unsupervised metric learning,” pp. 1–85, 2016.

Page 38: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

38

[18] D. De Ingenier, “Estudio y aplicación de técnicas de aprendizaje automático orientadas al ámbito médico: estimación y explicación de predicciones individuales Trabajo,” pp. 1–103, 2012.

[19] Badgen Iván Matías, “Un prototipo de buscador vertical sobre cine documental asistido por aprendizaje supervisado,” pp. 1–68, 2015.

[20] Peláez Chavéz Norma, “Aprendizaje no Supervisado y el Algoritmo Wake-Sleep en Redes Neuronales,” pp. 1–83, 2012.

[21] D. Xu and Y. Tian, “A Comprehensive Survey of Clustering Algorithms,” Annals of Data Science, vol. 2, no. 2, pp. 165–193, 2015.

[22] M. Verma, M. Srivastava, N. Chack, A. K. Diswar, and N. Gupta, “A Comparative Study of Various Clustering Algorithms in Data Mining Manish Verma , Mauly Srivastava , Neha Chack , Atul Kumar Diswar , Nidhi Gupta,” vol. 2, no. 3, pp. 1379–1384, 2012.

[23] S. Chandrasekaran and A. Kumar, “A Clustering Approach for Customer Billing Prediction in Mall : A Machine Learning Mechanism,” pp. 55–66, 2019.

[24] J. María and C. Edward, New Horizons for a Data-Driven Economy. 2016. [25] S. Lott, Functional Python Programming. Birminghan, Mumbai: Packt

Publishing, 2015. [26] D. Phillips, Python 3 Object Oriented Programming. Birmingham, Mumbai:

Packt Publishing, 2010. [27] R. S. Sucharitha and S. Lee, “Application of Clustering Analysis for

Investigation of Food Accessibility,” Procedia Manufacturing, vol. 39, no. 2019, pp. 1809–1816, 2020.

[28] M. G. Thorpe, C. M. Milte, D. Crawford, and S. A. Mcnaughton, “A comparison of the dietary patterns derived by principal component analysis and cluster analysis in older Australians,” International Journal of Behavioral Nutrition and Physical Activity, pp. 1–14, 2016.

[29] A. Smith, P. M. Emmett, P. K. Newby, and K. Northstone, “A comparison of dietary patterns derived by cluster and principal components analysis in a UK cohort of children,” pp. 1102–1109, 2011.

[30] A. Dadermo and S. Rosander, “Evaluating Frameworks for Implementing Machine Learning in Signal Processing and KDD,” pp. 1–36, 2018.

[31] J. J. Espinosa Zúñiga, “Aplicación de metodología CRISP-DM para segmentación geográfica de una base de datos pública,” Ingeniería Investigación y Tecnología, vol. 21, no. 1, pp. 1–13, 2020.

[32] Niño Mikel, “CRISP-DM: Metodología para proyectos de Data Mining | Blog de Mikel Niño: Industria 4.0, Big Data Analytics, emprendimiento digital, modelos de negocio,” 17-09-2015, 2015. [Online]. Available: http://www.mikelnino.com/2015/09/crisp-dm-metodologia-proyectos-data-mining.html. [Accessed: 09-Jul-2020].

[33] D. B. Haytowitz, L. E. Lemar, and P. R. Pehrsson, “USDA’s Nutrient Databank System – A tool for handling data from diverse sources,” Journal of Food Composition and Analysis, vol. 22, no. 5, pp. 433–441, Aug. 2009.

[34] J. J. Espinosa zúñiga, . “El conjunto de datos se encuentra organizado por 8790 alimentos en la base de datos conformados por 25 grupos de alimentos y 52 valores de nutrientes,” vol. 21, no. número 1, pp. 1–17, 2020.

Page 39: ANALISIS NUTRICIONAL DE LOS ALIMENTOS SOPORTADO EN

39