los riesgos y peligros de anÁlisis de datos sensoriales de predicciÓn de vida Útil

LOS RIESGOS Y PELIGROS DE ANÁLISIS DE DATOS SENSORIALES DE PREDICCIÓN DE VIDA ÚTIL: SIMULACIÓN DE DATOS APLICADA AL CASO DE CAFÉ

2. Materiales y métodos

2.1. Escenarios con la variabilidad de datos diferente

Con el fin de evaluar cómo la variabilidad de datos influye en estantería Las estimaciones de duración, se construyeron 3.000 conjuntos de datos simulados. Un ideal perfil de la evolución estancamiento de café como una función de almacenamiento tiempo se construyó, como si se obtuvieron mediante una prueba descriptiva, sobre la base de los resultados de los experimentos anteriores (Guerra, 2005).

En esas pruebas, 12 asesores entrenados evaluaron el atributo'' añejo'' ('''' Rancido en italiano) en una escala de nueve puntos discretos con anclajes semánticas (1 ¼ no rancio, rancio 9 ¼ extrema), utilizando un diseño de bloques completos al equilibrada con dos repeticiones, a las ocho tiempos de almacenamiento (0, 20, 45, 55, 65, 70, 80, 100 días después de la apertura).

El grupo se formó con cinco muestras de referencia creados con el fin de obtener un estancamiento preciso y repetible nivel (Cappuccio, Teixeira, y Teixeira, 2006). Los resultados de los Este experimento mostró que la evolución de la nota rancio como una función del tiempo de almacenamiento sigue una tendencia sigmoidal. Este perfil aquí se asume como el ideal para la creación delos escenarios simulados.

Sobre esta base, 3.000 perfiles simulados fueron creados al azar: 1000 con una baja, 1000 y 1000 con medio con alta variabilidad en el asesor de juicios (Fig. 1). Para crear las distribuciones, las frecuencias de las puntuaciones han sido establecidas. Por ejemplo, en el caso de baja variabilidad (Fig. 1a), nos supone que los jueces ofrecen resultados muy homogéneos, con un máximo de 1 punto de diferencia de la que se esperaba (en una escala 1e9), con la disminución de la probabilidad. estas probabilidades sería 0,5 para la puntuación esperada y 0,25 para la siguiente y los anteriores. En el caso de la variabilidad del medio (Fig. 1b), la probabilidades serán 0,0417, 0,0833, 0,2083, 0,3333, 0,2083, 0,0833, y 0,0417, respectivamente. A partir de estas distribuciones de probabilidad números aleatorios han sido a continuación se extrajo, siendo así capaz de realizar 1.000 tramas de datos por distribución. La transformación de los datos a escala de nueve puntos en los binarios (requerido mediante regresión logística y modelos de supervivencia) se hizo considerar como inaceptable todas las muestras que recibieron una puntuación más alta que un valor de corte elegido, llamado aceptabilidad limitar. En este caso se seleccionaron dos puntos de corte diferentes, de acuerdo con los resultados anteriores (Guerra, 2005): 2 y 3 en la escala de nueve puntos, que corresponde a apenas perceptible'''' y '''' Perceptible en la escala de estancamiento.

Por último, señalamos que hemos generado (y por lo tanto también analizado) las puntuaciones como si fueran completamente independiente, sin tener en cuenta ningún efecto juez. Al analizar los datos reales, sin embargo, haciendo caso omiso de este efecto puede causar una subestimación de los errores estándar de las estimaciones.

2.2. Análisis de los datos

La vida útil se calcula para cada conjunto de datos simulados utilizando tres modelos diferentes: de regresión no lineal, regresión logística y el análisis de supervivencia basada en una distribución de Weibull. Otro distribuciones, que se pueden encontrar en la literatura, como exponencial y log-normal (Giménez et al., 2007), tienen a priori ha descartado, debido a la falta de sentido físico.

2.2.1. Regresión no lineal

Supusimos que el estancamiento (s) sigue un perfil sigmoidal como una función del logaritmo del tiempo de almacenamiento (t) y por lo que eligió un modelo de regresión sigmoidal:

Donde b y c son a estimar los parámetros de regresión y 1 y 8 vienen desde el límite de la función de registro (t) cerca de 0 o N en una escala de nueve puntos. El logaritmo de tiempo era utilizado para evitar estimaciones negativas de la vida útil.

Valor de vida útil se obtuvo considerando tres diferentes límites de aceptabilidad: 2, 2.5 y 3.5 en los elegidos nueve puntos escala, una puntuación de 2 significa que la nota de estancamiento es casi perceptible y una puntuación de 3 significa que el estancamiento es Perceptible.

2.2.2. El análisis de supervivencia

En el análisis de supervivencia, tiempo hasta el fracaso es una variable aleatoria, por lo tanto, y se caracteriza por una función de densidad acumulativa (cdf, dando la probabilidad de observar un valor de tiempo hasta el fracaso inferior o igual a t), o correspondientemente, por el llamado función de supervivencia (probabilidad de sobrevivir después de un tiempo t).

A partir de estos, también la función de densidad de probabilidad (pdf), la función de riesgo y la función de riesgo acumulativo pueden ser derivados (Lawless, 1982). Un modelo de supervivencia ampliamente utilizado es el modelo de Weibull, que se aplicó en los datos simulados. La distribución Weibull (Weibull, 1951) presenta una función de supervivencia caracterizada por dos constantes, el parámetro de forma (l) y el parámetro de escala (n) (Breyfogle, 1992).

Los parámetros fueron estimados por máxima similitud con método. Valores de la vida de anaquel se obtuvieron utilizando tres diferentes valores cdf, 0,1, 0,3 y 0,5, lo que corresponde a un 10, 30 o 50% de probabilidad de observar un tiempo de fallo menor.

2.2.3. La regresión logística

Los estudios de modelos logísticos de la evolución de la probabilidad de una muestra que está siendo juzgado inaceptable (p), como una función del logaritmo del tiempo de almacenamiento (t), como se indica en la siguiente ecuación:

Donde a y b son los parámetros de regresión. El modelo se estimó mediante registro (t) como variable explicativa. La vida útil se define como el tiempo por el cual la probabilidad de valor inaceptable era igual a 0,1, 0,3 y 0,5.

2.3. resúmenes de datos

Los resultados de los análisis de los conjuntos de datos simulados se resumieron por medio de la caja de parcelas (Tukey, 1970), una herramienta poderosa para mostrar las características de distribución de una variable cuantitativa y compararlos entre diferentes grupos. Cada diagrama de caja se refiere a la vida útil calculada mediante una específica combinación de método de estimación, de corte y la probabilidad nivel. Los extremos de la caja corresponden a la primera (bajo) y tercer cuartil (alta) de la distribución de los resultados, la línea en el cuadro indica la mediana. Los bigotes se extienden de los cuartiles de los valores observados bajo y más alto. La posición de la caja nos permite comparar la tendencia central de estimaciones mientras que la anchura de la caja y la longitud de los bigotes son informativos acerca de la variabilidad (cuanto mayor sea la cuadro, mayor será la variabilidad).

2.4. Calculo computarizados

Simulaciones y análisis de datos se llevaron a cabo utilizando R (Venables, Smith, y el Equipo Central R el Desarrollo, 2007).

3. RESULTADOS Y DISCUSIÓN

Los siguientes resultados y consideraciones proceden tanto de los una revisión de la literatura crítica y a partir del análisis de los diferentes considera escenarios.

3.1. Los riesgos en la elección de la prueba

Cuando se realiza una prueba de vida útil, un enfoque de consumo o de expertos puede ser utilizado. En el caso de un panel de expertos, ya que se dijo antes, se evalúan una o más atributos sensoriales, suponiendo que la predicción de la evolución de tales atributos con el tiempo va a determinar la aceptabilidad del producto. Esta suposición es todo menos sencillo, pero en el caso del café puede ser válida, ya que la única variable sensorial relacionada con el tiempo, que posiblemente puede dar lugar a un rechazo es estancamiento. Por otro lado, el enfoque de los consumidores provoca varios problemas, como la inconsistencia de sus juicios (Hough et al., 2003), la variabilidad del resultado diferente cuando los consumidores se utilizan paneles (Giménez et al., 2007) y de organización problemas para una empresa, ya que los consumidores no pueden evaluar más de tres o cuatro muestras en una sola sesión.

3.2. Errores en la elección del modelo

Conjuntos de datos sensoriales son generalmente incompleta, porque todo el observaciones se toman con un horario fijo y luego a veces falla no se puede observar con exactitud (Blischke y Murthy, 2000; Hough et al., 2003). El mecanismo que impide la observación precisa de los tiempos hasta el fallo se llama censura. Si se descuida un sesgo en la estimación de la vida útil será probablemente obtenida, sobre todo en caso de los experimentos diseñados escalonados (Gacula, 1975).

Con el fin de obtener una estimación de la distribución del tiempo de fracaso, métodos no paramétricos o paramétrica se puede aplicar. Metodologías no paramétricas se utilizan con el fin de determinar función de la forma de la supervivencia (o riesgo) sin asumir cualquier distribución particular (Lawless, 1982). Por ejemplo, la Técnica KaplaneMeier estima el valor de la supervivencia la función en cada tiempo de muestreo, suponiendo un valor constante para la función de intervalos de tiempo inexplorados. Sin embargo, este tipo de análisis no es útil cuando todos los datos son censurados, y por lo que no es adecuado para el análisis sensorial. La forma alternativa consiste en la aplicación de paramétrica técnicas, que permiten la obtención de una caracterización específica y una representación paramétrica de todas las funciones que los describir la distribución del tiempo de falla y se basan en la definición de las constantes que son específicos de la adoptada modelo. Muchos modelos se han utilizado en la bibliografía, por ejemplo, exponencial, logarítmica normal o Weibull. Exponencial y los modelos normales de registro no son adecuados para estudios de vida útil porque en este contexto que carecen de significado físico: de hecho la función de riesgo asociado a la antigua es constante a lo largo tiempo, mientras que en el segundo modelo que muestra un pico correspondiente a los primeros valores de la variable tiempo. Ambas formas son incompatibles con el envejecimiento de un producto alimenticio, ya que el Se espera que la función de riesgo para aumentar con el tiempo de almacenamiento (Gacula Y Kubala, 1975; Gacula y Singh, 1984). Esta es la razón por la Distribución Weibull ha sido elegido para nuestra discusión. De las estimaciones de los parámetros basándose en los datos de supervivencia es posible para calcular los cuartiles de la distribución del tiempo. La por lo que en la vida útil estudia una probabilidad de aceptación equivalente al 50% (es decir, el tiempo medio) se elige a menudo es que si el parámetro de forma es lo suficientemente grande, el pdf tiende a ser simétrica, y el percentil 50 coincide con la valor medio (Gacula y Kubala, 1975).

Una opción de suma importancia en la estimación de los parámetros es la función de riesgo, ha habido una tendencia a utilizar el valor de riesgo h (t) (expresada en porcentaje) para cada tiempo de fallo de la expresión:

Donde k es el rango inverso asignado a cada tiempo de terminación (fallo, así como censurado) (Gacula y Kubala, 1975). Desafortunadamente, este método puede ser utilizado solamente cuando la ocurrencia de más de un evento (fallo o retirada) en el mismo tiempo tiene una probabilidad insignificante. Además, sólo el derecho de censura los datos pueden ser manejados de esta manera. Por lo tanto, a pesar de que se encuentra en la literatura (Cardelli y Labuza, 2001;. Duyvesteyn et al, 2001), la aplicación de esta estimación de riesgo no es

adecuada para el análisis de datos sensoriales. Esto no quiere decir que es de Weibull no es adecuado para la estimación de la vida útil, pero el problema de esta método consiste en la necesidad de prestar atención a la censura Definición. Una definición incorrecta de la censura conduce necesariamente a una predicción de la vida útil equivocado. Hoy en día, el uso de paquetes estadísticos modernos pueden resolver este problema, sin embargo, los investigadores tienen que ser conscientes de las consecuencias de todo posibles opciones. En los últimos años, más sofisticada y adecuada técnicas para la estimación de parámetros, es decir, máxima verosimilitud (Kalbfleisch y Prentice, 1980; Lawless, 1982), fueron puesto a disposición también para los practicantes por el desarrollo de software adecuado y fácil de usar.

Teniendo en cuenta el análisis de regresión no lineal, es importante subrayar que la elección de un modelo sigmoidal y de la ecuación relativa es necesariamente arbitraria. Pero, puesto que la subyacente fenómeno fisicoquímico no es completamente conocido, el modelo que se elige arbitrariamente. En este caso, se eligió el modelo de acuerdo con las sugerencias de los la literatura (Breslin, 2001) y experimentaciones anteriores (Guerra, 2005).

Es importante señalar que el modelo se aplicó a todos los los datos. La aplicación del análisis de regresión en la valores de la mediana (o en los medios), aunque generalizadas, es correctos, ya que causa una subestimación de la variabilidad. De hecho, si un valor único sustituye 12 observaciones en cada tiempo de muestreo, la variabilidad cae necesariamente hacia abajo. Por lo tanto, la forma más correcta para la aplicación de un modelo de regresión no lineal es para trabajar en todas las puntuaciones. La ventaja de regresión no-lineal es que no es necesario para transformar los datos en una forma binaria. De hecho, el modelo es no se basa en los valores de probabilidad, sino de las puntuaciones otorgadas por los jueces. Por lo tanto, este método funciona como una calibración, en observaciones de hechos se toman en momentos bien definidos con el fin de determinar cómo el perfil de las puntuaciones evoluciona con el tiempo. Entonces, dada una puntuación, se puede volver al correspondiente tiempo. Por desgracia, este método produce una lógica problema, ya que el tiempo se considera como variable explicativa, mientras que en realidad el tiempo es la variable que tiene que ser estimado. Otro problema a ser enfrentado con precaución es la elección del límite de aceptabilidad. Este valor se calcula a menudo como la media de una serie de evaluaciones de aceptabilidad determinado en la norma muestras que se caracterizan por una intensidad conocida de el atributo sensorial. Así que es posible (como sucedió en este específico caso) que el límite elegido no es un número entero. En de esta manera las puntuaciones se consideran como una variable continua, incluso si no lo son. Este problema conceptual se puede superar de trabajo en las puntuaciones de binarios y en probabilidades. Finalmente, un comentario se debe hacer en la naturaleza del tiempo variable. Se aplicó la regresión no lineal y los modelos logísticos mediante una forma logarítmica del variable tiempo. Recomendamos a trabajar en la segunda forma, ya que el uso de veces no logarítmicas puede dar lugar a valores de vida útil negativos, especialmente en el caso de datos de alta variabilidad.

3.3. La variabilidad debido a la elección del límite de corte o el ruido en los datos

En la Tabla 1 y en las figuras. Se dan los resultados para los tres 2E4 modelos considerados, los escenarios y cut-offs (aceptabilidad límites). Tabla 1 nos permite notar algunas tendencias claras. No lineal regresión parece ser afectada por el cambio en los parámetros, regresión logística y modelos Weibull dan muy similar predicciones, tanto en términos de valor medio y de la variabilidad de estimaciones. Una comparación entre estos modelos y no lineales regresión es bastante difícil porque regresión no-lineal es no se basa en los valores de probabilidad. La comparación entre logística El análisis de regresión y la supervivencia pone en evidencia que el elección del modelo no afecta al resultado final, cuando el se establecen otros parámetros: las diferencias son pequeñas en comparación con la variabilidad del muestreo, siempre dentro de la dispersión.

También la variabilidad de los datos (es decir el grado de diferencia en el juicio de los evaluadores) no afecta considerablemente el resultado, y depende del valor de la probabilidad de inaceptable. Un alto nivel de probabilidad (0.5) da lugar a diferencias dentro del 20% para los dos modelos, mientras que una baja probabilidad nivel (0.1) da lugar a diferencias de vida útil de 50% al comparar un panel con baja y alta variabilidad. De todos modos, la ventaja de trabajar con un panel entrenado conduce a la posibilidad de la obtención de datos afectados por la disminución de la variabilidad, y por lo tanto predicciones de vida útil más precisos. La variabilidad de datos afecta estante estimaciones de duración no sólo en términos de precisión (anchura del diagrama de caja),

sino también en términos de precisión (posición del centro de la caja): de hecho, a medida que aumenta la variabilidad, las estimaciones del tiempo de almacenamiento tienden a disminuir. En el caso de los estudios de consumo, la comisión debe ser cuidadosamente reclutado en relación con el tipo de producto, y grandes lo suficiente para permitir un análisis de datos correcto incluso en caso de eliminación de parte del panel debido a la falta de consistencia.

En cuanto al valor de la probabilidad de inaceptabilidad, la literatura nos dice que el tiempo medio es elegido con mayor frecuencia. Eso significa que si 100 elementos se almacenan por un período de tiempo igual a la vida útil, esperamos que 50 de ellos ya tienen fracasaron en ese período y 50 están aún sobreviven. La elección de los este nivel es arbitraria, y la estimación de la vida útil está fuertemente influenciada por ella. Así que es muy importante para evaluar y justificar cada elección. Tabla 1 sugiere que la elección de la probabilidad nivel puede fácilmente afectar el valor final en un 20% (por ejemplo, 23 y 27 días en caso de regresión logística con baja variabilidad de datos, el valor de corte de 2 y compararon los niveles de probabilidad de 0,3 y 0.5). Las diferencias son considerables para la baja de corte límites, llegando a 100% para el modelo de Weibull (por ejemplo, 15 y 31 día en caso de modelo de Weibull con la variabilidad de datos bajas, de corte valor de 2 y la comparación de los niveles de probabilidad de 0.1 y 0.5). Por último, la elección del límite de aceptabilidad afecta el resultado dramáticamente. A diferencia de sólo 1 punto en un punto de nueve escala (2 o 3 en nuestro caso), puede conducir a resultados finales que difieren por 160% en el caso de bajo nivel de probabilidad, independientemente de la método. Esa es una diferencia de más de 20 días (16 y 42 días en caso de regresión logística, 15 y 40 días en caso de análisis de supervivencia) para la estimación del mismo producto.

Podemos concluir que en el caso de la utilización de un panel entrenado, la variabilidad de los evaluadores "juicios puede ser manejado, mientras que la elección del valor de corte por el investigador o el empresa puede cambiar el resultado en un 160%. También la elección de los el nivel de probabilidad es crucial, y es necesaria esta elección tanto en el caso de un panel entrenado o una prueba de consumidores.

CONCLUSIONES PERSONALES

En síntesis el artículo nos deja claro que existen varios métodos para estimar la vida útil de productos alimenticios mirando las características del producto. Basándose en antecedentes de estudio realizados al mismo producto.

Como consecuencia en el caso de este artículo la metodología utilizada para mirar la vida en anaquel del café almacenado nos arroja unos resultados positivos con un método paneles entrenados, y elección de corte cambia los resultados.

Con respecto a este estudio lo podemos mirar desde un punto de vista que el café tiene mucho forma de ayar la vida útil pues este estudio fue una forma arbitraria de medir pero efectiva on que siguiendo una frecuencia lógica dela toma de análisis sensorial con ayuda de herramienta estadística y software que facilitaron el proceso para analizar la vida en anaquel del café almacenado.

Otra parte vemos que ellos mismo veía que cometían un error por Conjuntos de datos sensoriales son generalmente incompleta, porque todo el observaciones se toman con un horario fijo y luego a veces falla no se puede observar con exactitud por este método por eso ella utilizaban función de supervivencia.

los riesgos y peligros de anÁlisis de datos sensoriales de predicciÓn de vida Útil

Documents