mg hugo fernando ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · glosario de...

214
x , 2 1 ) ( 2 2 1 x e x f Mg Hugo Fernando Ayan

Upload: nguyenquynh

Post on 15-Oct-2018

212 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

x ,2

1)(

2

2

1 x

exf

Mg Hugo Fernando Ayan

Page 2: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

2

Contenidos

Programa Analítico ....................................................................................................... 7 Guía de Trabajos Prácticos ............................................................................................ 9

Programa de Examen Final ......................................................................................... 11 Estadística y Biometría ................................................................................................... 13

Organización de Datos ................................................................................................ 15 Variables cualitativas o categóricas ............................................................................. 15

Variables cuantitativas ................................................................................................ 16 Otras formas de clasificación....................................................................................... 16

Modalidad - Clases...................................................................................................... 17 Tablas estadísticas ....................................................................................................... 17

Distribución de frecuencias ......................................................................................... 18 Elección de intervalos para variables continuas ........................................................... 20

Representaciones Gráficas........................................................................................... 22 Gráficos para variables cualitativas ............................................................................. 24

Diagramas de sectores ................................................................................................. 25 Pictogramas ................................................................................................................ 25 Gráficos para variables cuantitativas ........................................................................... 25

Diagramas diferenciales .............................................................................................. 26 Diagramas integrales ................................................................................................... 26

Gráficos para variables discretas ................................................................................. 26 Gráficos para variables continuas ................................................................................ 27

Histogramas ................................................................................................................ 27 Polígonos de frecuencias ............................................................................................. 27

Diagrama de barras de error ........................................................................................ 29 Diagramas de dispersión ............................................................................................. 30

Funciones matemáticas lineales y cuadradas................................................................ 31 Función lineal y ecuación de la recta ........................................................................... 31

Función lineal como propiedad de los sistemas generales ............................................ 32 Interpretación geométrica ............................................................................................ 32

Función cuadrática ...................................................................................................... 34 Estudio de la función ................................................................................................... 35

Medidas descriptivas estadísticas ................................................................................ 41 Estadísticos de tendencia central ................................................................................. 41

Mediana ...................................................................................................................... 42 Moda .......................................................................................................................... 43

Estadísticos de posición: Cuartiles (Ql) ........................................................................ 45 Estadísticos de posición: Percentiles ............................................................................ 45

Deciles ........................................................................................................................ 46 Medidas de dispersión ................................................................................................. 47

Amplitud (A) o Rango................................................................................................. 47 Varianza ...................................................................................................................... 49

Desviación estándar .................................................................................................... 49 Grados de libertad ....................................................................................................... 49

Propiedades del desvío standard .................................................................................. 50 Coeficiente de Variación ............................................................................................. 50

Asimetría o sesgo ........................................................................................................ 51 Apuntamiento (Curtosis) ............................................................................................. 52

Cálculo de Probabilidades ........................................................................................... 55 Experimentos y Sucesos Aleatorios (condiciones) ....................................................... 55

Page 3: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

3

Nociones de Probabilidad ............................................................................................ 57

Probabilidad Clásica.................................................................................................... 57 Probabilidad Frecuencial ............................................................................................. 58

Axiomas...................................................................................................................... 58 Probabilidad Condicional ............................................................................................ 59

Independencia Estadística ........................................................................................... 60 Modelos discretos ....................................................................................................... 60

Experimentos de Bernoulli .......................................................................................... 60 Modelo Matemático .................................................................................................... 60

Modelo Probabilístico Binomial .................................................................................. 61 Variable Aleatoria ....................................................................................................... 62

Función de Probabilidad .............................................................................................. 63 Función de densidad v.a. discreta ................................................................................ 65

Esperanza Matemática................................................................................................. 65 Varianza Poblacional .................................................................................................. 66

Distribución Normal.................................................................................................... 67 Distribución Normal estandarizada .............................................................................. 69

Tabla ........................................................................................................................... 70 Distribución de Estadísticos Muestrales ...................................................................... 72

Distribución muestral de un estadístico ....................................................................... 72 Distribución del Estadístico media muestral ................................................................ 73

Teorema Central del Límite ......................................................................................... 76 Distribución ―T de Student‖ ........................................................................................ 76

Muestreo ..................................................................................................................... 78 Muestreo probabilístico ............................................................................................... 78

Distribución ―Chi-cuadrado‖ ....................................................................................... 80 Distribución de Probabilidad de Variables Discretas.................................................... 81

q p(θ).................................................................................................................... 82 Los Modelos Simbólicos (Matemáticos) ...................................................................... 83

El Estimador ............................................................................................................... 85 Estimación: puntual y por intervalos ........................................................................... 85

Estimación puntual ...................................................................................................... 85 Estimación por intervalos ............................................................................................ 85

Propiedades deseables en los estimadores .................................................................... 85 Intervalos de confianza para los principales parámetros El caso de la media ................ 86

El Caso de Desconocer la Varianza Poblacional .......................................................... 89 Probabilidad normal presentada en una y dos colas ..................................................... 91 Intervalos de confianza para OTROS parámetros ........................................................ 91

Contrastes de Hipótesis ............................................................................................... 95 Ensayo de una cola ...................................................................................................... 97

Intervalo de Confianza y Contraste de Hipótesis.......................................................... 99 Contrastes para la media.............................................................................................. 99

Tests de una cola con varianza conocida.................................................................... 100 Test de dos colas con varianza desconocida ............................................................... 102

Contrastes para la varianza ........................................................................................ 106 Contraste bilateral ..................................................................................................... 106

Contrastes unilaterales............................................................................................... 107 Inferencia basada en dos muestras ............................................................................. 109

Análisis de la Varianza .............................................................................................. 117 Especificación del modelo ......................................................................................... 118

Algo de notación relativa al modelo .......................................................................... 121

Page 4: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

4

Forma de efectuar el contraste ................................................................................... 121

Consideraciones a los supuestos del modelo .............................................................. 126 Normalidad ............................................................................................................... 126

Homogeneidad de varianza: prueba de Levene ......................................................... 127 Homogeneidad de varianza: gráfico de dispersión .................................................... 128

Independencia ........................................................................................................... 128 Ventajas y limitaciones del Análisis de la Varianza ................................................... 129

Comparaciones Múltiples .......................................................................................... 130 Regresión y Correlación ............................................................................................ 131

Relaciones entre variables y regresión ....................................................................... 131 Diagramas de dispersión o nube de puntos ................................................................ 132

Predicción de una variable en función de la otra. ....................................................... 133 Cómo reconocer relación directa e inversa. ............................................................... 133

Cómo reconocer buena o mala relación ..................................................................... 134 Covarianza de dos variables X e Y ............................................................................ 135

Coeficiente de correlación lineal de Pearson .............................................................. 135 Propiedades de r ........................................................................................................ 136

Otros coeficientes de correlación ............................................................................... 140 Regresión .................................................................................................................. 140

Modelo de regresión lineal simple ............................................................................. 141 ¿Cómo medir la bondad de una regresión? ................................................................ 143

Bondad de un ajuste .................................................................................................. 144 Otros modelos de regresión ....................................................................................... 145

Modelos de análisis de regresión ............................................................................... 146 Errores de Predicción ................................................................................................ 150

El coeficiente de regresión y la reducción del error en la estimación .......................... 152 Validación de los supuestos ....................................................................................... 155

Regresión múltiple .................................................................................................... 157 Series de Tiempo....................................................................................................... 159

Definición de serie de tiempo .................................................................................... 159 Descomposición de una serie de tiempo .................................................................... 160

Pruebas No Paramétricas ........................................................................................... 165 Aleatoriedad de una muestra: Test de rachas ............................................................. 165

Normalidad de una muestra: Test de D'Agostino ....................................................... 167 Contraste de Wilcoxon para muestras apareadas ........................................................ 167

Aproximación normal en el contraste de Wilcoxon.................................................... 168 Contraste de Kruskal-Wallis ...................................................................................... 168

Tablas de Contingencia ............................................................................................. 170 Diseño de Experimentos................................................................................................ 175

Concepto, Objetivo e Importancia ............................................................................. 175 Necesidad de realizar la Experimentación y la Investigación ..................................... 176

Etapas fundamentales de la Experimención Agropecuaria ......................................... 176 El Método Científico ................................................................................................. 177

Modelos .................................................................................................................... 178 Tipos de variabilidad. ................................................................................................ 180

Planificación de un experimento ................................................................................ 181 Resumen de los principales conceptos. ...................................................................... 188

Principios básicos en el diseño de experimentos. ....................................................... 188 Fuentes de Error ........................................................................................................ 190

Estructura de parcelas................................................................................................ 190 Diseño de la estructura de parcelas ............................................................................ 191

Page 5: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

5

Algunos diseños clásicos ........................................................................................... 191

Completamente aleatorizado ..................................................................................... 191 Comparaciones múltiples .......................................................................................... 192

Prueba de Tukey ....................................................................................................... 192 Prueba de Fisher ........................................................................................................ 194

Bloques completos aleatorizados ............................................................................... 195 Cuadrado latino ......................................................................................................... 198

Estructura de tratamientos ......................................................................................... 200 Experimentos Factoriales .......................................................................................... 201

Glosario de términos estadísticos .................................................................................. 202 Glosario de términos estadísticos .................................................................................. 202

Page 6: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

6

Condición de Regularidad

Promedio mínimo de 4 (cuatro)

80 % asistencia (teórica – práctica).

Aprobar 2 parciales con un mínimo de 4 (cuatro).

Se puede recuperar 1 (un) parcial.

Aprobar la parte práctica con un mínimo de 4 (cuatro).

Examen final para alumnos regulares

Aquellos alumnos que reúnan las condiciones de regularización, podrán rendir

examen final en forma oral, sobre los contenidos durante el dictado del presente

ciclo lectivo.

Examen final para alumnos libres

Aquellos alumnos que no alcancen las condiciones mínimas de regularidad, podrán

rendir la asignatura en condición de alumnos libres, con examen final escrito y oral

sobre todos los contenidos del programa

Bibliografía Básica

DI RIENZO, J. CASANOVES, F. GONZALEZ, L. TABLADA, M. DIAZ, M.P.

ROBLEDO, C. BALZARINI, M. (1999) Estadística para Ciencias Agropecuarias.

Screen Ed. 2da

CASANOVES, F. DI RIENNZO, J. ROBLEDO, C. (1998) Bases para Estadística

Experimental. Screen Ed.

AYAN H F. 2009. Estadística y Biometría. Sede Universitaria Chamical. Apunte

de la cátedra (en fotocopiadora)

Bibliografía sugerida

MONTGOMERY, DOUGLAS C. (1991) Diseño y Análisis de Experimentos. Ed.

Grupo Iberoamericana 589 p.

BERENSON, M.L. LEVINE, D.M. (1992) Estadística para Administración y

Economía. Interamericana. 720 p.

MENDENHALL, W. WACKRLY, D., SCHEAFFER, R. (1994) Estadística

Matemática con Aplicaciones. 2da. Ed. Grupo Iberoamericana. 464 p.

Page 7: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

7

Programa Analítico

Unidad Nº 1: Estadística Descriptiva

Contenidos: Formulación del problema. Necesidad y finalidad de la Investigación. Población

y Muestra. Variables. Tipos de variables. Distribuciones de frecuencia de una variable

aleatoria. Representaciones gráficas de los resultados de estudios experimentales u

observacionales. Medidas de resumen de la distribución de frecuencias de una variable

aleatoria en una muestra. Funciones matemáticas lineales y cuadradas. Función lineal y

ecuación de la recta. Interpretación geométrica. Función Cuadrática. Interpretación

geométrica. Medidas descriptivas. Estadísticos de Tendencia central. Estadísticos de posición.

Medidas de dispersión.

Unidad Nº 2: Distribución de Variables Aleatorias

Contenidos: Espacio muestral. Eventos. Concepto de Probabilidad. Evento Aleatorio.

Concepto de variable aleatoria. Distribución de una variable aleatoria. Función de distribución

acumulada. Función de densidad para variables aleatorias discretas y continuas. Medidas

resumen de la distribución de una variable aleatoria. Esperanza y Varianza de variables

aleatorias. Propiedades. Cuantiles de una distribución.

Unidad Nº 3: Distribución en el muestreo

Contenidos: La función de densidad normal. Estandarización. Función de distribución

acumulada normal. Uso de la tabla para distribución normal. Distribución del Estadístico

media muestral. Teorema central de límite. Distribución "t de Student". Distribución de la

diferencia de dos medias muestrales (varianzas conocidas y desconocidas). Distribución de

la varianza muestral. Distribución "Chi-Cuadrado" (2).

Unidad Nº 4: Inferencia Estadística. Estimación de Parámetros.

Contenidos: Estimación puntual. Propiedades de los buenos estimadores. Estimación por

intervalo. Procedimiento general para encontrar un intervalo de confianza para un parámetro

distribucional. Interpretación del intervalo de confianza. Estimación por intervalo de la

esperanza de la distribución de una variable aleatoria normal. Cálculo del tamaño muestral

para obtener un intervalo de confianza para con una amplitud determinada.

Unidad Nº 5: Inferencia Estadística. Prueba de Hipótesis

Contenidos: Concepto de prueba de Hipótesis. Hipótesis Nula y Alternativa. Procedimiento de

la prueba de Hipótesis. Errores de Tipo I y Tipo II. Relación entre los intervalos de Confianza

y las Pruebas de Hipótesis. Prueba de Hipótesis acerca de la esperanza de una distribución

cuando se conoce 2. Estimación por intervalos para la esperanza de una distribución normal

cuando se conoce 2. Prueba de hipótesis acerca de la esperanza de una distribución normal

cuando 2 es desconocida.

Page 8: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

8

Unidad Nº 6: Inferencia sobre la Esperanza y la Varianza de una y dos distribuciones normales.

Contenidos: Estimación por intervalos para la esperanza de una distribución normal cuando 2

es desconocida. Contraste de hipótesis referente a la varianza de una distribución normal.

Estimación por intervalo de la varianza de una distribución. Estimación por intervalo referente

a las varianzas de dos distribuciones. Distribución F. Prueba de hipótesis referente a las

esperanzas de dos distribuciones con varianzas conocidas y desconocidas. Observaciones

apareadas: prueba de hipótesis y estimación por intervalo.

Unidad Nº 7: Análisis de Regresión y Correlación Lineal Contenidos: Análisis de Regresión Lineal. Estimación de la Recta de Regresión. Método de

los Mínimos Cuadrados. Estimaciones y Predicciones. Los supuestos del Análisis de

Regresión. Análisis de los Residuales. Análisis de la variación en la variable dependiente Y.

Prueba de Hipótesis. Análisis de Correlación Lineal. Los supuestos del Análisis de

correlación. Coeficiente de Correlación Lineal. Prueba de Hipótesis. Regresión Múltiple.

Series de Tiempo. Definición. Descomposición de una serie de tiempo.

Unidad Nº 8: Pruebas No Paramétricas. Análisis de Datos Categorizados Contenidos: Pruebas No Paramétricas. Test de Rachas. Test de D‘Agostino. Contraste de

Wilcoxon para muestras apareadas. Contraste de Kruskal-Wallis. Tablas de Contingencia.

Medidas de Asociación. Pruebas de hipótesis de homogeneidad de proporciones. Pruebas de

hipótesis de independencia. Pruebas de bondad de ajuste.

Unidad Nº 9: Análisis de la varianza

Contenidos: Definiciones preliminares. Diseño completamente aleatorizado. El análisis de la

varianza de efectos fijos a un criterio de clasificación. El ANAVA y los cuadrados medios. La

partición de la suma de cuadrados y la tabla de ANAVA. Supuestos del ANAVA. Análisis de

los residuales. Pruebas a posteriori "el test de Tukey" y el de ―Fisher‖.

Page 9: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

9

Guía de Trabajos Prácticos

Práctico °1: Estadística Descriptiva

Contenidos: Tablas de frecuencia de una variable aleatoria. Representaciones gráficas de los

resultados. Medidas de resumen de la distribución de frecuencias de una variable aleatoria en

una muestra. Funciones lineal y cuadrática

Práctico Nº 2: Variables Aleatorias

Contenidos: Eventos. Probabilidad. Variable aleatoria. Función de densidad para variables

aleatorias discretas y continuas. Medidas resumen de la distribución de una variable aleatoria.

Esperanza y Varianza de variables aleatorias.

Práctico Nº 3: Distribución en el muestreo

Contenidos: La función de densidad normal. Estandarización. Función de distribución

acumulada normal. Uso de la tabla para distribución normal. Distribución del Estadístico

media muestral. Uso de la tabla "t de Student". Distribución de la diferencia de dos medias

muestrales (varianzas conocidas y desconocidas). Distribución de la varianza muestral. Uso

de la tabla "Chi-Cuadrado" (2).

Práctico Nº 4: Estimación de Parámetros

Contenidos: Estimación puntual. Estimación por intervalo. Interpretación del intervalo de

confianza. Cálculo del tamaño muestral.

Práctico Nº 5: Prueba de Hipótesis

Contenidos: Prueba de Hipótesis. Hipótesis Nula y Alternativa. Errores de Tipo I y Tipo II.

Estimación por intervalos para la esperanza de una distribución normal con y sin σ2 conocida.

Práctico Nº 6: Inferencia sobre la esperanza y varianza de una y dos distribuciones normales

Contenidos: Prueba de Hipótesis acerca de la esperanza de una distribución cuando se conoce 2

y cuando la misma es desconocida. Contraste de hipótesis referente a la esperanza y

varianza de una distribución normal. Estimación por intervalo referente a las varianzas de

dos distribuciones. Uso de la tabla para la distribución ―F‖.

Page 10: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

10

Práctico Nº 7: Regresión Lineal Contenidos: Estimación de la Recta de Regresión. Los supuestos del Análisis de Regresión.

Análisis de los Residuales. Prueba de Hipótesis. Análisis de Correlación Lineal. Análisis de

Regresión Lineal Múltiple. Series de Tiempo.

Práctico Nº 8: Pruebas No Paramétricas. Análisis de Datos Categorizados

Contenidos: Pruebas no paramétricas. Test de Rachas. Test de D‘Agostino. Contraste de

Wilcoxon. Contraste de Kruskal-Wallis.Inferencia en tablas de contingencia. Interpretación.

Medidas de asociación para tablas de contingencia. Pruebas de Hipótesis de homogeneidad de

proporciones.

Práctico Nº 9: Análisis de la varianza Contenidos: La tabla de ANAVA. Supuestos del ANAVA. Análisis de los residuales.

Preuebas a Posteriori. Test de Tukey y Fisher.

Page 11: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

11

Programa de Examen Final

(COMBINADO)

Bolilla Nº 1 1.1 Necesidad y finalidad de la Investigación. Población y Muestra.

1.2 Espacio muestral. Eventos. Concepto de Probabilidad.

1.3 La función de densidad normal. Estandarización.

1.4 Estimación puntual. Propiedades de los buenos estimadores.

1.5 Concepto de prueba de Hipótesis.

1.6 Prueba de Hipótesis acerca de la esperanza de una distribución cuando se conoce 2.

Estimación por intervalos para la esperanza de una distribución normal cuando se conoce 2.

1.7 Análisis de Regresión Lineal.

1.8 Pruebas No Paramétricas. Tablas de Contingencia.

1.9 ANAVA: Definiciones preliminares.

Bolilla Nº 2

2.1 Variables. Tipos de variables.

2.2 Evento Aleatorio. Concepto de variable aleatoria.

2.3 Función de distribución acumulada normal. Uso de la tabla para distribución normal.

2.4 Estimación por intervalo. Procedimiento general para encontrar un intervalo de confianza

para un parámetro distribucional.

2.5 Hipótesis Nula y Alternativa.

2.6 Prueba de hipótesis acerca de la esperanza de una distribución normal cuando 2

es

desconocida. Estimación por intervalos para la esperanza de una distribución normal

cuando 2

es desconocida.

2.7 Estimación de la Recta de Regresión.

2.8 Test de Rachas. Medidas de Asociación para tablas de contingencia.

2.9 Diseño completamente aleatorizado

Bolilla Nº 3

3.1 Distribuciones de frecuencia de una variable aleatoria.

3.2 Distribución de una variable aleatoria. Función de distribución acumulada.

3.3 Distribución del Estadístico media muestral.

3.4 Interpretación del intervalo de confianza.

3.5 Procedimiento de la prueba de Hipótesis.

3.6 Contraste de hipótesis referente a la varianza de una distribución normal.

3.7 Regresión: Método de los Mínimos Cuadrados.

3.8 Test de D‘Agostino. Hipótesis de homogeneidad de proporciones para tablas de

contingencia.

3.9 El análisis de la varianza de efectos fijos a un criterio de clasificación.

Bolilla Nº 4

4.1 Representaciones gráficas de los resultados de estudios experimentales u observacionales.

4.2 Función de densidad para variables aleatorias discretas y continuas.

4.3 Teorema central de límite.

4.4 Estimación por intervalo de la esperanza de la distribución de una variable aleatoria

normal.

4.5 Errores de Tipo I y Tipo II.

4.6 Estimación por intervalo de la varianza de una distribución.

Page 12: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

12

4.7 Los supuestos del Análisis de Regresión. Análisis de los Residuales.

4.8 Contraste de Wilcoxon. Pruebas de hipótesis de independencia para tablas de

contingencia.

4.9 El ANAVA y los cuadrados medios.

Bolilla Nº 5 5.1 Medidas de resumen de la distribución de frecuencias de una variable aleatoria en una

muestra. Función lineal.

5.2 Medidas resumen de la distribución de una variable aleatoria.

5.3 Distribución "t de Student". Distribución de la diferencia de dos medias muestrales

(varianzas conocidas y desconocidas).

5.4 Cálculo del tamaño muestral para obtener un intervalo de confianza para con una

amplitud determinada.

5.5 Relación entre los intervalos de Confianza y las Pruebas de Hipótesis.

5.6 Estimación por intervalo referente a las varianzas de dos distribuciones. Distribución ―F‖.

5.7 Análisis de la variación en la variable dependiente Y. Prueba de Hipótesis.

5.8 Pruebas de bondad de ajuste para tablas de contingencia.

5.9 La partición de la suma de cuadrados y la tabla de ANAVA.

Bolilla Nº 6 6.1 Medidas descriptivas. Estadísticos de Tendencia central. Estadísticos de posición.

Medidas de dispersión. Función cuadrática.

6.2 Esperanza y Varianza de variables aleatorias. Propiedades. Cuantiles de una distribución.

6.3 Distribución de la varianza muestral. Distribución "Chi-Cuadrado" (2).

6.4 Prueba de hipótesis referente a las esperanzas de dos distribuciones con varianzas

conocidas y desconocidas. Observaciones apareadas: prueba de hipótesis y estimación por

intervalo.

6.5 Análisis de Correlación Lineal. Los supuestos del Análisis de correlación. Coeficiente de

Correlación Lineal. Prueba de Hipótesis. Regresión Múltiple. Serie de Tiempo

6.6 Contraste de KrusKal-Wallis.

6.7 Supuestos del ANAVA. Análisis de los residuales. Una Prueba a posteriori "el test de

Tukey y Fisher‖.

Page 13: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

13

Estadística y Biometría Estadística:

¿relación de datos numéricos presentada de forma ordenada y sistemática?

Es algo más: permite dar luz y obtener resultados, y por tanto beneficios, en

cualquier tipo de estudio, cuyos movimientos y relaciones, por su variabilidad

intrínseca, no puedan ser abordadas desde la perspectiva de las leyes

determinísticas.

Ciencia auxiliar para todas las ramas del saber; su utilidad se entiende mejor si

tenemos en cuenta que los quehaceres y decisiones diarias embargan cierto grado

de incertidumbre... y la Estadística ayuda en la incertidumbre, trabaja con ella y nos

orienta para tomar las decisiones con un determinado grado de confianza.

Definición 1:

Ciencia que estudia cómo debe emplearse la información y cómo dar una guía de

acción en situaciones prácticas que entrañan incertidumbre.

Usos y Abusos

Los críticos de la estadística afirman que a través de ella es posible probar

cualquier cosa, lo cual es un concepto profano que se deriva de la ignorancia en

este campo y de lo polifacético de los métodos estadísticos.

Muchos "investigadores" tendenciosos han cometido abusos con la estadística,

elaborando "investigaciones" de intención, teniendo previamente los resultados que

les interesan mostrar a personas ingenuas y desconocedoras de los hechos.

Otros, por ignorancia o negligencia, abusan de la estadística utilizando modelos

inapropiados o razonamientos ilógicos y erróneos que conducen al rotundo fracaso

de sus investigaciones.

Lincoln L. Chao (Estadística para Ciencias Administrativas, en Biblioteca), hace

referencia a uno de los más estruendosos fracasos, debido a los abusos en la toma de una

muestra

Se trata del error cometido por la Digest que, en sus pronósticos para las elecciones

presidenciales en EE.UU. para 1936, afirmó que Franklin D. Roosvelt obtendría

161 votos electorales y Alfred Landon, 370. La realidad mostró a Roosvelt con 523

votos y a Landon con 8 solamente.

El error se debió a que la muestra fue tomada telefónicamente a partir de la lista de

suscriptores de la Digest y, en 1936, las personas que se daban el lujo de tener

teléfonos y suscripciones a revistas no configuraban una muestra representativa de

los votantes de EE.UU. y, por ende, no podía hacerse un pronóstico confiable con

tan sesgada información.

División

La estadística se divide en dos grandes ramas de estudio que son:

Estadística descriptiva

Estadística matemática o inferencial

Page 14: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

14

Estadística Descriptiva o Deductiva

Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos

que resumen y presentan la información contenida en ellos.

Estadística Inferencial o Inductiva

Apoyándose en el cálculo de probabilidades y a partir de datos muestrales, efectúa

estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor

de datos.

Desarrolla modelos teóricos que se ajusten a una determinada realidad con cierto grado de

confianza.

Cuando se realiza un estudio de investigación, se pretende generalmente inferir o

generalizar resultados de una muestra a una población.

Este proceso de inferencia se efectúa por medio de métodos estadísticos basados en la

probabilidad.

Individuos, Población y Muestra

Individuos o elementos: personas u objetos que contienen cierta información que se

desea estudiar.

Población: representa el conjunto grande de individuos que deseamos estudiar y

generalmente suele ser inaccesible. Es, en definitiva, un colectivo homogéneo que

reúne unas características determinadas.

Muestra: La muestra es el conjunto menor de individuos (subconjunto de la

población accesible y limitado sobre el que realizamos las mediciones o el

experimento con la idea de obtener conclusiones generalizables a la población )

La muestra debe ser representativa de la población y con ello queremos decir que

cualquier individuo de la población en estudio debe haber tenido la misma

probabilidad de ser elegido.

¿Por qué estudiar muestras?

Ahorra tiempo. Estudiar a menos individuos es evidente que lleva menos tiempo.

Como consecuencia del punto anterior ahorraremos costos.

Estudiar la totalidad de los elementos o personas con una característica

determinada en muchas ocasiones puede ser una tarea inaccesible o imposible de

realizar.

Aumentar la calidad del estudio. Al disponer de más tiempo y recursos, las

observaciones y mediciones realizadas a un reducido número de individuos pueden

ser más exactas y plurales que si las tuviésemos que realizar a una población.

La selección de muestras específicas nos permitirá reducir la heterogeneidad de una

población al indicar los criterios de inclusión y/o exclusión.

En Resumen

Individuos o elementos: personas u objetos que contienen cierta información que

se desea estudiar.

Población: conjunto de individuos o elementos que cumplen ciertas propiedades

comunes.

Muestra: subconjunto representativo de una población.

Page 15: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

15

Parámetro: función definida sobre los valores numéricos de características

medibles de una población.

Estadístico: función definida sobre los valores numéricos de una muestra.

Ejemplo

Consideremos la población formada por todos los estudiantes de la UNLaR. La

altura media de todos los estudiantes es el parámetro μ. El conjunto formado por

los alumnos de la Sede Chamical es una muestra de dicha población y la altura

media de esta muestra, , es un estadístico.

Organización de Datos

VARIABLES

Toda magnitud cuya medida puede cambiar de valor recibe el nombre de variable.

Algunas de ellas son absolutamente predecibles con exactitud: son las variables

determinísticas.

Por ejemplo el área de un cuadrado (figura geométrica) de 20 cm de lado es 400

cm2

A = L2

En la realidad, el problema no es tan sencillo, la medición del área de una baldosa

aproximadamente cuadrada, de aproximadamente 20 cm de lado, puede dar como

resultado: 399, 400 ó 401 cm2. Incluso en mediciones repetidas de la misma

baldosa. Esto puede deberse a varias causas : irregularidad de la baldosa ,

dilatación o contracción debida a la temperatura, errores humanos o instrumentales

en la medición u otras absolutamente desconocidas. Este fenómeno genera las

variables llamadas aleatorias ( probabilísticas o estocásticas)

A = L2 + ε

donde épsilon es el desvío no explicado respecto al valor esperado L2

Variables Estadísticas

Es una característica o propiedad determinada del individuo o elemento, sea

medible o no. Esta propiedad hace que los elementos de un grupo puedan diferir de

las de otro grupo en la muestra o población de estudio.

Cuando hablemos de variable haremos referencia a un símbolo (X, Y, A, B,...) que

puede tomar cualquier modalidad (valor) de un conjunto determinado, que

llamaremos dominio de la variable o rango. En función del tipo de dominio, las

variables las clasificamos del siguiente modo:

Variables cualitativas o categóricas

Este tipo de variables representan una cualidad o atributo que clasifica a cada caso

en una de varias categorías. La situación más sencilla es aquella en la que se

clasifica cada caso en uno de dos grupos (hombre/mujer). Son datos dicotómicos o

binarios.

Como resulta obvio, en muchas ocasiones este tipo de clasificación no es

suficiente y se requiere de un mayor número de categorías (color de los ojos, grupo

sanguíneo, profesión, etcétera).

Dos Escalas

Escalas Nominales

Escalas Ordinales

X

Page 16: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

16

Nominal

ésta es una forma de observar o medir en la que los datos se ajustan por categorías

que no mantienen una relación de orden entre sí

Ordinal

son aquellas en la que es posible establecer un orden entre ellas.

Ej: si estudiamos la llegada a la meta de un corredor en una competición de 20

participantes, su clasificación C es tal que:

Variables cuantitativas

son las que tienen por modalidades cantidades numéricas con las que podemos

hacer operaciones aritméticas. Dentro de este tipo de variables podemos distinguir

dos grupos:

Discretas cuando no admiten siempre una modalidad intermedia entre dos cualesquiera de

sus modalidades. Suelen tomar solamente valores enteros (número de hijos,

número de partos, número de hermanos, etc). Es obvio que cada valor de la

variable es un número natural.

Continuas

cuando admiten una modalidad intermedia entre dos cualesquiera de sus

modalidades.

Ej. el peso X de un niño al nacer. En este caso los valores de las variables son números

reales, es decir:

Ocurre a veces que una variable cuantitativa continua por naturaleza, aparece como

discreta. Este es el caso en que hay limitaciones en lo que concierne a la precisión

del aparato de medida de esa variable.

Ej. si medimos la altura en metros de plantas con dos decimales de precisión, podemos

obtener:

En realidad lo que ocurre es que con cada una de esas mediciones expresamos que

el verdadero valor de la misma se encuentra en un intervalo de radio 5.10-3

. Por lo

tanto, cada una de las observaciones de X representa más bien un intervalo que un

valor concreto.

Otras formas de clasificación

Variable Dependiente: es la v. motivo de nuestro interés, cuyos valores dependen

de otras variables que pueden influir en ella. También se la llama v. de respuesta.

Por ejemplo la sobrevida, respuesta al tratamiento, evolución, etc.

Variable Independiente: es la que modifica de una u otra manera a la v.

dependiente, llamándose también según el caso factor de riesgo, factor predictivo,

etc.

agrio"",amargo"",dulce""

,...,10,4,3,21C

.53,....51,1.52,1...,1.50,1

Page 17: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

17

Variable Asociada: se denomina así a aquella v. independiente que no modifica

por su sola presencia a la v. dependiente, pero que al combinarse con otra variable,

si influye notoriamente a la anterior.

Modalidad - Clases

Las modalidades son las diferentes situaciones posibles que puede presentar la

variable. (p. Ej. cuando una variable es continua) y conviene reducir su número,

agrupándolas en una cantidad inferior de clases.

Estas clases deben ser construidas, tal como hemos citado anteriormente, de modo

que sean exhaustivas e incompatibles, es decir, cada modalidad debe pertenecer a

una y sólo una de las clases.

Resumen Variable cualitativa nominal: Aquella cuyas modalidades son de tipo nominal.

Variable cualitativa ordinal: Modalidades de tipo nominal, en las que existe un

orden.

Variable cuantitativa discreta: Sus modalidades son valores enteros.

Variable cuantitativa continua: Sus modalidades son valores reales.

Tablas estadísticas

Consideremos una población estadística de n individuos, descrita según un carácter o

variable C cuyas modalidades han sido agrupadas en un número k de clases, que

denotamos mediante c1,c2,c3,...ck. Para cada una de las clases ci, i = 1,2,...,k, introducimos

las siguientes magnitudes:

Frecuencia absoluta (de un determinado valor ni ) al número de veces que se repite dicho valor .

Frecuencia relativa

Es el cociente fi, entre las frecuencias absolutas de dicha clase y el número total de

observaciones, es decir:

Frecuencia absoluta acumulada

( de un determinado valor ni ) a su frecuencia absoluta más la suma de las

frecuencias absolutas de todos los valores anteriores

Frecuencia relativa acumulada Fi, se calcula sobre variables cuantitativas, siendo el tanto por uno de los elementos

de la población que están en alguna de las clases y que presentan una modalidad

inferior o igual a la ci, es decir:

Como todas las modalidades son exhaustivas e incompatibles ha de ocurrir que

n

nfi i

i

j

jii nnnnnN1

321 ...

Page 18: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

18

o lo que es lo mismo

Si las frecuencias relativas las multiplicamos por 100 obtenemos los %

Distribución de frecuencias

Llamaremos distribución de frecuencias al conjunto de clases junto a las

frecuencias correspondientes a cada una de ellas. Una tabla estadística sirve para

presentar de forma ordenada las distribuciones de frecuencias. Su forma general es

la siguiente:

1n

Fk = 1Nk = nnkck

...............

njcj

...............

N1 = n1n1c1

FiNifiniC

Frec. Rel. Acumulada

Frec. Abs. Acumulada

Frecuencia Relativa

Frecuencia Absoluta

Variable

1n

Fk = 1Nk = nnkck

...............

njcj

...............

N1 = n1n1c1

FiNifiniC

Frec. Rel. Acumulada

Frec. Abs. Acumulada

Frecuencia Relativa

Frecuencia Absoluta

Variable

n

nf 11

n

nf

j

j

n

nf k

k

jj nnnN ...21

jfn

NF 1

1

j

j

j ffn

NF ...1

Ejemplo – completar tabla

li-1 -- li ni fi Ni

0 -- 10 60 f1 60

10 -- 20 n2 0,4 N2

k

i

ki nnnnn1

21 ...

k

i

k

i

k

i ii

n

n

n

n

n

nfi

1 1

1 1

Page 19: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

19

20 -- 30 30 f3 170

30 -- 100 n4 0,1 N4

100 -- 200 n5 f5 200

n

Sabemos que la última frecuencia acumulada es igual al total de observaciones, luego n =

200. Como N3=170 y n3=30, entonces:

N2 = N3-n3=170-30=140

Además al ser n1=60, tenemos que:

n2 = N2-n1=140-60=80

Por otro lado podemos calcular n4 teniendo en cuenta que conocemos la frecuencia

relativa correspondiente:

Así:

N4= n4+N3=20+170 =190

Este último cálculo nos permite obtener:

n5= N5-N4=200-190=10

Al haber calculado todas las frecuencias absolutas, obtenemos las relativas:

li-1 -- li ni fi Ni

0 -- 10 60 0,3 60

10 -- 20 80 0,4 140

20 -- 30 30 0,15 170

202001,0*44

4

4 xnfnn

nf

05,0200

10

15,0200

30

3,0200

60

55

33

11

n

nf

n

nf

n

nf

Page 20: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

20

30 -- 100 20 0,1 190

100 -- 200 10 0,05 200

200

Elección de las clases

En cuanto a la elección de las clases, deben seguirse los siguientes criterios en

función del tipo de variable que estudiemos:

Cuando se trate de variables cualitativas, las clases ci serán de tipo nominal

En el caso de variables cuantitativas, existen dos posibilidades:

Si la variable es discreta, las clases serán valores numéricos x1,...xK

Si la variable es continua las clases vendrán definidas mediante lo que denominamos

intervalos. En este caso, las modalidades que contiene una clase son todos los valores

numéricos posibles contenidos en el intervalo, el cual viene normalmente definido de la

forma:

o En estos casos llamaremos amplitud del intervalo a las cantidades:

ai = li-li-1

o y marca de clase ci, a un punto representativo del intervalo. Si éste es acotado,

tomamos como marca de clase al punto más representativo:

Elección de intervalos para variables continuas

Número de intervalos a elegir y sus tamaños respectivos.

La notación más común que usaremos para un intervalo es:

El primer intervalo, l0 -- l1, podemos cerrarlo en el extremo inferior para no excluir

la observación más pequeña, l0:

El número de intervalos, k, a utilizar no está determinado de forma fija y por tanto

tomaremos un k que nos permita trabajar cómodamente y ver bien la estructura de

los datos:

iiii lxlxll 11 :,

2

1iii

llc

jjjj llll ,11

1010 , llll

caso otroen n log22,31

grandemuy es non si intervalos

nkN

Page 21: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

21

Ejemplo

Si el número de observaciones que tenemos es n = 100, un buen criterio es agrupar las

observaciones en intervalos. Sin embargo si tenemos n = 1.000.000, será

mas razonable elegir intervalos, que

La amplitud de cada intervalo: ai = li -li-1 suele tomarse constante, considerando la

observación más pequeña y más grande de la población ( )

para calcular la amplitud total, A, de la población:

A = lk - l0

de forma que la amplitud de cada intervalo sea:

k

Aaa ii a dondek ,...,2,1

Observación

Podría ocurrir que la cantidad ―a” fuese un número muy desagradable a la hora de

escribir los intervalos a = 10,325467). En este caso, es recomendable variar

simétricamente los extremos, l0 < xmin < xmax < lk, de forma que se tenga que a es

un número más simple (Ej. a = 10).

Ejemplo

Sobre un grupo de n = 21 terneros se realizan las siguientes observaciones de sus pesos,

expresados en kilos:

X~x1,x2,…,x21

58 42 51 54 40 39 49

56 58 57 59 63 58 66

70 72 71 69 70 68 64

En primer lugar hay que observar que si denominamos X a la variable ―peso de

cada ternero‖ esta es una variable de tipo cuantitativa y continua. Por tanto a la

hora de ser ordenados los resultados en una tabla estadística, esto se ha de hacer

agrupándolos en intervalos de longitud conveniente. Esto nos lleva a perder cierto

grado de precisión. Para que la perdida de información no sea muy relevante

seguimos el criterio de utilizar

En este punto podemos tomar bien k = 4 o bien k = 5. Arbitrariamente se elige una

de estas dos posibilidades. Por ejemplo, vamos a tomar k = 5.

Lo siguiente es determinar la longitud de cada intervalo, ai . Lo más

cómodo es tomar la misma longitud en todos los intervalos, ai = a (aunque esto no

tiene por qué ser necesariamente así), donde:

10100k

20n log22,31k 000.1000.000.1k

maxkmin0 xly xl

21nk

5,...,2,1i

Page 22: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

22

72

39

333972

6,65

33

5

max5

min0

05

xl

xl

llA

Aa

Entonces tomaremos k = 5 intervalos de longitud a = 6,6 comenzando por l1 = xmin

= 39 y terminando en l5=72:

Intervalos M. clase f.a. f.r. f.a.a. f.r.a.

li-1 -- li ci ni fi Ni Fi

i=1 39 -- 45,6 42,3 3 0,1428 3 0,1428

i=2 45,6 -- 52,2 48,9 2 0,0952 5 0,2381

i=3 52,2 -- 58,8 55,5 6 0,2857 11 0,5238

i=4 58,8 -- 65,4 62,1 3 0,1428 14 0,6667

i=5 65,4 -- 72 68,7 7 0,3333 21 ≈ 1

21 ≈ 1

Representaciones Gráficas

A pesar de la gran ayuda que prestan las tablas y cuadros con información

organizada, no todos los públicos alcanzan a comprenderla o no disponen del

tiempo suficiente para analizarla.

Es por ello que la mayoría de los investigadores acostumbran a reforzar la

descripción a través de dibujos, generalmente con formas geométricas, que ayudan

a visualizar el comportamiento de las variables tratadas.

Definición

Un gráfico o diagrama es un dibujo complementario a una tabla o cuadro, que permite

observar las tendencias de un fenómeno en estudio y facilita el análisis estadístico de las

variables allí relacionadas.

Componentes Título adecuado: El cual debe ser claro y conciso, que responda a las preguntas:

Qué relaciona, cuándo y dónde se hicieron las observaciones.

El cuerpo: o gráfico en sí, cuya elección debe considerar el o los tipos variables a

relacionar, el público a quien va dirigido y el diseño artístico del gráfico.

Notas de pie de gráfico: Donde se presentan aclaraciones respecto al gráfico, las

escalas de los ejes, o se otorgan los créditos a las fuentes respectivas.

Es de anotar que por medio de gráficos tendenciosos se pueden deformar o resaltar

situaciones o estados, que presentados en un gráfico apropiado, mostrarían un

comportamiento normal.

Page 23: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

23

Generalmente una información es distorsionada por algunas de las siguientes

causas: ejemplo

La relación entre los ejes no es la más apropiada

Variación de La Inflación en Argentina

1995-2000

Como se puede observar, el gráfico No.2 ―realza‖ el decrecimiento de la variable inflación,

El No.1 intenta mostrar una estabilización o decrecimiento parsimonioso. Los dos gráficos

son incorrectos debido a que no conservan una proporción adecuada entre sus ejes.

Este gráfico tiene una buena proporción entre los ejes.

Page 24: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

24

Pero, la distorsión se debe a la mala numeración en el eje ―Y‖ pues, el punto de origen O

ha sido eliminado y asignado un valor arbitrario, la escala es inadecuada para resaltar el

decrecimiento inflacionario de los dos últimos periodos

Las situaciones observadas son erróneas o tendenciosas y se deben corregir asignando

escalas apropiadas a los ejes y utilizando la siguiente regla:

Donde: Lx: Longitud del eje horizontal

Ly: Longitud del eje vertical

―La longitud del eje vertical es igual a tres cuartos de la longitud del eje horizontal‖.

Gráficos para variables cualitativas

Diagramas de barras: representamos en el eje de las abscisas modalidades y en

ordenadas las frecuencias absolutas o bien, las frecuencias relativas.

0

5

10

15

20

25

30

35

40

1er trim. 2do trim. 3er trim. 4to trim.

Para comparar varias poblaciones entre sí, existen otras modalidades. Cuando los

tamaños de las dos poblaciones son diferentes, es conveniente utilizar las

frecuencias relativas.

0

10

20

30

40

50

60

70

80

90

1er trim. 2do trim. 3er trim. 4to trim.

Este

Oeste

Norte

Page 25: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

25

Diagramas de sectores

También llamados tortas. Se divide un círculo en tantas porciones como clases

existan, de modo que a cada clase le corresponde un arco de círculo proporcional a

su frecuencia absolutas o relativas.

1er trim. 2do trim. 3er trim. 4to trim.

El arco de cada porción se calcula usando la regla de tres:

n

nxn

n

iii

.360

360

Pictogramas

Expresan con dibujos alusivo al tema de estudio las frecuencias de las modalidades

de la variable. Estos gráficos se hacen representado a diferentes escalas un mismo

dibujo.

Gráficos para variables cuantitativas

Para las variables cuantitativas, consideraremos dos tipos de gráficos, en función de

que para realizarlos se usen las frecuencias (absolutas o relativas) o las frecuencias

acumuladas.

Page 26: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

26

Diagramas diferenciales

Son aquellos en los que se representan frecuencias absolutas o relativas. En ellos se

representa el número o porcentaje de elementos que presenta una modalidad dada.

Diagramas integrales

Son aquellos en los que se representan el número de elementos que presentan una

modalidad inferior o igual a una dada. Se realizan a partir de las frecuencias

acumuladas .

Según hemos visto existen dos tipos de variables cuantitativas: discretas y continuas.

Vemos a continuación las diferentes representaciones gráficas que pueden realizarse para

cada una de ellas así como los nombres específicos que reciben.

Gráficos para variables discretas

Cuando representamos una variable discreta, usamos el diagrama de barras

cuando pretendemos hacer una gráfica diferencial. Las barras deben ser estrechas

para representar el que los valores que toma la variable son discretos. El diagrama

integral o acumulado tiene, por la naturaleza de la variable, forma de escalera.

Ejemplo Se lanzan tres monedas al aire en 8 ocasiones y se contabiliza el número de caras,

X, obteniéndose los siguientes resultados X ~ 2, 1, 0, 1,3, 2, 1, 2.

Solución

En primer lugar observamos que la variable X es cuantitativa discreta, presentando

las modalidades:

X = 0, 1, 2, 3.

xi ni fi Ni Fi

0 1 1/8 1 1/8

1 3 3/8 4 4/8

2 3 3/8 7 7/8

3 1 1/8 8 8/8

n = 8 1

Page 27: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

27

Gráficos para variables continuas

Cuando las variables son continuas, utilizamos como diagramas diferenciales los

histogramas y los polígonos de frecuencias.

Histogramas

Se construyen a partir de la tabla estadística, representando sobre cada intervalo, un

rectángulo que tiene a este segmento como base.

Polígonos de frecuencias

Se construyen fácilmente si tenemos representado previamente el histograma.

Consiste en unir mediante líneas rectas los puntos del histograma que corresponden

a las marcas de clase.

Polígono de frecuencias acumulado

El diagrama integral para una variable continua se denomina también polígono de

frecuencias acumulado, y se obtiene como la poligonal definida en abscisas a

partir de los extremos de los intervalos en los que hemos organizado la tabla de la

variable, y en ordenadas por alturas que son proporcionales a las frecuencias

acumuladas. Dicho de otro modo, el polígono de frecuencias absolutas es una

primitiva del histograma.

0.0022 0.0030 0.0037 0.0045 0.0053 PS

0.00

0.17

0.33

0.50

0.66

frecuencia relativa

0.0022 0.0030 0.0037 0.0045 0.0053 PS

0.00

0.17

0.33

0.50

0.66

frecuencia relativa

Page 28: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

28

Ejemplo

Intervalos ci ni Ni

0 -- 2 1 2 2

2 -- 4 3 1 3

4 -- 6 5 4 7

6 -- 8 7 3 10

8 – 10 9 2 12

12

Gráfico de Líneas

Usado básicamente para mostrar el comportamiento de una variable cuantitativa a

través del tiempo. Consiste en segmentos rectilíneos unidos entre sí, los cuales

resaltan las variaciones de la variable por unidad de tiempo.

Para su construcción ha de procederse de la siguiente manera: en el eje de las

ordenadas se marcan los puntos de acuerdo con la escala que se esté utilizando. En

el caso de una escala aritmética, distancias iguales en el eje, representan distancias

iguales en la variable.

Variación de La Inflación en Argentina

1995-2000

Page 29: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

29

El eje de la variable X se divide en unidades de tiempo iguales, teniendo presente el

número de ítems que ha de presentarse, así como la longitud del eje. Es de anotar la

conveniencia de mostrar la interrupción y acercamiento del eje a su origen

cuando esto haya ocurrido.

Gráfico de Líneas Compuesto

Cuando se tienen varias variables a representar, con el fin de establecer

comparaciones entre ellas (siempre que su unidad de medida sea la misma); se

utiliza plasmarlos en un sólo gráfico, el cual es el resultado de representar varias

variables en un mismo plano.

Variación de la Inflación y el Salario

Diagrama de barras de error

Para comparar dos o más grupos se realiza habitualmente en términos de su valor

medio, En el gráfico se compara el índice de masa corporal en una muestra de

hombres y mujeres. Para cada grupo, se representa su valor medio, junto con su

95% intervalo de confianza. El hecho de que dichos intervalos no se solapen, no

implica necesariamente que la diferencia entre ambos grupos pueda ser

estadísticamente significativa, pero sí nos puede servir para valorar la magnitud de

la misma.

Page 30: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

30

Diagramas de dispersión

Se confronta, en el eje horizontal, el valor de una variable y en el eje vertical el

valor de la otra. Un ejemplo sencillo de variables altamente correlacionados es la

relación entre el peso y la talla de un sujeto. En él gráfico puede observarse

claramente como existe una relación directa entre ambas variables, y valorar hasta

qué punto dicha relación puede modelizarse por la ecuación de una recta. Este tipo

de gráficos son, por lo tanto, especialmente útiles en la etapa de selección de

variables cuando se ajusta un modelo de regresión lineal.

Page 31: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

31

Funciones matemáticas lineales y cuadradas

En matemáticas, muchos problemas comprenden conjuntos de pares ordenados de

números. Un conjunto de pares ordenados de números reales recibe el nombre de relación

binaria. El conjunto de los primeros elementos de una relación binaria se llama dominio de

la relación. El conjunto de los segundos elementos es el codominio o imagen de la

relación. Para el conjunto (x, y) las cantidades de x e y suelen llamarse variables. El

conjunto de valores para la variable x es el dominio, y x suele llamarse variable

independiente, el conjunto de valores que toma la variable y es el codominio, y a y se le

denomina por lo general, variable dependiente. Cuando A partir del contexto, resulta claro

el número de variables, una relación binaria puede llamarse sencillamente, relación.

Si una relación es tal que en ella a cada elemento del dominio le corresponde uno y sólo un

elemento del codominio, se dice que esta en relación de una función.

La función es una regla matemática que asigna a cada valor de entrada uno y sólo un valor

de salida.

Función lineal y ecuación de la recta

La construcción y lectura de gráficos son necesidades imprescindibles en el mundo actual.

No es posible comprender un diario si no se tiene idea de cómo interpretar un gráfico.

Como primer acercamiento observemos el siguiente gráfico que contiene información

simple de leer.

En las empresas ferroviarias se utilizan diagramas similares a estos para programar la

señalización a lo largo de la vía férrea.

En el eje vertical se han marcado los puntos O, A, B, C, D, y E que son estaciones

ferroviarias. En el eje horizontal se ha representado el tiempo medido en horas. Cada línea

quebrada indica la posición del tren, cuyo número está marcado sobre la misma, en

función del tiempo. Observemos que algunos trenes no llegan a la última estación y

algunos no paran en ciertas estaciones.

Veamos algunas preguntas que podemos hacer para interpretar el gráfico:

1) ¿A qué hora sale el tren nº 2?

Page 32: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

32

2) ¿A qué hora llega a la estación E el tren nº 4?

3) ¿Cuánto tiempo transcurre entre la salida del tren nº 3 y el nº 4?

4) ¿Cuánto tarda el tren nº 1 en ir de la estación O a la estación B?

5) ¿Cuánto tiempo el tren nº 1 está detenido en la estación B?

6) ¿Cuánto tiempo transcurre en la estación D desde la partida del tren nº 1 hasta que pasa

el tren nº 6?

7) ¿Hasta donde llega el tren nº 3?

8) ¿A qué hora y en qué lugar se cruzan los trenes nº 1 y nº 2?

9) Si un pasajero llega a la estación O a las 12:30 hs. y quiere llegar a la estación E, ¿qué

opciones tiene?

10) Si un pasajero llega a la estación O a las 10 hs. y toma el tren nº 3, ¿cómo hace para

llegar a la estación E?. ¿A qué hora llega?. ¿Qué le hubiera convenido hacer para llegar

antes?

11) ¿Es siempre la misma la velocidad del tren nº 2?. ¿Y la del tren nº 1?. ¿En qué lugar es

mayor?

Como habíamos mencionado antes, una función es una regla que permite asignar a cada

uno de los elementos ―x‖ de un conjunto ―A‖ un único elemento ―y‖ de otro conjunto ―B‖.

A diario tenemos ejemplos de estas asignaciones: el médico dosifica un antibiótico en

función del peso del bebé, nos cobran el pasaje en función de la distancia recorrida, la

distancia recorrida es función de la velocidad alcanzada, etc.

Función lineal como propiedad de los sistemas generales

Una función es lineal cuando cumple todas estas propiedades:

o Si aplicamos una entrada u1(x) obtenemos una salida particular y1(x)

o Si aplicamos una entrada u2(x) obtenemos una salida particular y2(x)

o Entonces si aplicamos u3(x)=c1u1(x)+c2u2(x) obtenemos una salida

y3(x)=c1y1(x)+c2y2(x) para todos los pares de entradas u1(x) y u2(x) y para todos

los pares de constantes c1 y c2.

Esto incluye también a las funciones lineales diferenciales.

Interpretación geométrica

Page 33: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

33

En el análisis matemático y en la geometría, una función lineal de una variable real es una

función matemática de la forma:

Donde m y b son constantes.

Una función lineal de una única variable independiente x suele escribirse en la forma

siguiente

Que se conoce como ecuación de la recta en el plano xy.

o m es denominada la pendiente de la recta.

o b es la ordenada en el origen, el valor de y para x= 0, es el punto (0,b).

Ejemplo en el plano xy

En la figura se ven tres rectas, que corresponden a las ecuaciones lineales siguientes:

En esta recta el parámetro m= 1/2, esto es el crecimiento de la recta es 1/2, cuando

aumentamos x en una unidad, y aumenta en 1/2 unidad, el valor de b es 1, luego la recta

corta el eje y en el punto y= 1

La ecuación:

Tiene el valor de la pendiente m= 1/2, igual que en el caso anterior, por eso estas dos

rectas son paralelas, como el valor de b= -1, esta recta corta el eje de las y en el punto y= -

1.

La tercera ecuación, es:

Page 34: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

34

la pendiente de la recta, el parámetro m= 2, indica que cuando el valor de x aumenta en

una unidad, el valor de y la hace en dos unidades, el corte con el eje y, lo tiene en y= 1,

dado que el valor de b= 1.

En el caso de una recta el valor de m se corresponde al ángulo de inclinación de la recta

con el eje de las x a través de la expresión:

Función cuadrática

De vital importancia en matemáticas y física es la función cuadrática o de segundo grado.

Las funciones cuadráticas son las que responden a la forma y=ax2+bx+c. Su gráfica es una

parábola. Las parábolas son gráficas simétricas respecto de un eje que pasa por el vértice.

En su estudio es conveniente conocer la orientación de la parábola, los puntos de cortes

con los ejes, tanto con el eje OX como con el eje OY y el vértice de la parábola.

Gráficas de funciones cuadráticas.

Donde a, b y c son constantes y a es distinto de 0.

La representación gráfica en el plano XY haciendo:

Esto es:

Es una parábola vertical, orientada hacia arriba o hacia abajo según el signo de a.

Page 35: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

35

Estudio de la función

Corte con el eje y

La función corta el eje y en el punto y = f(0), es decir, la parábola corta el eje y cuando x

vale cero (0):

lo que resulta:

La función corta el eje y en el punto (0, c), siendo c el termino independiente de la función.

Corte con el eje x

La función corta al eje x cuando y vale 0:

las distintas soluciones de esta ecuación de segundo grado, son los casos de corte con el

eje x, que se obtienen por la expresión:

Donde:

se le llama discriminante, Δ:

Page 36: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

36

Según el signo del discriminante podemos distinguir:

Δ > 0, la ecuación tiene dos soluciones, por tanto la parábola cortara al eje x en dos

puntos: x1 y x2.

B2 – 4ac > 0 2 intersecciones

Ejemplo:

Ecuación de la parábola:

y = 2 x 2 – 5 x + 1

Δ = 0, la ecuación tiene una única solución en x1, la parábola solo tiene un punto en común

con el eje x, el cual es el vértice de la función donde las dos ramas de la parábola

confluyen.

b2 – 4ac = 0 1 intersección

Ejemplo:

Ecuación de la parábola:

y = x 2 + 6 x + 9

Δ < 0, la ecuación no tiene solución real, y la parábola no corta al eje x.

b2 - 4ac < 0 No hay intersección

Ejemplo:

Ecuación de la parábola:

y = – x 2 + 2 x – 3

x

y

-12 -10 -8 -6 -4 -2 0 2 4 6 8 10 12

0

2

4

6

8

10

12

14

x

y

-12 -10 -8 -6 -4 -2 0 2 4 6 8 10 12

-4

-2

0

2

4

6

8

10

Page 37: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

37

Intersección con el eje X

Para determinar las coordenadas de cada punto de intersección, si ésta existe, de la

parábola con el eje X, debe resolverse la siguiente ecuación cuadrática:

a x 2 + b x + c = 0

La parábola tiene un y sólo un punto de intersección con el eje Y. Las coordenadas de ese

punto son: ( 0 , c )

Eje de simetría

Cada parábola tiene un eje de simetría cuya ecuación es:

a

bx

2

Ejemplo: Determina la ecuación del eje de simetría de la parábola de ecuación:

y = 3 x 2 – 12 x + 7.

Respuesta: La ecuación del eje de simetría es:

23.2

12x

x

y

-12 -10 -8 -6 -4 -2 0 2 4 6 8 10 12

-6

-4

-2

0

2

4

6

8

10

x

y

-12 -10 -8 -6 -4 -2 0 2 4 6 8 10 12

-10

-8

-6

-4

-2

0

2

4

Page 38: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

38

Vértice ( V )

Toda parábola tiene un y sólo un vértice ( V ) de coordenadas:

a

bca

a

bv

.4

..4,

.2

2

Ejemplo: Determina las coordenadas del vértice ( V ) de la parábola de ecuación:

y = x 2 + 2 x – 8

Respuesta: Las coordenadas del vértice son:

9,11.4

28.1.4,

1.2

2 2

v

Dominio de la función ( Dom f )

El dominio de la función cuadrática es R .

Dom f = R

Recorrido de la función ( Rec f )

El recorrido de la función cuadrática está determinado por:

x

y

-14 -12 -10 -8 -6 -4 -2 0 2 4 6 8 10 12 14

-10

-8

-6

-4

-2

0

2

4

6

Page 39: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

39

a > 0 Rec f =

a < 0 Rec f =

Un ejemplo de un fenómeno que se puede describir a través de una función cuadrática, es

el siguiente: se lanza una pelota, desde el suelo, hacia arriba. Se quiere conocer la altura

alcanzada por la pelota en cada segundo contado a partir del momento en que fue lanzada.

La función que permite obtener la altura de la pelota en cada segundo, es una función

cuadrática que depende de la inclinación con la cual se lanzó y de la fuerza que se le

imprimió al lanzamiento, de acuerdo a ciertas leyes de la Física.

Si se obtiene, en un caso específico, la función

f(x)=-2x2+8x

entonces, en el instante inicial (0 segundos transcurridos) la pelota está en el suelo, es

decir, tiene altura igual a cero:

f(0)=-2(0)2+8(0)=0

Para saber cuál es la altura (en metros, por ejemplo, en este caso) de la pelota en el instante

en que ha transcurrido 1 segundo, se hace x=1 y se calcula

f(1)=-2(1)2+8(1)=-2+8=6

y cuando han transcurrido 2 segundos:

f(2)=-2(2)2+8(2)=-8+16=8

Puede hacerse una tabla como la que se muestra a continuación:

0 0

1 6

2 8

3 6

4 0

1) La pelota vuelve a caer al suelo a los 4 segundos de haber sido lanzada.

2) La altura máxima la alcanza al haber transcurrido 2 segundos a partir de su

lanzamiento.

3) La velocidad de la pelota va disminuyendo desde que es lanzada hasta que llega a 8

metros de altura (a los 2 segundos de su lanzamiento). Esto se puede ver al calcular la

cantidad de metros que subió desde el segundo 0 hasta el segundo 1, que es

f(1)-f(0)=6-0=6 metros,

y compararla con la cantidad de metros que subió entre los segundos 1 y 2:

f(2)-f(1)=8-6=2

Luego ocurre algo curioso, entre los segundos 2 y 3, la pelota comienza a descender y

recorre exactamente 2 metros:

,4

–4 2

a

bca

a

bca

4

–4,–

2

Page 40: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

40

f(2)-f(3)=8-6=2

Y entre los segundos 3 y 4 vuelve a recorrer la distancia que recorrió en el primer segundo:

f(3)-f(4)=6-0=6

esto se refleja gráficamente en la simetría de la curva con respecto a la recta vertical x=2.

Decir que esta curva es simétrica respecto a la recta x = 2, significa que si se rotara el

plano tomando la recta como eje, de manera que todo lo que está a la izquierda de la recta

pase a la derecha y viceversa, se obtendría una curva idéntica a la original.

En otras palabras, si un observador imaginario, diminuto, se situara en algún punto de la

recta, lo que vería de la curva al mirar hacia la izquierda, sería idéntico a lo que vería a su

derecha.

En términos algebraicos, se tiene que la imagen, por medio de la función f (x)= -2x2+8x ,

de dos números que estén a la derecha y a la izquierda de 2 y a la misma distancia de 2,

debe ser la misma.

Por ejemplo, los números 1/2 y 7/2 son equidistantes de 2, pues

Y sus imágenes son iguales:

Page 41: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

41

Medidas descriptivas estadísticas

• Los fenómenos biológicos no suelen ser constantes, por lo que será necesario que

junto a una medida que indique el valor alrededor del cual se agrupan los datos, se

asocie una medida que haga referencia a la variabilidad que refleje dicha

fluctuación.

• La tendencia central de los datos.

• La dispersión o variación con respecto a este centro.

• Los datos que ocupan ciertas posiciones.

• La simetría de los datos.

• La forma en la que los datos se agrupan.

Medidas representativas de un conjunto de datos estadísticos

Estadísticos de tendencia central

• la media

• la mediana

• la moda

En ciertas ocasiones estos tres estadísticos suelen coincidir, aunque generalmente no es así.

Cada uno de ellos presenta ventajas e inconvenientes.

La Media

• Es la medida mas popular.

• Es decir, tenemos una muestra de n observaciones: x1, x2,…,xn. Su media

muestral es:

• De forma compacta:

Suma de las observaciones Número de observaciones

Media =

n

)x...xx( n21x

n

1i

ixn

1x

Page 42: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

42

Propiedades de la media

• La suma de los desvíos de los valores de la variable, calculado con respecto de la

media aritmética es = 0

• La media aritmética del producto de una constante por una variable es = a la

constante por la media aritmética de la variable:

• La media aritmética de la suma de dos variables es = a la suma de sus respectivas

medias aritméticas:

Mediana

• Es el valor de la serie de datos que se sitúa justamente en el centro de la muestra

(un 50% de valores son inferiores y otro 50% son superiores).

• Los datos deben ordenarse de menor a mayor

• No presentan el problema de estar influido por los valores extremos, pero en

cambio no utiliza en su cálculo toda la información de la serie de datos (no pondera

cada valor por el número de veces que se ha repetido).

Ejemplo:

Los salarios de siete empleados fueron los siguientes (en miles de $) :

28, 60, 26, 32, 30, 26, 29.

¿Cuál es la mediana?

Nro. de observaciones es impar

Primero, ordenar los salarios.

Luego, localizar el valor en el medio.

26,26,28,29,30,32,60

Supongamos que se agrega al grupo el Salario de un empleado más ($31.000).

¿Cuál es la mediana?

Nro. de observaciones es par Primero, ordenar los salarios.

Luego, localizar el valor en el medio.

Hay dos valores en el medio!

26,26,28,29, 29.5, 30,31,32,60

Page 43: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

43

Moda

• Es el valor de la variable que más se repite en la muestra.

El gerente de una tienda de ropa posee la siguiente información sobre el talle de los

pantalones que se vendieron ayer:

31, 34, 36, 33, 28, 34, 30, 34, 32, 40.

La Moda es 34

En muchos casos, la moda nos da información mas valiosa que la mediana: 33.2.

Ejemplo

• Vamos a utilizar la distribución de frecuencias con datos de la estatura (altura a la

cruz) de los terneros de un lote a remate.

Variable Frecuencias

absolutas

Frecuencias

relativas

(Valor) Simple Acumulada Simple Acumulada

1,20 1 1 3,3% 3,3%

1,21 4 5 13,3% 16,6%

1,22 4 9 13,3% 30,0%

1,23 2 11 6,6% 36,6%

1,24 1 12 3,3% 40,0%

1,25 2 14 6,6% 46,6%

1,26 3 17 10,0% 56,6%

1,27 3 20 10,0% 66,6%

1,28 4 24 13,3% 80,0%

1,29 3 27 10,0% 90,0%

1,30 3 30 10,0% 100,0%

Media aritmética:

• Luego:

• Por lo tanto, la estatura media de este grupo de es de 1,253 cm.

Mediana: La mediana de esta muestra es 1,26 cm, ya que por debajo está el 50% de

los valores y por arriba el otro 50%. Esto se puede ver al analizar la columna de

frecuencias relativas acumuladas.

Page 44: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

44

Variable Frecuencias

absolutas

Frecuencias

relativas

(Valor) Simple Acumulada Simple Acumulada

1,20 1 1 3,3% 3,3%

1,21 4 5 13,3% 16,6%

1,22 4 9 13,3% 30,0%

1,23 2 11 6,6% 36,6%

1,24 1 12 3,3% 40,0%

1,25 2 14 6,6% 46,6%

1,26 3 17 10,0% 56,6%

1,27 3 20 10,0% 66,6%

1,28 4 24 13,3% 80,0%

1,29 3 27 10,0% 90,0%

1,30 3 30 10,0% 100,0%

Como el valor 1,26 se repite en 3 ocasiones, la media se situaría exactamente entre el

primer y el segundo valor de este grupo, ya que entre estos dos valores se encuentra la

división entre el 50% inferior y el 50% superior.

Moda: Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto

esta seria cuenta con 3 modas.

Variable Frecuencias

absolutas

Frecuencias

relativas

(Valor) Simple Acumulada Simple Acumulada

1,20 1 1 3,3% 3,3%

1,21 4 5 13,3% 16,6%

1,22 4 9 13,3% 30,0%

1,23 2 11 6,6% 36,6%

1,24 1 12 3,3% 40,0%

1,25 2 14 6,6% 46,6%

1,26 3 17 10,0% 56,6%

1,27 3 20 10,0% 66,6%

1,28 4 24 13,3% 80,0%

1,29 3 27 10,0% 90,0%

1,30 3 30 10,0% 100,0%

Media y Mediana

• La media es sensible a observaciones extremas y a outliers.

• La mediana solo es sensible a cambios en su entorno que la cruzan. Por ello, se

dice que la mediana es un estimador robusto de la tendencia central.

• La media y la mediana de una distribución simétrica se encuentran muy cerca. Si

la distribución es exactamente simétrica, la media y la mediana coinciden.

Page 45: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

45

Distribuciones simétricas y asimétricas

• Una distribución es simétrica si el lado derecho e izquierdo del histograma con

respecto a la mediana son aproximadamente iguales.

• Un distribución es asimétrica hacia la derecha si el lado derecho del histograma se

extiende sobre un mayor número de valores (intervalos) que el lado izquierdo.

• Una distribución es asimétrica hacia la izquierda si el lado izquierdo del

histograma se extiende sobre un mayor número de valores (intervalos) que el lado

derecho.

Aspecto general de una distribución • La figura muestra la distribución de ventas de libros por individuo en la feria del

libro. Esta distribución es asimétrica hacia la derecha. Es decir hay muchas ventas

de 3 o 4 libros y pocas ventas de 10 libros.

0

5

10

15

20

25

1 2 3 4 5 6 7 8 9 10 11 12

Estadísticos de posición: Cuartiles (Ql)

• Son un caso particular de los percentiles. Hay 3, y se definen como:

Estadísticos de posición: Percentiles

• Los percentiles son otro conjunto de medidas de tendencia no central de una

distribución.

• Dividen los datos ordenados en 100 partes iguales.

• El percentil 25 es el primer cuartil ...

• Ejemplo

– Supongamos que el 78% de los resultados es menor o igual a 600 puntos.

Entonces, 600 es el percentil 78 de la distribución.

Page 46: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

46

– Percentiles frecuentemente utilizados

• Primer decil = percentil 10

• Primer cuartil, Q1, = percentil 25

• Segundo cuartil,Q2, = percentil 50

• Tercer cuartil, Q3, = percentil 75

• Noveno decil = percentil 90

• En el caso de una variable continua, el intervalo donde se encuentra iik llP 1

se calcula buscando el que deja debajo de si al k% de las observaciones. Dentro de

él, Pk se obtiene según la relación:

Deciles

• Se definen como los valores de la variable que dividen a las observaciones en 10

grupos de igual tamaño.

• Más precisamente, definimos D1,D2, ..., D9 como:

Ejemplo

• Dada la siguiente distribución en el número de crías de cien perras, calcular sus

cuartiles

xi ni Ni

0 14 14

1 10 24

2 15 39

3 26 65

4 20 85

5 15 100

n = 100

Page 47: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

47

Solución

Medidas de dispersión

• En el análisis estadístico no basta el cálculo e interpretación de las medidas de

tendencia central o de posición, ya que, por ejemplo, cuando pretendemos

representar toda una información con la media aritmética, no estamos siendo

absolutamente fieles a la realidad, pues suelen existir datos extremos inferiores y

superiores a la media aritmética.

Amplitud (A) o Rango

Rango

• Una manera de medir la dispersión es calcular el recorrido de la distribución

empírica, es decir, la diferencia entre las observaciones máxima y mínima.

• Su mayor ventaja es que se puede calcular facilmente, sin embargo, no brinda

información sobre la dispersión existente entre ambos valores extremos.

• El rango depende sólo de las observaciones máxima y mínima, que podrían ser

observaciones atípicas.

• Podríamos mejorar nuestra descripción de la dispersión fijándonos, por ejemplo,

también en la dispersión del 50% de los valores centrales de nuestros datos.

• Un conjunto de estadísticos de utilidad son los cuartiles de una distribución.

Ejemplo :

muestra:

4, 4, 5, 7, 8, 9

Solución:

• dato mayor H = 9

• dato menor L = 4

• A = 9 — 4 = 5

• La amplitud señala que los 6 datos se encuentran dentro de una distancia de 5

unidades en la recta numérica.

Page 48: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

48

Rango intercuartílico

Es la diferencia entre el percentil 75% y el percentil 25%

Diagrama de caja

• Los cinco números resumen de una distribución son representados gráficamente

por un diagrama de caja.

• L - Observación máxima

• Q3 - Tercer cuartil

• Q2 - Mediana

• Q1 - Primer cuartil

• S - Observación mínima

• Los lados inferior y superior de la caja van del primer al tercer cuartil. Por tanto, la

altura de la caja es la amplitud del 50% de los datos centrales.

• El segmento del interior de la caja indica la mediana. Los extremos de los

segmentos perpendiculares a los lados superior e inferior indican, respectivamente,

los valores máximo y mínimo de la distribución.

S Q1 Q2

2 Q3

3 L

0

50

100

150

200

250

300

350 Facturacion_sucursales_zona_norte

0 40 80

120 160 200 240

Facturacion_sucursales_zona_sur

Page 49: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

49

Varianza

• La varianza, S2, se define como la media de las diferencias cuadráticas de n

puntuaciones con respecto a su media aritmética, es decir:

Para datos agrupados en tablas, usando las notaciones establecidas anteriormente, la

varianza se puede escribir como

Desviación estándar

• La varianza no tiene la misma magnitud que las observaciones (ej. si las

observaciones se miden en metros, la varianza lo hace en m2). Si queremos que la

medida de dispersión sea de la misma dimensionalidad que las observaciones

bastará con tomar su raíz cuadrada. Por ello se define la desviación estándar, S,

como

Grados de libertad

• ¿Por qué calculamos la varianza dividiendo por n - 1, en lugar de dividir por n?

• Como la suma de las desviaciones es 0, la última desviación es una combinación

lineal de las n - 1 desviaciones restantes.

• Por lo tanto, no estamos calculando el promedio de n números independientes (los

desvíos). Solo n -1 de las desviaciones al cuadrado pueden variar libremente y por

ello, promediamos la suma de los desvíos al cuadrado dividiendo por n -1.

• Al numero n -1 se lo denomina grados de libertad de la varianza o de la

desviación típica.

Ejemplo

• Calcular la varianza y desviación estándar de las siguientes cantidades medidas en

metros:

3,3,4,4,5

Solución

• Para calcular dichas medidas de dispersión es necesario calcular previamente el

valor con respecto al cual vamos a medir las diferencias. Ésta es la media:

1n

)xx(...)xx()xx(s

2

n

2

2

2

12

2

i

2 )xx(1n

1s

1

n i

1

2

2

n

xx

S

n

i

i

Page 50: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

50

La varianza es:

siendo la desviación estándar su raíz cuadrada:

“La desviación estándar y la varianza son las medidas de separación con respecto a la

media‖

Propiedades del desvío standard

• S mide la dispersión respecto a la media. Debe emplearse solo cuando se escoge la

media como medida central de la distribución.

• S = 0 solo ocurre cuando no hay dispersión: todas las observaciones toman el

mismo valor. De lo contrario S > 0.

• Cuanto más dispersión hay entre las observaciones, mayor es s.

• S, al igual que la media, se encuentra fuertemente influenciado por las

observaciones extremas.

Descripción de una distribución asimétrica

• Una distribución asimétrica con unas pocas observaciones en la cola larga de la

distribución tendrá un desvío standard grande. En tal caso, s no proporciona

información útil sobre la dispersión de la distribución.

• Como en una distribución muy asimétrica la dispersión de cada una de las colas es

muy distinta, es imposible describir bien la dispersión con un solo número.

• Los cinco números resumen proporcionan mejor información sobre la dispersión de

la distribución.

• Es preferible utilizar los cinco números resumen en lugar de la media y el desvío

standard para describir una distribución asimétrica

Coeficiente de Variación

• El coeficiente de variación es una medida de dispersión relativa.

• Muestra la dispersión de una distribución en relación a su media.

• Se utiliza para comparar distintas distribuciones.

• Su fórmula es:

x

σCV

Page 51: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

51

• Por ejemplo, un desvio standard de 10, puede ser grande si la media es 100, pero no

lo es si la media es 500.

Ejemplo

• Comparamos pesos de elefantes y ratas:

Asimetría o sesgo

• Asimetría: El concepto de asimetría se refiere a si la curva que forman los valores

de la serie presenta la misma forma a izquierda y derecha de un valor central

(media aritmética)

Coeficiente de asimetría de Pearson

S

MxS ed

KP

3

• SKP = 0 Distribución simétrica; existe la misma concentración de valores a la

derecha y a la izquierda de la media.

• SKP > 0 Distribución a simétrica positiva; existe mayor concentración de valores

a la derecha de la media que a su izquierda.

Page 52: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

52

• SKP < 0 Distribución a simétrica negativa; existe mayor concentración de valores

a la izquierda de la media que a su derecha.

Apuntamiento (Curtosis)

• El Coeficiente de Curtosis analiza el grado de concentración que presentan los

valores alrededor de la zona central de la distribución.

Distribución Mesocúrtica

• Presenta un grado de concentración medio alrededor de los valores centrales de la

variable (el mismo que presenta una distribución normal).

Distribución Leptocúrtica

• Presenta un elevado grado de concentración alrededor de los valores centrales de la

variable.

Page 53: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

53

Distribución Platicúrtica

• Presenta un reducido grado de concentración alrededor de los valores centrales de

la variable.

Coeficiente de Curtosis

31

1

22

4

2

ii

ii

nxxn

nxxn

g

• g2 = 0 (distribución mesocúrtica).

• g2 > 0 (distribución leptocúrtica).

• g2 < 0 (distribución platicúrtica).

Ejemplo

Vamos a calcular el Coeficiente de Curtosis de la serie de datos referidos a la estatura

(altura a la cruz) de los terneros de un lote a remate visto anteriormente.

Variable Frecuencias

absolutas

Frecuencias

relativas

(Valor) Simple Acum Simple Acum

1,20 1 1 3,3% 3,3%

1,21 4 5 13,3% 16,6%

1,22 4 9 13,3% 30,0%

1,23 2 11 6,6% 36,6%

1,24 1 12 3,3% 40,0%

1,25 2 14 6,6% 46,6%

1,26 3 17 10,0% 56,6%

1,27 3 20 10,0% 66,6%

1,28 4 24 13,3% 80,0%

1,29 3 27 10,0% 90,0%

1,30 3 30 10,0% 100,0%

Recordemos que la media de esta muestra es 1,253

Page 54: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

54

39,13

03046667,030

1

00004967,030

1

22g

• El Coeficiente de Curtosis de esta muestra es -1,39. Se trata de una distribución

Platicúrtica, es decir, con una reducida concentración alrededor de los valores

centrales de la distribución.

Page 55: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

55

Cálculo de Probabilidades

Introducción

Si el único propósito del investigador es describir los resultados de un experimento

concreto, los métodos analizados anteriormente pueden considerarse suficientes.

Si lo que se pretende es utilizar la información obtenida para extraer conclusiones

generales sobre todos aquellos objetos del tipo de los que han sido estudiados,

entonces estos métodos constituyen sólo el principio del análisis, y debe recurrirse

a métodos de inferencia estadística, los cuales implican el uso inteligente de la

teoría de la probabilidad.

El cálculo de probabilidades nos suministra las reglas para el estudio de los

experimentos aleatorios o de azar, constituyendo la base para la estadística

inferencial.

Para trabajar con el cálculo de probabilidades es necesario fijar previamente cierta

terminología.

Experimentos y Sucesos Aleatorios (condiciones)

Se puede repetir indefinidamente, siempre en las mismas condiciones

Antes de realizarlo, no se puede predecir el resultado que se va a obtener

El resultado que se obtenga, e, pertenece a un conjunto conocido previamente de

resultados posibles

A este conjunto, de resultados posibles, lo denominaremos espacio muestral y lo

denotaremos normalmente mediante la letra E , S u Ω

Los elementos del espacio muestral se denominan sucesos elementales

selementale sucesosson ,, 2121 eeEee

Cualquier subconjunto de E será denominado suceso aleatorio, y se denotará

normalmente con las letras A, B,...

aleatorios sucesosson ,, BAEBA

Sucesos aleatorios que aparecen con gran frecuencia en el cálculo de probabilidades son

los siguientes:

Suceso seguro:

Es aquel que siempre se verifica después del experimento aleatorio, es

decir, el mismo E

seguro suceso el es E EE

Page 56: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

56

Suceso imposible:

Es aquel que nunca se verifica como resultado del experimento aleatorio.

Como debe ser un subconjunto de E, la única posibilidad es que el suceso imposible sea el

conjunto vacío (Ø)

Suceso contrario a un suceso A:

También se denomina complementario de A y es el suceso que se verifica

si, como resultado del experimento aleatorio, no se verifica A. Se acostumbra a denotar con

el símbolo

Ejemplo 1

Si realizamos el experimento aleatorio de lanzar un dado al aire, tenemos:

A

Page 57: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

57

Nociones de Probabilidad

Los eventos aleatorios no son predecibles con absoluta certeza, no obstante

podemos medir el grado de confianza con que se hace un pronóstico, sobre la

ocurrencia o no de un determinado suceso.

Probabilidad Clásica

Si un evento puede ocurrir de n maneras, equiprobables y mutuamente excluyentes,

de las cuales m maneras son favorables al suceso A; se define probabilidad del

suceso A como:

Ejemplo

Lanzamos un dado de seis caras una vez, y queremos saber,

A1: (suma igual a 2):

A2: (suma igual a 3): A3: (suma igual a 4): A4: (suma igual a 5): A5: (suma igual a 6): A6: (suma igual a 7): A7: (suma igual a 8): A8: (suma igual a 9): A9: (suma igual a 10): A10: (suma igual a 11): A11: (suma igual a 12):

Page 58: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

58

Probabilidad Frecuencial

Si un experimento se repite n veces ( ), de las cuales m veces se presenta el suceso

A, entonces es de esperarse que:

La proporción de veces que se presenta el suceso A tiende a estabilizarse en un número

entre 0 y 1 llamado probabilidad de A.

Ejemplo

Si por ejemplo, lanzamos un dado cien veces y observamos la presencia del

número ―2‖ en 16 veces, en tal caso

Axiomas

La probabilidad sólo puede tomar valores comprendidos entre 0 y 1(no puede haber

sucesos cuya probabilidad de ocurrir sea del 200% ni del –5%.

La probabilidad del suceso seguro es 1, es decir, el 100%.

La probabilidad del suceso imposible debe ser 0.

La probabilidad de la intersección de dos sucesos debe ser menor o igual que la

probabilidad de cada uno de los sucesos por separado, es decir:

La probabilidad de la unión de sucesos debe ser mayor que la de cada uno de los

sucesos por separado:

n

Page 59: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

59

La probabilidad del suceso contrario de A, debe valer:

Probabilidad Condicional

Si tenemos los sucesos A, B en un experimento aleatorio, con p(B)>0, se llama

probabilidad condicional a: p(A/B) La probabilidad de ocurrencia del evento ―A”

dado que ya se ha presentado el suceso “B”.

Ejemplo

A un grupo de personas se le pregunta sobre la intención de voto para las próximas

elecciones.

P (vote dado que es masculino)=

P (vote dado que es femenino)=

Page 60: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

60

Independencia Estadística

Por ejemplo la probabilidad de obtener un número impar en el segundo lanzamiento de un

dado, no depende de si en el primer lanzamiento se obtuvo un número impar.

Modelos discretos

Experimentos de Bernoulli

Consideremos un experimento aleatorio con las siguientes características.

El experimento sólo tiene dos posibles resultados, uno llamado

éxito y el otro llamado fracaso.

La probabilidad de éxito es p, y la de fracaso (1-p).

Ejemplo

Lanzamiento de una moneda.

Observar el 1 al lanzar el dado.

Encuestar a una persona y preguntar estado civil.

Medir un árbol y ver si cumple o no con una característica específica.

Modelo Matemático

Sea

fracasohaysi

éxitohaysiX

0

1

Page 61: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

61

Función de Probabilidad de X

p(x) = px(1-p)1-x si x =0 ó x=1

Notación

X Ber(p)

Significa que X sigue un modelo probabilístico Bernoulli con probabilidad de éxito

p.

Definición

Nos referiremos a una sucesión de experimentos de Bernoulli, cuando

Cada realización del experimento tenga sólo dos posibles resultados,

éxito o fracaso.

La probabilidad de éxito es siempre la misma en cada realización ,

digamos, p.

Cada realización del experimento de Bernoulli es independiente de

las demás.

Modelo Probabilístico Binomial

Consideremos una sucesión de experimentos de Bernoulli, donde la probabilidad

de éxito es p.

Definamos la v.a.

X = número de éxitos en n realizaciones de una sucesión de experimentos de

Bernoulli.

Notación

X Bin(n,p)

Diremos que X sigue un modelo probabilístico Binomial con parámetros n y p.

Propiedades

La función de probabilidades asociada a esta v.a. es

Propiedades

El valor esperado de esta variable es

E(X) = n*p

La varianza de X es

V(X) = n*p*(1-p)

nxppx

nxXPxp xnx ,....,2,1,)1()()(

Page 62: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

62

Ejemplo

Suponga que el 5% de la población de pinos presenta alguna alteración que

impide su talación.

Si para desarrollar determinado estudio se tomó una m.a. de 30 pinos

a)¿Cuál es la probabilidad que 1 presente alguna alteración?

b) ¿Cuál es el número esperado de pinos de la muestra con alguna alteración?

c) ¿Cuál es la probabilidad que entre 2 y 3 pinos estén con alguna alteración?

Variable Aleatoria

Definición

Una variable aleatoria es una función definida sobre un espacio muestral a los números

reales. Si ese espacio muestral especificado como dominio es numerable, decimos que la

variable es de tipo discreto, en caso contrario diremos que es de tipo continuo.

Toda magnitud cuya medida puede cambiar de valor recibe el nombre de variable.

Si su valor puede predecirse = variables determinísticas.

Por ejemplo el área de un cuadrado

(figura geométrica) A = L2

Si su valor SOLO puede conocerse al observarlo = variables aleatorias.

Al querer medir el área de una baldosa aproximadamente cuadrada, puede dar diferentes

resultados. Incluso en mediciones repetidas de la misma baldosa . Esto puede deberse a

varias causas : irregularidad de la baldosa , cambios debida a la temperatura, errores

humanos o instrumentales en la medición u otras absolutamente desconocidas. Este

fenómeno genera las variables llamadas aleatorias, probabilísticas o estocásticas

En Biología, en general, el gran número de factores que intervienen en el valor de una

variable y las características del sistema hombre-instrumento de medición, hacen que las

variables que manejemos sean variables aleatorias

El valor observado X entonces puede descomponerse en

X = m + e

Ejemplo

Consideremos el experimento que consiste en elegir al azar 50 perros y medir su peso. La

ley que asocia a cada perro con su peso es una variable aleatoria (continua).

E R 15.

18

• 20

• 23

• 26 28.... etc

Page 63: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

63

Esta correspondencia es una función del espacio muestral E en el conjunto de los números

reales R.

A esta función la llamaremos variable aleatoria y la denotaremos por X.

• En el experimento de lanzar una moneda, una vez, definimos la variable aleatoria

X: el número de sellos obtenido:

X (c) = 0

X (s) = 1

• En la tirada de dos dados si X es la suma obtenida:

Función de Probabilidad

Las variables aleatorias, transforman eventos del espacio muestral en eventos numéricos,

los cuales desde luego, tienen asociada una probabilidad de ocurrencia.

Función de Probabilidad

f (x) = p (X = x) • Es una función definida sobre una variable aleatoria a los reales en el intervalo

[0,1] que cumple con los axiomas de la teoría de la probabilidad.

Page 64: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

64

Función de Distribución

F (x) = p (X = x)

• Es la acumulada de una función de probabilidad

-∞ : Limite inferior de la variable X

Ejemplo

• En el Lanzamiento de una Moneda,

X: Número de Sellos

X es la Suma Obtenida en el Lanzamiento de dos Dados:

Page 65: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

65

Función de densidad v.a. discreta

• Esta función se representa gráficamente del mismo modo que la distribución de

frecuencias relativas acumuladas

Función de densidad v.a. continua

Esperanza Matemática

Media Aritmética Poblacional

Page 66: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

66

• En el tratamiento de las medidas de tendencia central, resaltamos la importancia de

la media aritmética de una variable, como parámetro representativo de una muestra

• En el análisis poblacional, la media aritmética de una variable aleatoria, se define

como el promedio ponderado de los diferentes valores que puede asumir la variable

X, usando como ponderaciones las probabilidades respectivas de ocurrencia.

Si X es discreta

Si X es continua

Esta integral no siempre existe y en ese caso, se dirá que la variable no tiene esperanza

Ejemplo

X es la Suma Obtenida en el Lanzamiento de Dos Dados

En promedio la suma obtenida en N tiradas es de ―7‖. Si pagáramos en pesos la suma

obtenida en cada lanzamiento, deberíamos cobrar más de 7 pesos para obtener utilidad en

el juego.

Varianza Poblacional

Similarmente a la definición de la media aritmética poblacional, la varianza se define

como:

Page 67: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

67

Distribución Normal

Curva de densidad

Una curva de densidad describe el aspecto general de una distribución.

El área por debajo de la curva, entre cualquier intervalo de valores, es la proporción

de todas las observaciones que están situadas en dicho intervalo.

El área total bajo una curva de densidad es 1.

Dentro de las distribuciones continuas de probabilidad la más importante, por la

frecuencia con que se encuentra y por sus aplicaciones teóricas, es la DISTRIBUCIÓN

NORMAL o de Laplace-Gauss

La curva normal adopta un número infinito de formas, determinadas por sus

parámetros, expresada por la función: f(x) =

x ,2

1)(

2

2

1 x

exf

donde:

(media) y (desviación estándar) son parámetros de la distribución

x = valores observados de la variable en estudio

e = 2.718 (base de Ln)

Características de la distribución Normal

• Tiene forma de campana, es asintótica al eje de las abscisas (para x = )

• Simétrica con respecto a la media ( ) donde coinciden la mediana (Me) y la moda

(Mo )

• Los puntos de inflexión tienen como abscisas los valores

Distribuciones normales

Todas las distribuciones normales tienen la misma forma general.

La curva de densidad de una distribución normal se describe por su media y su

desvío standard .

La media se sitúa en el centro de la curva simétrica, en el mismo lugar que la

mediana.

Si se cambia sin cambiar se provoca un desplazamiento de la curva de

densidad a lo largo del eje de las abscisas sin que cambie su dispersión.

La desviación típica controla la dispersión de la curva normal.

µ indica la posición de la campana (parámetro de centralización)

Page 68: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

68

2(o equivalentemente, ) será el parámetro de dispersión.

Cuanto menor sea, mayor cantidad de masa de probabilidad habrá concentrada

alrededor de la media (grafo de f muy apuntado cerca de µ ) y cuanto mayor sea

―más aplastado‖ será.

La curva con mayor desvío standard es la curva que presenta mayor dispersión.

La desviación típica es la medida natural de la dispersión de una distribución

normal. La forma de una curva normal no solo queda completamente determinada

por y , sino que además es posible situar a simple vista en la curva.

Cuando nos alejamos de , en cualquier dirección, la curva pasa de descender

rápidamente a descender suavemente.

Estos puntos de inflexión están situados a una distancia de .

Page 69: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

69

En Distribuciones normales:

El 68 % de las observaciones se encuentra entre .

El 95 % de las observaciones se encuentra entre 2 .

El 99.7 % de las observaciones se encuentra entre 3 .

Distribución Normal estandarizada

¿Cómo calcular probabilidades asociadas a una curva normal específica?

Dado que tanto como pueden asumir infinitos valores lo que hace impracticable

tabular las probabilidades para todas las posibles distribuciones normales, se utiliza la

distribución normal reducida o estandarizada

Se define una variable z =

2

xZ

Ejemplo

una variable aleatoria sigue el modelo de una distribución normal con media 10 y

varianza 4:

X ~ N (10, 4)

2

xZ

Z ~ N (0, 1)

2

10xZ

68% de los datos

95% de los datos

99.7% de los datos

Page 70: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

70

Tabla

La columna de la izquierda indica el valor cuya probabilidad acumulada queremos

conocer.

La primera fila nos indica el segundo decimal del valor que estamos consultando.

Queremos conocer la probabilidad acumulada en el valor 2,75.Buscamos en la columna de

la izquierda el valor 2,7 y en la primera fila el valor 0,05. La casilla en la que se

interseccionan es su probabilidad acumulada (0,99702, es decir 99.7%).

La tabla nos da la probabilidad acumulada, es decir, la que va desde el inicio de la

curva por la izquierda hasta dicho valor.

No nos da la probabilidad concreta en ese punto.

En una distribución continua en el que la variable puede tomar infinitos valores, la

probabilidad en un punto concreto es prácticamente despreciable.

Probabilidad acumulada en el valor 0,67: la respuesta es 0,7486

Probabilidad acumulada en el valor 1,35: la respuesta es 0,9115

Probabilidad acumulada en el valor 2,19: la respuesta es 0,98574

X 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359

0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5723

0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141

0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517

0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879

0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7090 0,7224

0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549

0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7813 0,7852

0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133

0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389

1,0 0,8416 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621

1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830

1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015

1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177

1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319

1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441

1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545

1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633

1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706

1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767

2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169

2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574

2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899

2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158

2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361

2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520

2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643

2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736

2,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807

2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861

Page 71: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

71

el salario medio de los empleados de una empresa se distribuye según una

distribución normal, con media 5. y desviación típica 1. Calcular el porcentaje de

empleados con un sueldo inferior a 7.

Lo primero que haremos es transformar esa distribución en una normal

estandarizada, para ello se crea una nueva variable (Z) que será igual a la anterior

(X) menos su media y dividida por la desviación estándar

2

xZ

1

5xZ

21

57Z

La probabilidad acumulada para el valor 2 (equivalente a la probabilidad de

sueldos inferiores a 7). Es 0,97725

El porcentaje de empleados con salarios inferiores a 7, es del 97,725%.

¿Cuál es la probabilidad de que un valor de z esté entre -2.03 y 2.03 ?

En un ejemplo , vimos que la probabilidad de que z estuviera entre 0 y 2.03= 0.47882

La misma área hay entre 0 y -2.03 , por lo tanto

P ( -2.03< z< 2.03) = 0.95764

¿Cuál es la probabilidad de que un valor de z sea mayor a 1.25 ?

1.- La probabilidad de 0 < z < + = 0.500

2.- La probabilidad de 0 < z < 1.25 = 0.39435

3.- La probabilidad de z > 1.25 =

0.500 - 0.39435= 0.10565

Hallar P( -0.34 < z < )

P(0 < z <0.34) = 0.13307 = P(-0.34 < z < 0)

P (0 < z < ) = 0.50000

P( -0.34 < z < ) = 0.13307 + 0.50000 = 0.63307

Hallar P( 0.34 < z < 2.30)

P(0< z <0.34) = 0.13307

P( 0 < z < 2.30) = 0.4893

P (0.34 < z < 2.30) = 0.48930 - 0.13307 = 0.35623

Ejercicio :

La vida media de los habitantes de un país es de 68 años, con una varianza de 25.

Se hace un estudio en una pequeña ciudad de 10.000 habitantes:

– a) ¿Cuántas personas superarán previsiblemente los 75 años?

– b) ¿Cuántos vivirán menos de 60 años?

a) Personas que vivirán (previsiblemente) más de 75 años

Page 72: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

72

P (X > 75) = (Z > 1,4) = 1 - P (Z < 1,4) = 1 - 0,9192 = 0,0808

Luego, el 8,08% de la población (808 habitantes) vivirán más de 75 años.

b) Personas que vivirán (previsiblemente) menos de 60 años

P (X < 60) = (Z < -1,6) = 1 - P (Z < 1,6) = 0,0548

Luego, el 5,48% de la población (548 habitantes) no llegarán probablemente a esta edad.

Distribución de Estadísticos Muestrales

Introducción

El estudio de determinadas características de una población se efectúa a través de

diversas muestras que pueden extraerse de ella.

Consideremos todas las posibles muestras de tamaño n en una población. Para cada

muestra podemos calcular un estadístico (media, desviación estándar,

proporción,...) que variará de una a otra. Así obtenemos una distribución del

estadístico que se llama distribución muestral.

Supongamos que tenemos una variable aleatoria, cuya distribución es f (x)

Supongamos, por simplicidad, que obtenemos una muestra aleatoria simple con

tamaño n

X1, X2, ... Xn

Entonces, un estadístico es cualquier función h definida sobre X1, X2, ... Xn y que

no incluye parámetro desconocido alguno:

Y = h (X1, X2, ... Xn)

La distribución de dicho estadístico Y la vamos a denominar g (y)

Distribución muestral de un estadístico

F (x) es la distribución de la v. a. bajo estudio

G (y) es la distribución del estadístico que tenemos

Es vital conocer la distribución muestral del estadístico de interés para poder

efectuar inferencias sobre el parámetro correspondiente.

Esto es, para efectuar inferencias sobre la media poblacional µ, necesitamos

conocer la distribución muestral de X

Las dos medidas fundamentales de esta distribución son la media y la desviación

estándar, también denominada error estándar.

6,15

6860Z

4,15

6875Z

Page 73: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

73

Distribución del Estadístico media muestral

Cada muestra de tamaño n que podemos extraer de una población proporciona una

media. Si consideramos cada una de estas medias como valores de una variable

aleatoria podemos estudiar su distribución que llamaremos distribución muestral

de medias.

Si tenemos una población normal N(µ, ) y extraemos de ella muestras de tamaño

n, la distribución muestral de medias sigue también una distribución normal

Error estándar o Desviación estándar de la distribución muestral

Si la población no sigue una distribución normal pero n>30, aplicando el llamado

Teorema central del límite la distribución muestral de medias se aproxima

también a la normal anterior.

Veremos primero el caso de que la distribución sea normal, con media µ y varianza 2

La media de la distribución muestral de medias es µ

La varianza de la distribución muestral de medias es 2/n

recordemos: La desviación estándar de la distribución muestral suele ser denominada:

error estándar de tal estadístico (ej:., ―error estándar de la media‖, etc.)

Ejemplo

Una población se compone de 5 números: 2,3,6,8 y 11 considerar todas las

muestras posibles de tamaño 2 que puedan extraerse con reemplazamiento de esta

población. Se pide encontrar:

– la media de la población

65

30

5

118632x

– La desviación típica de la población

2.3

8.105

54

5

2540916

5

)611()68()66()63()62()( 2222222

n

x

la media de la distribución de medias

– (2,2) (2,3) (2,6) (2,8) (2,11)

– (3,2) (3,3) (3,6) (3,8) (3,11)

– (6,2) (6,3) (6,6) (6,8) (6,11)

– (8,2) (8,3) (8,6) (8,8) (8,11)

– (11,2) (11,3) (11,6) (11,8) (11,11)

– 2 2.5 4 5 6.5

– 2.5 3 4.5 5.5 7

– 4 4.5 6 7 8.5

– 5 5.5 7 8 9.5

Page 74: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

74

– 6.5 7 8.5 9.5 11

= 20 22.5 30 35 42.5

150 / 25 = 6

Desviación estándar de la distribución muestral de medias (error estándar de medias).

32.2

4.525

135

25

2525.1225.6125.025.1241

25.0125.61625.24125.025.2925.1225.01425.1216

25

)611(

)65.9()65.8()67()65.6()65.9()68()67()65.5(

)65()65.8()67()66()65.4()64()67()65.5(

)65.4()63()65.2()65.6()65()64()65.2()62(

2

22222222

22222222

22222222

Distribución muestral de la media. Ejemplo 1

Distribución poblacional (dist. Normal):

Media =100

(Varianza =225)

Desv. Estándar =15

Distribución muestral de la media:

Tamaño muestral =10

Media =100

(Varianza =225/10=22.5)

N10

116.

0

114.

0

112.

0

110.

0

108.

0

106.

0

104.

0

102.

0

100.

0

98

.0 96

.0 94

.0 92

.0 90

.0 88

.0 86

.0 84

.0 82

.0

400

300

200

100

0

Desv. est. = 4.75 Media = 99.9

N = 3600.00

Page 75: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

75

Desv. Estándar = 22.5 4.74

Distribución muestral de la media. Ejemplo 2

Distribución poblacional (dist. Normal):

Media =100

Desv. Estándar =15

Distribución muestral de la media:

Tamaño muestral =20

Media =100

(Varianza =225/20=11.3)

Desv. Estándar =3.35

Distribución muestral de la media. Ejemplo 3

Distribución poblacional subyacente (dist. Normal):

Media=100

Desv.Estándar=15

Distribución muestral de la media:

Tamaño muestral =50

Page 76: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

76

Media =100

(Varianza =225/50=4.5)

Desv. Estándar=2.12

Ejemplo

Las notas de cierto examen se distribuyen según una normal de media 5,8 y

desviación estándar 2,4. Hallar la probabilidad de que la media de una muestra

tomada al azar de 16 estudiantes esté comprendida entre 5 y 7

La población es N(5,8;2,4), con n =16 la distribución muestral de medias se

distribuye N(5,8;0,6)

Si X es la media de la muestra hemos de calcular la probabilidad

P(5 < X < 7)= P(-1.33 < z < 2)=

= P (z < 2)-[1-P (z < 1.33)] = 0,8854

La forma de la distribución muestral de la media tiende a ser normal. En concreto, la

distribución muestral se acercará más y más a la distribución normal (media µ y varianza 2/n) a medida que se aumente el tamaño de cada muestra.

Teorema Central del Límite

S tenemos un grupo numeroso de variables independientes y todas ellas siguen el

mismo modelo de distribución (cualquiera que éste sea), la suma de ellas se

distribuye según una distribución normal.

Sea X una v. a. con esperanza µ y varianza finita 2. Sea X la media muestral de

una muestra aleatoria de tamaño n y z la variable aleatoria definida como:

n

XZ

Entonces, la distribución z se aproxima a la distribución normal estándar cuando n se

aproxima a infinito

Distribución “T de Student”

Cuando la distribución de la que obtenemos las medias muestrales es gaussiana

(―distr.normal‖), la expresión anterior se distribuye según la distribución t de Student con

tn-1 grados de libertad.

Esta distribución es básica para efectuar inferencias entre dos medias.

n

S

XT

Page 77: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

77

En la practica la 2 es desconocida. Se podría estimar a partir de una muestra. Lo cual se

logra sustituyendo por el desvío estándar muestral S

Función de densidad de una t de Student

La distribución de Student tiene propiedades parecidas a N (0,1) :

– Es de media cero, y simétrica con respecto a la misma;

– Es algo más dispersa que la normal, pero la varianza decrece hasta 1 cuando

el número de grados de libertad aumenta;

Comparación entre las funciones de densidad de t1 y N (0,1)

Para un número alto de grados de libertad se puede aproximar la distribución de

Student por la normal, es decir:

1,0Nt n

n

Cuando aumentan los grados de libertad, la distribución de Student se aproxima a

la distribución normal estandarizada. (ver tabla de distribución)

Page 78: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

78

Ver Tabla de cuantiles

Muestreo

Definición:

Proceso que nos permite la extracción de una muestra a partir de una población

Hay dos tipos básicos de muestreo:

Muestreo probabilístico. En este tipo de muestreo, la probabilidad de aparición en

una muestra de cualquier elemento de la población es conocida (o calculable). Es el

único científicamente válido, y es sobre el que nos extenderemos especialmente.

Muestreo no probabilístico. Es aquel en el que la selección de los elementos de la

muestra no se hacen al azar.

Muestreo probabilístico

Este muestreo garantiza que, a la larga, las muestras que se van obteniendo de la población

sean representativas de la misma. Vamos a ver varios tipos de muestreo probabilístico.

Muestreo aleatorio simple

Muestreo estratificado

Muestreo por conglomerados

Muestreo por etapas (o polietápico)

Muestreo sistemático (?)

1. Muestreo aleatorio simple Es aquel en el que, a priori, todos los elementos de la muestra tienen la misma

probabilidad de aparición.

Supongamos que tengamos una población de 50.000 individuos, y que tenemos un

listado con sus nombres. Si queremos elegir 100 personas, lo que necesitamos es

elegir al azar a 100 individuos de esos 50.000.

2. Muestreo estratificado En el muestreo estratificado, los investigadores han de dividir a los sujetos en

diferentes subpoblaciones (o estratos), en función de cierta característica relevante,

y después lo que hacen es un muestro aleatorio simple de cada estrato.

Evidentemente, cada individuo debe pertenecer a un estrato (y solo uno), y cada

individuo del estrato habrá de tener la misma probabilidad de ser escogido como

parte de la muestra.

Ejemplo:

Supongamos que, en Chamical, 70% de los niños de primaria van a escuela pública y el

30% a privada. Si queremos 1000 niños, lo que haremos es dividir los alumnos en 2

Page 79: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

79

estratos (pública y privada) y se eligen aleatoriamente 700 niños de la pública y

aleatoriamente 300 de la concertada.

3. Muestreo por conglomerados En el muestreo por conglomerados, en lugar de considerar cada elemento de la

población, lo que consideramos son ―conglomerados de elementos‖. El proceso es

elegir aleatoriamente uno o varios conglomerados y la muestra estará formada por

TODOS los elementos de los conglomerados.

Ejemplos:

-En las encuestas durante las elecciones, los conglomerados pueden ser las mesas

electorales, y lo que se hace es escoger algunas mesas al azar (y de ahí se toman

todos los votos de las mesas seleccionadas).

-En otros ejemplos, los conglomerados pueden ser los bloques de viviendas, los

municipios, etc.

4. Muestreo por etapas En este caso se combina el muestreo aleatorio simple con el muestreo por

conglomerados:

Primero se realiza un muestreo por conglomerados (ej., si los conglomerados son

colegios en Chamical, se seleccionan aleatoriamente varios de ellos).

Segundo, no se eligen todos los alumnos (como ocurriría en un muestro por

conglomerados), sino que se elige una muestra aleatoria. (Dicha muestra puede ser

obtenida por muestreo aleatorio simple o puede ser estratificado.)

Es decir, hemos tenido 2 etapas de muestreo. Y claro está, es posible tener más de 2

etapas...

5. Muestreo aleatorio sistemático Supongamos que tengamos una lista de N elementos (ej., estudiantes de secundaria)

y necesitamos una muestra de tamaño ―n‖. En este caso, lo que se hace es

ordenarlos (ej., en función de los apellidos) y después se elige aleatoriamente un

elemento entre los N/n=k primeros, y luego se elige de manera sistemática el que

esté k lugares después del primer elemento, y así sucesivamente.

Ejemplo:

Tenemos 10000 estudiantes (en una lista) y queremos obtener una muestra de 100

estudiantes. Primero elegimos al azar un estudiante entre los 10000/100=100 primeros

(supongamos que salga el 26), el segundo elemento será el estudiante 100+26 (126), el

siguiente será el 226, luego el 326, etc.

Muestreo no probabilístico

1. Muestreo sin norma (o de conveniencia) Se elige a una muestra por ser conveniente, fácil, económica. Pero no se hace en

base a un criterio de aleatoridad.

Ejemplo: las encuestas en los periódicos electrónico.

2. Muestreo intencional En este caso, si bien el muestreo no es probabilístico, los investigadores procuran

que se garantice la representatividad de la muestra

Page 80: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

80

Distribución “Chi-cuadrado”

La función Chi-cuadrado es igual a la función normal elevada al cuadrado.

Esto es, el producto de dos distribuciones de Gauss es una distribución de Chi-

cuadrado.

Si de una población normal, o aproximadamente normal, se extraen muestras

aleatorias e independientes, y se le calcula el estadístico χ2 usando el valor muestral

de la varianza y el poblacional con:

2

22 1 Sn

Al igual que la T-Student, el valor total del área bajo la curva es igual a la unidad,

pero la diferencia principal es que esta no es simétrica respecto al origen, sino que

se extiende desde 0 hasta + ∞ porque no puede ser negativa.

A medida que los grados de libertad aumentan, la curva cambia de forma y sus

valores se han tabulado (ver tabla)

La distribución de χ2 se usa principalmente para analizar dispersiones. Se compara

la dispersión muestral expresada a través de sus cuadrados medios (CM) contra la

dispersión poblacional cuantificada a través de la varianza (σ2).

Ejemplo 1

Un bioquímico sospecha que su microcentrífuga no mantiene constante su

velocidad mientras trabaja, lo cual le da una variabilidad indeseada en sus

determinaciones. Para controlarla, consigue un tacómetro regulado y mide cada

minuto la velocidad durante 10 minutos. Los resultados fueron:

– una velocidad promedio en las 10 mediciones de 3098 rpm

– Desvío de 100,4 rpm.

– Testear para un error relativo máximo del 2% o menos, si la centrífuga es

estable.

El desvío estándar aceptable es: σmáx = 2% de 3098 rpm = 62 rpm. Luego:

σmáx ≤ 62 rpm: la micro centrífuga es estable

Page 81: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

81

σmáx > 62 rpm: la micro centrífuga no es estable

2

22 1 Sn

6,2362

4,1001102

2

2

De la Tabla de valores críticos surge:

877,27

666,21

2

9;991,0

2

9;99,0

Distribución de Probabilidad de Variables Discretas

DISTRIBUCION DE PROBABILIDAD

Es una regla de correspondencia que asocia cada valor (x)de una variable aleatoria X con

su respectiva probabilidad p(x =X) o con alguna función de ésta

Las distribuciones de probabilidad son necesarias para realizar INFERENCIA (extrer

conclusiones respecto a una población a partir de una muestra)

Previamente es necesario conocer el comportamiento de las muestras tomadas de una

población

M P

Page 82: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

82

Es decir conocer la distribución en el muestreo de la característica en estudio

En la mayoría de los casos, para conocer p(θ) es necesario conocer la

distribución de la variable y el tipo de muestreo

tipo de muestreo

tanto p(x) como p(θ) son DISTRIBUCIONES DE PROBABILIDAD

DISTRIBUCION DE PROBABILIDAD

FORMAS DE REPRESENTACION

tablas

Con cualquier tipo de variable

graficos

Modelos simbólicos = Solamente con variables numéricas

¿QUÉ SE REPRESENTA?

M

1

P

M

2

M

3

q p(θ)

x p(x)

q p(θ)

Page 83: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

83

VARIABLES

CATEGORICAS

VARIABLES

NUMERICAS

DISCRETAS

VARIABLES

NUMERICAS

CONTINUAS

)( xXp

FUNCIÓN DE

PROBABILIDAD

0

0.1

0.2

0.3

0.4

1 2 3 4 5

)()( xXpXF

FUNCIÓN DE

DISTRIBUCIÓN

p(x)

x

dx

xdFxf

)()(

FUNCIÓN DE

DENSIDAD

F(x)

f(x)

x

VARIABLES

CATEGORICAS

VARIABLES

NUMERICAS

DISCRETAS

VARIABLES

NUMERICAS

CONTINUAS

)( xXp

FUNCIÓN DE

PROBABILIDAD

0

0.1

0.2

0.3

0.4

1 2 3 4 5

)()( xXpXF

FUNCIÓN DE

DISTRIBUCIÓN

p(x)

x

dx

xdFxf

)()(

FUNCIÓN DE

DENSIDAD

F(x)

f(x)

x

OTRA FORMA DE VER LA FUNCION DE DISTRIBUCIÓN

VARIABLES DISCRETAS VARIABLES CONTINUAS

ax

xpaF )()(a

dxxfaF ).()(

)()( axPaF

F(x)

x

a

F(x)

xa

Los Modelos Simbólicos (Matemáticos)

Constan de una forma (formula) en la cual intervienen algunos valores constantes

(parametros) para cada población, pero diferentes de una a otra

EJEMPLOS

En la distribución binomial

x Variable en estudio

n y p parámetros

En la distribución Poisson

x Variable en estudio

l parámetro

e Base de ln = 2,718...

xnp

xp

nxCxp )1()(

!)(

.

xxp

ex

Page 84: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

84

Definiciones de Media y Varianza en una Distribución de Probabilidad

x

xpx )(.MEDIA

x

xpx )(.)( 2

VARIANZA

Page 85: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

85

Estimación de Parámetros

En una población cuya distribución es conocida pero desconocemos algún

parámetro, podemos estimar dicho parámetro a partir de una muestra

representativa.

El Estimador

Es un valor que puede calcularse a partir de los datos muestrales y que proporciona

información sobre el valor del parámetro.

Por ejemplo la media muestral es un estimador de la media poblacional.

La proporción observada en la muestra es un estimador de la proporción en

la población.

Estimación: puntual y por intervalos

Veremos 2 tipos de estimadores:

Estimación puntual: Aquí obtendremos un punto, un valor, como estimación del

parámetro.

Estimación por intervalos: Aquí obtendremos un intervalo dentro del cual

estimamos (bajo cierta probabilidad) estará el parámetro.

Estimación puntual

Una estimación es puntual cuando se obtiene un sólo valor para el parámetro.

Los estimadores más probables en este caso son los estadísticos obtenidos en la

muestra, aunque es necesario cuantificar el riesgo que se asume al considerarlos.

Las dos medidas fundamentales son la media que indica el valor promedio del

estimador y la desviación estándar, también denominada error estándar de

estimación, que indica la desviación promedio que podemos esperar entre el

estimador y el valor del parámetro.

Estimación por intervalos

En la estimación por intervalos calculamos dos valores entre los que se encontrará

el parámetro, con un nivel de confianza fijado de antemano.

Llamamos Intervalo de confianza al intervalo que con un cierto nivel de

confianza, contiene al parámetro que se está estimando.

Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al

verdadero valor del parámetro.

Se indica por 1- y habitualmente se da en porcentaje (1- )100%. Hablamos de

nivel de confianza y no de probabilidad ya que una vez extraída la muestra, el

intervalo de confianza contendrá al verdadero valor del parámetro o no, lo que

sabemos es que si repitiésemos el proceso con muchas muestras podríamos afirmar

que el (1- )% de los intervalos así construidos contendría al verdadero valor del

parámetro.

Propiedades deseables en los estimadores

Veremos CUATRO propiedades:

Ausencia de sesgo

Consistencia

Eficiencia

Page 86: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

86

Suficiencia

1. Ser insesgado. Diremos que θ es un estimador insesgado de θ si la esperanza de θ

es θ . Es decir, ( )E

La media muestral es un estimador insesgado de la media poblacional.

2. Consistencia. Se dice que un estimador es consistente si se cumple que

0 -P lim

n 1 -P lim

n

Esta expresión indica que a medida que se incrementa el tamaño muestral, la

diferencia entre el estimador y el parámetro será menor que cualquier número (e).

A diferencia de la ―ausencia de sesgo‖ que se define para valores finitos de n, la

―consistencia‖ es una propiedad asintótica.

Nota: la varianza muestral es un estimador consistente de la varianza poblacional,

dado que a medida que el tamaño muestral se incrementa, el sesgo disminuye.

3. Eficiencia. Se emplea para COMPARAR estimadores.

Si tenemos dos estimadores 1 y 2 de un mismo parámetro , diremos que 1 es

más eficiente que 2 si tenemos que var( 1 )<var( 2 )

4. Suficiencia. Diremos que θ

es un estimador suficiente del parámetro si dicho

estimador basta por sí solo para estimar

Intervalos de confianza para los principales parámetros

El caso de la media

En este caso, en lugar de indicar simplemente un único valor como estimación del

parámetro, lo que haremos es ofrecer un intervalo de valores que sea asumible con

cierta probabilidad por el parámetro que queremos estimar.

Intervalo de confianza: Es el intervalo de las estimaciones (probables) sobre el

parámetro.

Límites de los intervalos de confianza: Son los dos valores extremos del intervalo

de confianza

¿cuán grande habrá de ser el intervalo de confianza?

Evidentemente, si decimos que el intervalo de confianza va de menos infinito a

más infinito, seguro que acertamos...pero eso no es muy útil. Por su parte, el

Page 87: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

87

extremo es la estimación puntual, en la que lo usual es que no demos con el valor

del parámetro...

La idea es crear unos intervalos de confianza de manera que sepamos en qué

porcentaje de casos el parámetro estará dentro del intervalo crítico.

¿Y cómo fijamos tal porcentaje de casos? Usualmente se asume un porcentaje del

95%. Al calcular un intervalo de confianza sobre la media al 95%, quiere decir que

el 95% de las veces que repitamos el proceso de muestreo (y calculemos la media

muestral), la media poblacional estará dentro de tal intervalo.

Pero, ¿cómo calculamos estos dos límites?

Sabemos que la distribución subyacente es normal, lo cual nos ayuda

enormemente.

En una distribución normal estandarizada, es muy fácil saber qué valor

estandarizado (z) deja a la izquierda el 2.5% de los datos (yendo a las tablas es -

1.96) y cuál deja a la izquierda el 97.5% de los datos (o a la derecha el 2.5% de los

datos: 1.96).

Ahora habrá que pasar esos datos a puntuaciones directas....

Conocemos 2

Nuestra distribución es normal, pero con cierta media y cierta desviación estándar,

las cuales sabemos por el tema anterior:

La media de la distribución muestral de medias es la media poblacional µ

La varianza de la distribución muestral de medias es 2/n

O lo que es lo mismo, la desviación estándar de la dist. muestral de medias es

n/

Page 88: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

88

Sabemos que

Para estandarizar

Pasamos de términos

0.025X zn

0.975X zn

En Punt. directas

En definitiva

0.025 0.975 0.95P X z X zn n

Xn

ZX

n

XXZ

ii

ii

X es deEstimador

En Punt.típicas

Aplicando la lógica de pasar

los valores estandarizados

Page 89: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

89

El Caso de Desconocer la Varianza Poblacional

Para la media (cuando conocemos la varianza poblacional), tenemos la expresión

0.025 0.975 0.95P X z X zn n

Pero si no conocemos la varianza poblacional, no podemos emplear n

2

En su lugar hemos de emplear n

S 2

Ahora la distribución ya no es exactamente una distribución normal...

Por el tema anterior sabemos que la distribución muestral de nS

X

/

no es una distribución normal, sino una distribución t de Student con n-1 grados de

libertad.

En definitiva, para la media (cuando conocemos la varianza poblacional), tenemos la

expresión

0.025 0.975 0.95P X z X zn n

Pero si no conocemos la varianza poblacional (el caso realista), tenemos la expresión:

0.025 1 0.975 1 0.95n n

s sP X t X t

n n En todo caso, hay que recordar que si "n" es grande, la distribución t de Student será

virtualmente una distribución normal N(0,1). En otras palabras, si "n" es grande, ambas

fórmulas dan unos intervalos virtualmente idéntico, y emplear la distribución normal es

correcto.

¿Qué quiere decir la expresión siguiente?

0.025 0.975 0.95P X z X zn n

Quiere decir que cada vez que extraigamos una muestra y hallemos la media, el parámetro

desconocido m estará entre los límites de dicho intervalo el 95% de las veces. (O el 99% si

hubiéramos elegido un intervalo al 99%, etc.)

Page 90: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

90

Tamaño muestral y la amplitud del intervalo de confianza

Para el caso de la media hemos visto que

0.025 0.975 0.95P X z X zn n

Es claro que a medida que el tamaño muestral aumente, la amplitud del intervalo

disminuye. (Evidentemente, esto es general, no sólo para la media.) Veamos un ejemplo:

Caso A1. Media muestral =10, varianza pobl =4, tamaño muestral =12

2 210 ( 1.96) 10 1.96 8.87 11.13 0.95

12 12P P

Caso A2. Media muestral =10, varianza pobl =4, tamaño muestral =20

2 210 ( 1.96) 10 1.96 9.12 10.88 0.95

20 20P P

Amplitud del intervalo de confianza y el valor del índice de confianza

El caso "usual" (por defecto) es emplear intervalos al 95%.

0.025 0.975 0.95P X z X zn n

Pero evidentemente es posible emplear intervalos a, digamos, el 99%. En tal caso,

tendremos más seguridad de que el parámetro de interés se halle en los límites del

intervalo. El problema es que incrementar tal índice aumenta así mismo la amplitud del

intervalo.

Caso A1. Media muestral =10, varianza pobl.=4, tamaño muestral =12. Intervalo al 95%

2 210 ( 1.96) 10 1.96 8.87 11.13 0.95

12 12P P

Caso A2. Media muestral =10, varianza pobl =4, tamaño muestral =12. Intervalo al 99%

2 210 ( 2.57) 10 2.57 8.52 11.48 0.99

12 12P P

Page 91: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

91

Probabilidad normal presentada en una y dos colas

Coeficientes de confianza más usados Z α

Intervalos de confianza para OTROS parámetros

Intervalos de confianza para las proporciones

.025 .975

(1 ) (1 )0.95

P P P PP P z P z

n n

Intervalos de confianza para la varianza

2 22

2 2

.975 1 .025 1

0.95n n

n S n SP

Page 92: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

92

Ejemplo 1

Suponiendo que a un paciente se le extrae una muestra de sangre y al suero

obtenido se lo fracciona en 50 alícuotas, luego a cada una se le determina la

creatinina, y con los valores medidos se obtienen un promedio de 10 mg/dl y un

desvío de 2,2 mg/dl. El verdadero valor de la creatinina en el paciente se puede

estimar con un nivel de confianza del 95 % (Ζα = 1,96) con:

μ = ( 10 ± 1,96 . 2,2 / 50 ) mg/dl

= (10,0 ± 0,6) mg/dl

IC 95% (9,4 ; 10,6)

Eso significa que se tiene una probabilidad del 95 % de encontrar la creatinina real del

paciente entre 9,4 y 10,6 mg/dl.

Si se quiere aumentar la confianza al 99% el nuevo intervalo tendrá una mayor

indeterminación, o sea, el intervalo será más ancho: entre 9,2 y 10,8 mg/dl.

μ = ( 10 ± 2,58 . 2,2 / 50 ) mg/dl

= (10,0 ± 0,8) mg/dl

IC 99% (9,2 ; 10,8)

Y si todavía se aumenta un poco más al 99,9%:

μ = ( 10 ± 3,29 . 2,2 / 50 ) mg/dl

= (10 ± 1) mg/dl

IC 99,9%(9 ; 11)

Ejemplo 2

Se tomaron 200 muestras aleatorias de presión sistólica a niños cuyos padres son

hipertensos, obteniéndose una media de 107 y un desvío de 7. Luego se tomaron

100 muestras de niños cuyos padres tienen la presión sanguínea normal, y se

obtuvo una media de 98 con un desvío de 6. Obtener los límites de confianza del 95

% a la diferencia de medias.

En este caso se trata de una diferencia de medias, pero con varianzas diferentes

estimadas con las muestras de la manera siguiente:

778,0100

36

200

49

998107

2

2

2

1

2

121

21

nnS

xx

µ1-2 = ( 9 ± 1,96 . 0,778 ) = ( 9,0 ± 1,5 ).

IC 95% (7,5 ; 10,5)

Estimación del tamaño muestral

Page 93: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

93

Antes de realizar un estudio de inferencia estadística sobre una variable, lo primero

es decidir el número de elementos, N, a elegir en la muestra aleatoria. Para ello

consideremos que el estudio se basara en una variable de distribución normal, y nos

interesa obtener para un nivel de significación dado, una precisión (error) d.

Para ello, recordemos que un intervalo de confianza para una media en el caso

general se escribe como:

Si N es suficientemente grande, la distribución t de Student se aproxima a la

distribución normal. Luego una manera de obtener la precisión buscada consiste en

elegir N con el siguiente criterio:

Donde S2 es una estimación puntual a priori de la varianza de la muestra. Para

obtenerla nos podemos basar en una cota superior conocida por nuestra experiencia

previa, o simplemente, tomando una muestra piloto que sirve para dar una idea

previa de los parámetros que describen una población.

Ejemplo

se ha estudiado la variable altura de los individuos de una población, considerando

que ésta es una variable que se distribuye de modo gaussiana.

se tomó una muestra de 25 individuos (que podemos considerar piloto), que ofreció

los siguientes resultados:

Calcular el tamaño que debería tener una muestra para que se obtuviese un

intervalo de confianza para la media poblacional con un nivel de significación =

0,01 (99 %) y con una precisión de d=1 cm.

Nota: el error cometido al estimar el intervalo al 95 % es de aproximadamente de

4,2 cm por lo que si buscamos un intervalo de confianza tan preciso, el tamaño de

la muestra, N, deberá ser bastante mayor. En este caso se obtiene:

Page 94: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

94

Si queremos realizar un estudio con toda la precisión requerida en el enunciado se

debería tomar una muestra de 694 individuos. Esto es una indicación de gran

utilidad antes de comenzar el estudio.

Una vez que el muestreo haya sido realizado, debemos confirmar que el error para

el nivel de significación dado es inferior o igual a 1 cm, utilizando la muestra

obtenida.

Page 95: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

95

Contrastes de Hipótesis

Una hipótesis estadística es una asunción relativa a una o varias poblaciones, que

puede ser cierta o no. Las hipótesis estadísticas se pueden contrastar con la

información extraída de las muestras y tanto si se aceptan como si se rechazan se

puede cometer un error.

La hipótesis formulada con intención de rechazarla se llama hipótesis nula y se

representa por H0.

Rechazar H0 implica aceptar una hipótesis alternativa (H1).

Decisión H0 Verdadera H0 Falsa

Mantengo H0 Decisión correcta Decisión Incorrecta

Error de Tipo II

Rechazo H0 Decisión Incorrecta

Error de Tipo I

Decisión correcta

= p (rechazar H0|H0 cierta)

= p(aceptar H0|H0 falsa)

Potencia =1- = p(rechazar H0|H0 falsa)

La probabilidad de cometer un error de tipo I es el nivel de significación , la

probabilidad de cometer un error de tipo II depende del verdadero valor de µ y del

tamaño de la muestra.

Detalles a tener en cuenta

y están inversamente relacionadas.

Sólo pueden disminuirse las dos, aumentando n.

Los pasos necesarios para realizar un contraste relativo a un parámetro son:

1 - Establecer la hipótesis nula en términos de igualdad

2 - Establecer la hipótesis alternativa, que puede hacerse de tres maneras, dependiendo

del interés del investigador

en el primer caso se habla de contraste bilateral o de dos colas, y en los otros dos

de lateral (derecho en el 2º caso, o izquierdo en el 3º) o una cola.

3. Elegir un nivel de significación: nivel crítico para

4. Elegir un estadístico de contraste: estadístico cuya distribución muestral se conozca

en H0 y que esté relacionado con y establecer, en base a dicha distribución, la región

Page 96: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

96

crítica: región en la que el estadístico tiene una probabilidad menor que si H0 fuera

cierta y, en consecuencia, si el estadístico cayera en la misma, se rechazaría H0.

La región de rechazo de la hipótesis nula es la sombreada. Se rechaza H0 cuando el

estadístico zcalc toma un valor comprendido en la zona sombreada de la gráfica

pequeña, N (0,1), o equivalentemente, cuando el estadístico toma un valor

en la zona sombreada de la gráfica grande, N (μ0,σ2).

Ensayo de dos colas

Ho : μ = a H1 : μ ≠ a

Page 97: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

97

Ensayo de una cola

Ejemplo

Estamos estudiando el efecto del estrés sobre la presión arterial. Nuestra hipótesis es que la

presión sistólica media en varones jóvenes estresados es mayor que 18 cm de Hg.

Estudiamos una muestra de 36 sujetos y encontramos

1. Se trata de un contraste sobre medias. La hipótesis nula (lo que queremos rechazar) es:

2. la hipótesis alternativa

es un contraste lateral derecho

3. Fijamos "a priori" el nivel de significación en 0,05 .

4. El estadístico para el contraste es

y la región crítica T>t

Si el contraste hubiera sido lateral izquierdo, la región crítica sería T< t1-

y si hubiera sido bilateral T<t1- /2 o T>t /2

Page 98: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

98

En este ejemplo t(35)0,05=1,69.

5. Calculamos el valor de t en la muestra

no está en la región crítica (no es mayor que 1,69), por tanto no rechazamos H0.

Como no se rechaza H0, se puede cometer un error tipo II. ¿Cuál es ?. De hecho,

sería la información relevante a comunicar en este estudio (la probabilidad del error

que se pude cometer en él).

Habitualmente, sin embargo, no se da porque los paquetes estadísticos no la

calculan.

Para calcularla se debe concretar H1,

ej. µ = 20 (el criterio para este valor no es estadístico)

= p (aceptar H0| H1 cierta)

Supongamos que el tamaño muestral sea suficientemente grande para poder

aproximar t a z.

¿Cuándo se acepta H0? si z 1,69

es decir, se acepta H0 si

Qué probabilidad hay de encontrar

si µ = 20 (zona verde del gráfico)? En esta hipótesis lo que se distribuye como una

z es

Page 99: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

99

Intervalo de Confianza y Contraste de Hipótesis

Ambos se basan en el mismo grupo de conceptos pero se utilizan con fines

diferentes

Los Intervalos de Confianza se plantean para estimar parámetros

Los Contrastes de Hipótesis son para tomar decisiones en relación a los

valores postulados

Contrastes para la media

Conviene remarcar el hecho siguiente:

que una hipótesis nula sea aceptada, no quiere decir que se tenga prueba científica

de su validez. Puede haber otro modelo científico más sensible que el de Gauss que

detecte diferencias cuando este no lo haga.

Solo cuando una hipótesis no es aceptada se puede decir: se ha encontrado

evidencia científica para rechazar la hipótesis.

Es decir, que se valida el rechazo, pero no la aceptación. Por ello muchos

investigadores prefieren plantear hipótesis para ser rechazadas. Aprovechando el

hecho de que son ellos quienes deciden cual es la nula y cual es la alternativa.

La sensibilidad de un modelo para detectar diferencias en los ensayos es la robustez

del mismo. Cuando se pueda se debe elegir el modelo más robusto.

Test de dos colas con varianza conocida

Suponemos que X ~ 2,N donde

2 es conocido y queremos contrastar si es

posible que μ (desconocida) sea en realidad cierto valor μ0 fijado.

El test se escribe entonces como:

H0: μ=μ0

H1: μ≠μ0

la técnica para hacer el contraste consiste en suponer que H0 es cierta, y averiguar

con esta hipótesis cual es la distribución del estadístico del contraste que este caso

es lógico que deba estar muy relacionado con X

Si al obtener una muestra concreta se tiene que xX es un valor muy alejado de

μ0, se debe rechazar H0. Veamos esto con más detalle

Para poder acceder a las probabilidades de la normal, hemos tipificado (ya que los

valores para hacer la tipificación son conocidos). Si H0 es cierta, entonces

esperamos que el valor zcalc obtenido sobre la muestra esté cercano a cero con una

gran probabilidad.

Page 100: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

100

n

xzcalc

0

Esto se expresa fijando un nivel de significación , y tomando como región crítica

C, a los valores que son muy extremados y con probabilidad en total, o sea:

2

1

2

2/1

2/12/12/12/

2/

zZP

zZzPzz

zZP

calc

calc

calc

Entonces la región crítica consiste en:

2/1

calc/2-1/2-1calc

:

zz que tal,-zz que tal,

zzz

zzC

calccalc

calccalc

Luego rechazaremos la hipótesis nula si

2/1zzcalc

aceptando en consecuencia la hipótesis alternativa

La región de rechazo de la hipótesis nula es la sombreada. Se rechaza H0 cuando el

estadístico zcalc toma un valor comprendido en la zona sombreada de la gráfica

pequeña, N (0,1), o equivalentemente, cuando el estadístico X toma un valor en

la zona sombreada de la gráfica grande, N (μ0,σ2).

Tests de una cola con varianza conocida

Consideremos un contraste de hipótesis donde ahora la hipótesis alternativa es

compuesta:

H0:μ = μ0

H1:μ<μ0 O también se escribe

Page 101: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

101

H0:μ≥μ0

H1:μ<μ0

Bajo la hipótesis nula la distribución de la media muestral es:

como región crítica consideraremos aquella formada por los valores

extremadamente bajos de Zcalc, con probabilidad .

Entonces la región de aceptación, o de modo más correcto, de no rechazo de la

hipótesis nula es

si en el contraste de significación anterior, hubiésemos tomado como hipótesis

alternativa su contraria, es decir

H0:μ = μ0

H1: μ>μ0

O también se escribe

H0:μ≤μ0

H1:μ>μ0

Por simetría con respecto al caso anterior, la región donde no se rechaza la hipótesis nula

es

Page 102: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

102

Test de dos colas con varianza desconocida

Sea X ~ N (µ,2) donde ni μ ni

2 son conocidos y queremos realizar el contraste

H0:μ = μ0

H1:μ≠μ0

Al no conocer 2 va a ser necesario estimarlo a partir de su estimador insesgado.

Por ello la distribución del estimador del contraste será una t de Student, que ha

perdido un grado de libertad.

n

S

XH

ˆT cierta 0

calc0

Consideramos como región crítica C, a las observaciones de Tcalc extremas

2

1

2

2/1,1

2/1,12/1,12/1,12/,1

2/,1

ncalc

ncalcnnn

ncalc

tTP

tTtPtt

tTP

Para dar una forma homogénea a todos los contrastes de hipótesis es costumbre

denominar al valor del estadístico del contraste calculado sobre la muestra como

valor experimental y a los extremos de la región crítica, como valores teóricos.

Definiendo entonces

2/1,1

0

ˆ

nteo

calc

tT

n

S

XT

Page 103: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

103

Región crítica para el contraste bilateral de una media

Si |Tcalc|≤Tteo , no rechazamos H0;

Si |Tcalc|>Tteo , rechazamos H0 y aceptamos H1

Tests de una cola con varianza desconocido Si realizamos el contraste

H0:μ = μ0

H1:μ<μ0

O también se escribe

H0:μ≥μ0

H1:μ<μ0 por analogía con el contraste bilateral, definiremos

2/1,1

0

ˆ

nteo

calc

tT

n

S

XT

Región crítica para uno de los contrastes unilaterales de una media

Si |Tcalc|≥-Tteo , no rechazamos H0;

Si |Tcalc|≤-Tteo , rechazamos H0 y aceptamos H1

Para el contraste contrario:

H0:μ = μ0

Page 104: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

104

H1:μ>μ0

O también se escribe

H0:μ≤μ0

H1:μ>μ0

Región crítica para el contrastes unilateral de una media contrario al anterior

Si |Tcalc|≤Tteo , no rechazamos H0;

Si |Tcalc|>Tteo , rechazamos H0 y aceptamos H1

Ejemplo

Conocemos que las alturas X de los individuos de una ciudad, se distribuyen de

modo normal. Deseamos contrastar con un nivel de significación de =0,05 si la

altura media es diferente de 174 cm. Para ello nos basamos en un estudio en el que

con una muestra de n = 25 personas se obtuvo:

cm 10S

cm 170x

El contraste que se plantea es:

H0: μ = 174 cm

H1: μ ≠ 174 cm

La técnica a utilizar consiste en suponer que H0 es cierta y ver si el valor que toma el

estadístico

n

S

xTcalc ˆ

174

~ tn-1 = t24

es ―razonable‖o no bajo esta hipótesis, para el nivel de significación dado.

Aceptaremos la hipótesis alternativa (y en consecuencia se rechazará la hipótesis

nula) si no lo es, es decir, si

06,2975,0,242/1,24 ttTcalc

Para ello procedemos al cálculo de Tcalc:

Page 105: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

105

06,22

25

10

174170975,0,24tTcalc

Luego, aunque podamos pensar que ciertamente el verdadero valor de μ no es 174,

no hay una evidencia suficiente para rechazar esta hipótesis al nivel de confianza

del 95%. Es decir, no se rechaza H0.

El valor de Tcalc no está en la región crítica (aunque ha quedado muy cerca), por tanto al no

ser la evidencia en contra de H0 suficientemente significativa, ésta hipótesis no se rechaza.

Ejemplo 2

Consideramos el mismo ejemplo de antes. Visto que no hemos podido rechazar el que la

altura media de la población sea igual a 174 cm, deseamos realizar el contraste sobre si la

altura media es menor de 174 cm.

Ahora el contraste es

H0 : μ ≥ 174 cm

H1 : μ < 174 cm

Consideremos el caso límite y observemos si la hipótesis nula debe ser rechazada o

no. Este es:

H0’ : μ = 174 cm

H1 : μ < 174 cm

De nuevo la técnica a utilizar consiste en suponer que H0' es cierta y ver si el valor que

toma el estadístico

n

S

xTcalc ˆ

174

~ tn-1 = t24

es aceptable bajo esta hipótesis, con un nivel de confianza del 95%. Se aceptará la

hipótesis alternativa (y en consecuencia se rechazará la hipótesis nula) si

71,195,0,241,24,24 tttTcalc

Recordamos que el valor de Tcalc obtenido fue de

Page 106: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

106

Tcalc=-2< t24 ;0,05= -t24 ;0,95 = -1,71

Por ello hemos de aceptar la hipótesis alternativa

El valor te Tcalc está en la región crítica, por tanto existe una evidencia significativa

en contra de H0, y a favor de H1.

Mientras que en el ejemplo anterior no existía una evidencia significativa para decir que μ

≠ 174 cm, el ―simple hecho‖ de plantearnos un contraste que parece el mismo pero en

versión unilateral nos conduce a rechazar de modo significativo que μ= 174 cm y

aceptamos que μ < 174 cm. Es por ello que podemos decir que no sólo H0' es rechazada,

sino también H0.

Contrastes para la varianza

Consideremos que el carácter que estudiamos sobre la población sea una v.a.

normal cuya media y varianza son desconocidas. Vamos a contrastar la hipótesis

prefijadoun valor es donde ,: 2

0

2

0

2

0H

Contraste bilateral

Cuando el contraste a realizar es

2

0

2

1

2

0

2

0

:

:

H

H

Page 107: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

107

definimos

2

2/1,1

2

2/,1

2

0

22

ˆ1

nteo

nteo

calc

b

a

Sn

y el criterio que suministra el contraste es el expresado en la siguiente figura:

Si ateo 2 calc bteo no rechazamos la H0

Si 2 calc < ateo ó

2 calc > bteo rechazamos H0 y aceptamos H1

Contrastes unilaterales

Para un contraste de significación al nivel del tipo

H0: 2 =

20

H1: 2 <

20

O también se escribe

H0: 2 ≥

20

H1: 2 <

20

se tiene que el resultado del mismo es el que refleja en la siguiente figura

Contraste unilateral del tipo H0 2 ≥

20.

Page 108: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

108

si teoa ≤ H rechazamos no 0

2

calc

si2

calc < teoa 10 H aceptamosy H rechazamos

Para el contraste contrario tenemos la formulación análoga

H0: 2 = 2

0

H1: 2 >

20

O también se escribe

H0: 2

20

H1: 2 >

20

calculamos el extremo inferior de la región crítica en una tabla de la distribución 2

n-1

2

1,1nteob

si 2

calc ≤ H rechazamos no 0teob

si teob < 2

calc 10 H aceptamosy H rechazamos

Page 109: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

109

Inferencia basada en dos muestras

Ejemplos:

Comparación del contenido de ácidos grasos en semillas de dos variedades

distintas.

Comparación de la hipertrofia del ventrículo izquierdo en animales alimentados

con y sin condiciones estresantes.

Comparar el efecto de dos drogas en pacientes con hipertensión arterial.

Comparación de los niveles de monóxido de carbono en aire entre la mañana y la

tarde en una ciudad.

Comparación de los porcentajes de preñez bajo dos protocolos de inseminación

artificial.

Comparación de los porcentajes de lecturas positivas para una virosis en pruebas

Elisa estándar y DAS-Elisa.

Dadas las muestras:

m1=X11, X21,…, Xn1 y

m2=X12, X22,…, Xn2

El objetivo de la inferencia puede ser:

Estimar la diferencia entre las medias de las poblaciones de las cuales proceden

(μ1-μ2)

y

Contrastar hipótesis sobre esta diferencia

Si el contraste es bilateral:

Versus

Si el contraste es unilateral derecho:

Si el contraste es unilateral izquierdo:

0 1 2: = 0 H

1 1 2 : 0 H

0 1 2 1 1 2: vs. : H H

0 1 2 1 1 2: vs. : H H

Page 110: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

110

Caso Normal

Se pueden distinguir cuatro situaciones:

m1 y m2 son muestras independientes

Poblaciones con varianzas conocidas

Poblaciones con varianzas desconocidas pero iguales

Poblaciones con varianzas desconocidas pero diferentes

m1 y m2 son muestras dependientes (valores apareados)

Caso Normal-Muestras independientes Varianzas conocidas

La inferencia se basa en el siguiente estadístico:

Es una situación de interés teórico porque usualmente las varianzas son desconocidas.

Caso Normal-Muestras independientes Varianzas desconocidas pero iguales

La inferencia se basa en el siguiente estadístico:

La prueba de hipótesis para la diferencia de medias basada en este estadístico se conoce

como prueba T para muestras independientes cuando las varianzas son homogéneas.

Caso Normal-Muestras independientes Varianzas desconocidas pero iguales

1 2 1 2

2 2

1 2

1 2

~ (0,1)X X

Z N

n n

1 2

1 2 1 2

2

2

1 2

~1 1

n n

p

X XT T

Sn n

2 22 1 1 2 2

1 2

( 1) ( 1)

2p

n S n SS

n n

Page 111: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

111

Intervalo de confianza bilateral para la diferencia de medias está dado por:

Ejemplo

Se desea comparar dos variedades de maní, en cuanto al contenido de aceites de las

semillas. Las hipótesis de esta prueba son H0: 1= 2 vs H1: 1 2. Para probar las

hipótesis anteriores se diseña un ensayo en el que, para cada variedad, se obtienen los

contenidos de aceite de 10 bolsas de 1 kg de semillas de maní, extraídas aleatoriamente,

de distintos productores de semillas.

Los resultados del ensayo son los siguientes:

Variedad n X S2

1 10 160.4 65.3

2 10 165.6 67.9

¿Cómo saber si las varianzas son iguales o diferentes?

Suponiendo normalidad para las observaciones de las muestras m1 y m2, una prueba de

homogeneidad de varianzas se basa en el siguiente estadístico:

Hipótesis de la prueba:

1 2

2

1 2 (1 / 2) ; 2

1 2

1 1n n px x t s

n n

1 2

2

1

( 1, 1)2

2

~ n n

sF F

s

2 2

0 1 2: H

2 2

1 1 2 :H

Page 112: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

112

65.30.96

67.9F

Bajo H0 se distribuye como una F con 9 y 9 grados de libertad

Prueba F:

La región de aceptación para un nivel de significación del 5% está delimitada por 0,248 y

4,03, correspondientes a los cuantiles /2 y (1 - /2) respectivamente.

9 0.001 0.025 0.050 0.075 0.100 0.125 0.150 0.850 0.875 0.900 0.925 0.950 0.975 0.990

1 0.043 0.138 0.195 0.246 0.297 0.349 0.403 26.3967 38.1751 59.8575 106.70 240.543 963.279 6022.40

2 0.061 0.175 0.234 0.285 0.332 0.378 0.423 6.0427 7.3783 9.3805 12.716 19.3847 39.3866 99.3896

3 0.071 0.196 0.258 0.309 0.355 0.399 0.441 3.7945 4.3971 5.2400 6.5269 8.8123 14.4730 27.3449

4 0.079 0.212 0.275 0.326 0.371 0.413 0.454 3.0153 3.4070 3.9357 4.7077 5.9988 8.9046 14.6592

5 0.085 0.223 0.287 0.338 0.383 0.424 0.464 2.6268 2.9239 3.3163 3.8738 4.7725 6.6810 10.1577

6 0.089 0.231 0.296 0.347 0.392 0.433 0.472 2.3949 2.6396 2.9577 3.4015 4.0990 5.5234 7.9760

7 0.093 0.238 0.303 0.354 0.399 0.440 0.478 2.2411 2.4526 2.7247 3.0989 3.6767 4.8232 6.7188

8 0.096 0.243 0.309 0.360 0.405 0.445 0.483 2.1316 2.3204 2.5612 2.8891 3.3881 4.3572 5.9106

9 0.099 0.248 0.314 0.365 0.409 0.450 0.487 2.0496 2.2220 2.4403 2.7351 3.1789 4.0260 5.3511

10 0.101 0.252 0.318 0.369 0.413 0.453 0.491 1.9860 2.1459 2.3473 2.6174 3.0204 3.7790 4.9424

0.0 1.5 3.0 4.5 6.00.248 4.03

Distribución F de Snedecor

Page 113: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

113

Como F=0,96 está en el intervalo (0,248; 4,03) se acepta H0: 12= 2

2

Se concluye que no hay diferencias entre las varianzas poblacionales, lo que indica el

cumplimiento del supuesto de homogeneidad de varianzas.

Prueba T

La región de aceptación para un nivel de significación del 5% está delimitada por -2,101 y

2,101, correspondientes a los cuantiles /2 y (1 - /2) respectivamente y 18 grados de

libertad.

Como T=-1,42 está en el intervalo (-2,101; 2,101) se acepta H0: 1= 2

Se concluye que no hay diferencias entre las dos variedades de maní considerando el

contenido de aceites en la semilla.

-4.0 -2.7 -1.3 0.0 1.3 2.7 4.0-2.101 2.101

Distribución T de Student

1 2

1 2 1 2

2

2

1 2

~1 1

n n

p

X XT T

Sn n

Grados de

Libertad

2 (9) 65.3 (9) 67.966.6

10 10 2pS

160.4 165.6 01.42

1 166.6

10 10

T

Page 114: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

114

Caso Normal-Muestras independientes Varianzas desconocidas y diferentes

La inferencia se basa en el siguiente estadístico:

La prueba de hipótesis para la diferencia de medias basada en este estadístico se conoce

como prueba T para muestras independientes cuando las varianzas no son homogéneas

Intervalo de confianza bilateral 1- para la diferencia de medias está dado por:

Ejemplo

Comparar el efecto de dos drogas en pacientes con hipertensión arterial.

La prueba T es aplicable, en este caso, bajo la suposición que las observaciones de

animales con y sin estrés son independientes, distribuidas normalmente con

varianzas desconocidas y supuestamente diferentes.

Caso Normal-Muestras dependientes (apareadas)

Los datos se obtienen de muestras que están relacionadas, es decir, los resultados del

primer grupo no son independientes de los del segundo. Por ejemplo, esto ocurre cuando

se mide la presión arterial en cada uno de los individuos de un grupo experimental antes y

después de la administración de una droga.

El objetivo es comprobar si la droga produce efectos en la presión sanguínea. Los pares de

observaciones (antes y después) obtenidas en cada individuo no son independientes ya que

la presión arterial posterior a la administración de la droga depende de la presión arterial

inicial.

Dadas las muestras m1 y m2 consideremos la muestra de las diferencias

md=X11- X12, X21 - X22 ,…,Xn1- Xn2= D1, D2 ,…,Dn

(observar que n1=n2=n)

La inferencia se basa en el siguiente estadístico, que depende de la media y la varianza de

las diferencias y del valor hipotetizado para el promedio poblacional de las diferencias ( )

1 2 1 2

2 2

1 2

1 2

' ~X X

T TS S

n n

22 2

1 2

1 2

2 22 2

1 2

1 2

1 2

2

1 1

S Sn n

S Sn n

n n

2 2

1 21 2 (1 / 2) ;

1 2

s sx x t

n n

12

~ n

D

DT t

S

n

Page 115: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

115

La prueba de hipótesis para la diferencia de medias basada en este estadístico se conoce

como prueba T para muestras apareadas.

Intervalo de confianza bilateral 1- para la diferencia de medias ( ) está dado por:

Ejemplo:

Comparación de los niveles de monóxido de carbono en aire entre la mañana y la

tarde en una ciudad.

La prueba T para muestras apareadas es aplicable en este caso cuando las observaciones de

m1 y m2 se obtienen de a pares, como por ejemplo mediciones de monóxido a la mañana y

tarde de un mismo día.

Se quiere comparar el efecto de dos virus sobre plantas de tabaco. Para ello se

seleccionaron al azar 8 plantas y en cada una de ellas se tomaron 2 hojas apicales.

Sobre cada una de ellas se aplicaron los preparados conteniendo los virus cuyos efectos

se querían evaluar.

La variable de respuesta fue la superficie en mm2 de las lesiones locales que aparecían

como pequeñas manchas oscuras en las hojas.

Los resultados fueron:

Preparado 1 Preparado 2 di

31 18 13

20 17 3

18 14 4

17 11 6

9 10 -1

8 7 1

10 5 5

7 6 1

1= 15 2 = 11 = 4

2

(1 / 2); 1D

n

SD t

n

0 1 2: = 0 H

1 1 2 : 0 H

0 : = 0 H

1 : 0 H

2

4 02.63

4.30

8D

DT

S

n

Page 116: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

116

Fijando = 0.05, se determina la región de aceptación como el

intervalo (t /2= -2,365 , t1- /2 = 2,365), con 7 grados de libertad

Se concluye que las diferencias observadas entre las áreas dañadas por uno u otro virus son

estadísticamente significativas.

Page 117: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

117

Análisis de la Varianza

ANAVA

Es necesario definir un nuevo contraste de hipótesis que sea aplicable en aquellas

situaciones en las que el número de medias que queremos comparar sea superior a

dos.

Es por ello por lo que el análisis de la varianza (ANAVA, ANDEVA, ANOVA)

surge como una generalización del contraste para dos medias de la t de Student,

cuando el número de muestras a contrastar es mayor que dos.

Definiciones preliminares

Unidad experimental

Se llama unidad o parcela experimental a la mínima porción del material

experimental sobre el cual un tratamiento puede ser realizado.

Tratamiento

Se denomina tratamiento al conjunto de acciones que se aplican a las unidades

experimentales con la finalidad de observar como responden a éstas. Tratamiento

Variable aleatoria observada o respuesta

Se llama variable aleatoria observada o respuesta a la medida u observación que

se obtiene de cada una de las unidades experimentales.

Repetición

Se llama repetición a cada realización de un tratamiento

Modelo lineal

La técnica de análisis de la varianza presupone un modelo para la variable

respuesta. Este modelo recibe el nombre genérico de modelo lineal.

modelo lineal de ANAVA (a una vía de clasificación) para la observación Yij:

Yij =μ + τi + εij , con i=1,...,a y j=1,..,n

Yij= es la j-ésima observación del i-ésimo tratamiento

μ es la media general de las observaciones

τi= es el efecto del i-ésimo tratamiento

εij= es una variable aleatoria normal independientemente distribuida con esperanza 0 y

varianza ∀i,j.

En la Figura se esquematizan a=3 distribuciones centradas en sus esperanzas,

denotadas por μi, y se representan parámetros del modelo lineal.

Page 118: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

118

Representación de 3 funciones de densidad, mostrando el punto de equilibrio de todas

ellas ( μ), las esperanzas de cada una de ellas ( μi) y los corrimientos de las esperanzas

respecto del punto de equilibrio representando o efectos de tratamiento ( τi).

La media general (μ) es el centro de equilibrio de todas las distribuciones y se trata de un

parámetro fijo. El efecto del tratamiento (τi) se presenta como un corrimiento respecto de

la media general y en el modelo conocido como de ANAVA de efectos fijos se asume

constante.

El efecto del tratamiento 1 (τ1) es la diferencia que hay entre la media del

tratamiento 1 y la media general. La hipótesis nula del ANAVA postula la igualdad

de medias de todos los tratamientos comparados. Si la hipótesis nula del ANAVA

fuera verdadera las a distribuciones estarían centradas sobre la misma esperanza, es

decir, en μ. Los valores de la variable aleatoria εij representan las diferencias entre

observaciones individuales y las esperanzas de la distribución de la cual proviene la

observación.

Observación

De ahora en adelante asumiremos que las siguientes condiciones son verificadas

por las t muestras:

Las observaciones proceden de poblaciones normales;

Las t muestras son aleatorias e independientes. Además, dentro de cada nivel las

observaciones son independientes entre sí.

En el modelo de un factor suponemos que las observaciones del nivel i, xij,

provienen de una variable Xij de forma que todas tienen la misma varianza --

hipótesis de homocedasticidad:

ijX ~ i

2 n,1,j , iN

O lo que es lo mismo

ij donde ,ijijX ~2,0N

De este modo µi es el valor esperado para las observaciones del nivel i, y los

errores ij son variables aleatorias independientes, con valor esperado nulo, y con

el mismo grado de dispersión para todas las observaciones.

Especificación del modelo

Con todo lo anterior, el modelo ANAVA de un factor puede escribirse como:

Page 119: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

119

ij donde ,ijiijX ~2,0N

µ = es una constante común a todos los tratamientos;

i = es el efecto producido por el i-ésimo tratamiento. Al sumarlos todos deben

compensarse los efectos negativos con los positivos para que la media común a

todos los tratamientos sea realmente µ. Esto implica en particular que los efectos, i

, de los tratamientos no son independientes;

ij = es la parte de la variable Xij no explicada por µ ni i, y que se distribuye del

mismo modo (aunque independientemente) para cada observación, según la ley

gaussiana:

ij ~2,0N

Ésta es la condición de homocedasticidad, y es fundamental en el análisis de la

varianza.

Obsérvese que ahora podemos escribir el contraste de que los diferentes

tratamientos no tienen influencia sobre la observación de la variable como:

igualesson no dos menos al :

:

1

210

H

H t

o

0un menos al :

0:

i1

210

H

H t

Observación

Se utiliza el nombre de análisis de la varianza ya que el elemento básico del

análisis estadístico será precisamente el estudio de la variabilidad. Teóricamente es

posible dividir la variabilidad de la variable que se estudia en dos partes:

La originada por el factor en cuestión

La producida por los restantes factores que entran en juego, conocidos o no,

controlables o no, que se conocen con el nombre de error experimental.

Si mediante los contrastes estadísticos adecuados la variación producida por cierto

factor es significativamente mayor que la producida por el error experimental

podemos aceptar la hipótesis de que los distintos tratamientos del factor actúan de

forma distinta.

Ejemplo Consideremos dos muestras tomadas en diferentes tratamientos de una variable, de

forma que ambas tengan la misma varianza muestral (lo que indica que no se puede

rechazar la igualdad de varianzas poblacionales) y medias muestrales bastante

diferentes:

Page 120: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

120

55,5

7

6

1

12

3

13,12,11

1

2

3

3,2,1

2

21

2

2

22 otratamient

2

1

11 otratamient

S

x

nnn

S

x

n

S

x

n

La dispersión calculada al medir la de los dos tratamientos conjuntamente es

mucho mayor que la de cada uno de ellos por separado. Por tanto puede deducirse

que ambos tratamiento no tienen el mismo valor esperado.

El objetivo del ANAVA de efectos fijos es contrastar la hipótesis de que los efectos

de tratamientos son nulos versus que al menos uno no lo es. En términos

estadísticos:

H0: τ1=...=τa= 0

vs.

H1: Al menos un tratamiento tiene efecto no nulo.

Otra forma de enunciar estas hipótesis es que las medias de los tratamientos que se

comparan son idénticas vs. que no lo son. La técnica de ANAVA es sensible a las

propiedades estadísticas de los errores del modelo lineal y supone que los datos

observados son independientes unos de otros y que las observaciones bajo cada

tratamiento tienen distribución normal centrada en su esperanza (μ+τi) y varianza

σ2, idéntica para toda observación (homogeneidad de varianzas).

El no cumplimiento de estas propiedades, conocidas como supuestos, pueden

invalidar la inferencia que se pueda realizar a partir de esta técnica.

Page 121: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

121

Algo de notación relativa al modelo

Introduciremos alguna notación para escribir los términos que serán más importantes a

la hora de realizar un contraste por el método ANAVA. En primer lugar tenemos:

nesobservacio las todas de muestral media

nesobservacio las todas de suma x

i nivel del muestral media

i nivel del nesobservacio las de suma x

niveles) los todos (entre nesobservacio de total número

i

N

xx

xnx

n

xx

x

nN

t

i

ii

n

j

ij

t

i

i

ii

n

j

ij

t

i

i

i

i

111

1

1

Usando estos términos vamos a desglosar la variación total de la muestra en

variación total dentro de cada nivel (intravariación) más la variación entre los

distintos niveles (intervariación).

Entonces:

SCT = SCD + SCE donde

niveles los entre cuadrados de suma nSCE

nivel cada de dentro cuadrados de suma SCD

totales cuadrados de suma

t

1i

i

2

2

2

11

11

xx

xx

xxSCT

i

in

j

ij

t

i

in

j

ij

t

i

Observación

En el cálculo del estadístico SCT intervienen N cantidades, ligadas por una

relación:

1

11

n

j

ij

t

i

xx

de este modo el número de grados de libertad de este estadístico es N-1 (recuérdese

la noción de grados de libertad de un estadístico). Por razones análogas tenemos

que el número de grados de libertad de SCD es N-t y el de SCE es t-1.

Forma de efectuar el contraste

Consideramos el contraste

Page 122: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

122

0algún :

0:

i1

210

H

H t

Suponemos que estamos en las condiciones del modelo factorial de un factor.

Si H0 es cierta se puede demostrar que el siguiente estadístico se distribuye como

una F de Fisher:

2

2

D

Ecalc

S

SF ~ tNtF ,1

Distribución F de Fisher (en algunos libros ―F de Snedecor‖)

Nunca adopta valores menores de 0

Es asimétrica positiva

Es en realidad una familia de curvas, en función de los llamados ―grados de

libertad‖ del numerador y del denominador. Es decir, hay una F de Fisher con 1 gl

en el numerador y 10 gl en el denominador, etc.

Se puede demostrar que la distribución F equivale a una razón entre dos chi-

cuadrados; de ahí que hablemos en el caso de F de grados de libertad en el

numerador y en el denominador.

Luego si al calcular Fcalc obtenemos que calcF > 1,,1 tNtF

donde es un nivel de significación dado, deberemos de rechazar la hipótesis nula

(ya que si H0 fuese cierta, era de esperar que2

ES fuese pequeño en relación con

2

DS ).

Método reducido para el análisis de un factor

Vamos a resumir lo más importante de lo visto hasta ahora, indicando la forma más

sencilla de realizar el contraste. En primer lugar calculamos los siguientes

estadísticos a partir de la tabla de las observaciones en cada nivel:

N

xC

n

xB

xA

t

i i

i

n

j

ij

t

i

i

2

1

2

1

2

1

Page 123: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

123

ABN

ntxtntxt2xt1Nivel t

............

n2x2n2x22x21Nivel 2

n1x1n1x12x11Nivel 1

Cálculos al margenObservaciones de XNiveles

ABN

ntxtntxt2xt1Nivel t

............

n2x2n2x22x21Nivel 2

n1x1n1x12x11Nivel 1

Cálculos al margenObservaciones de XNiveles

1x1

2

1

n

x 1

1

2

1

n

j

jx

2x2

2

2

n

x 2

1

2

2

n

j

jx

txt

t

n

x2 tn

j

tjx1

2

x

Entonces las siguientes cantidades admiten una expresión muy sencilla:

1

1

2

2

N

SCDSBASCD

CASCT

t

SCESCBSCE

D

E

Calculamos:

2

2

D

Ecalc

S

SF

y dado el nivel de significación buscamos en una tabla de la distribución F de

Snedecor el valor

1,,1 tNtteo FF

rechazando H0 si Fcalc>Fteo, como se aprecia en la Figura

Page 124: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

124

Ejemplo

Se aplican 4 tratamientos distintos a 4 grupos de 5 cultivos, obteniéndose los

resultados de la tabla siguiente. Queremos saber si se puede concluir que todos los

tratamientos tienen el mismo efecto. Para ello vamos a suponer que estamos en

condiciones de aplicar el modelo de un factor.

A = 265N = 20

126484/522583641Tratamiento 4

2264/5-85-1-4-2-10Tratamiento 3

110484/5-225-7-4-5-4-2Tratamiento 2

71/515-1021-1Tratamiento 1

niObservacionesTrata

mientos

A = 265N = 20

126484/522583641Tratamiento 4

2264/5-85-1-4-2-10Tratamiento 3

110484/5-225-7-4-5-4-2Tratamiento 2

71/515-1021-1Tratamiento 1

niObservacionesTrata

mientos ixi

i

n

x2 in

j

ijx1

2

7x

5

1033B

20

49C

N

xC

n

xB

xA

t

i i

i

n

j

ij

t

i

i

2

1

2

1

2

1

N

xC

n

xB

xA

t

i i

i

n

j

ij

t

i

i

2

1

2

1

2

1

Page 125: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

125

Se rechaza la hipótesis de que los tratamientos tienen el mismo efecto en los tres grupos.

En conclusión, Fcalc>Fteo, como se observa arriba, por tanto se ha de rechazar la

igualdad de efectos de los tratamientos.

En la figura se representan las observaciones de cada nivel de tratamiento mediante

una curva normal cuyos parámetros se han estimado puntualmente a partir de las

observaciones. Obsérvese que las diferencias más importantes se encuentran entre

Los tratamientos 2 y 4. Esto motiva los contrastes de comparaciones múltiples (dos

a dos), para que, en el caso en que la igualdad de medias sea rechazada, se pueda

establecer qué niveles tuvieron mayor influencia en esta decisión.

Page 126: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

126

Consideraciones a los supuestos del modelo

El análisis de varianza es sensible a las propiedades estadísticas de los

términos de error aleatorio del modelo lineal.

Los supuestos tradicionales del ANAVA implican errores independientes,

normalmente distribuidos y con varianzas homogéneas para todas las

observaciones.

La verificación de los supuestos subyacentes se realiza en la práctica a través

de los predictores de los términos de error aleatorio que son los residuos

aleatorios asociados a cada observación.

El residuo asociado a la observación ij-ésima (simbolizados como ij) es la

diferencia entre el valor observado y el valor predicho por el modelo para

la respuesta en la unidad experimental ij-ésima.

A partir de los residuos y sus transformaciones se puede verificar el

cumplimiento de los supuestos de normalidad y homogeneidad de varianzas

mediante pruebas gráficas y/o formales (pruebas de adecuación del modelo)

Por lo general, en la práctica, los supuestos del ANAVA no se cumplen con exactitud. En

caso de que haya evidencia de faltas graves de cumplimiento de los supuestos, el modelo

y/o la estrategia de análisis podría no ser adecuado.

Normalidad

Q – Q plot:

seleccionando los residuos como variable de análisis, una de las técnicas más

usadas es construir un Q-Q plot normal. Mediante esta técnica se obtiene un

diagrama de dispersión de los residuos obtenidos versus los cuantiles teóricos

de una distribución normal. Si los residuos son normales y no hay otros defectos

del modelo, se alinearán sobre una recta a 45°.

Habiendo corrido un ANAVA y guardando los residuos, se debe seleccionar

del Menú GRÁFICOS de la barra de herramientas de InfoStat para realizar

un gráfico Q-Q plot (normal) usando como variable a los residuos del modelo.

Otro método de análisis y más formal es el de Shapiro-Wilks Modificado, seleccionando

los residuos como variable de análisis para obtener el estadístico W* de Shapiro-Wilks

modificado por Mahibbur y Govindarajulu (1997).

-252.40 -124.10 4.20 132.50 260.80 Cuantiles de una Normal(1.4211E-14,16301)

-252.40

-124.10

4.20

132.50

260.80 n= 20 r= 0.984 (RDUO_Rendimiento)

Cuantiles observados(RDUO_Rendimiento)

Page 127: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

127

Variable n Media D.E. W* p (una cola)

RDUO_Rendimiento 20 0.00 127.67 0.96 0.7824

Las hipótesis que se someten a prueba son:

H0: los residuos tienen distribución normal versus

H1: los residuos no tienen distribución normal

En este caso no hay evidencias para rechazar el supuesto de distribución normal

(p=0.7900).

Homogeneidad de varianza:

prueba de Levene

Se utiliza la prueba de Levene. Si bien esta prueba fue desarrollada para diseños

completamente aleatorizados, se puede extender su uso a modelos más complejos.

La prueba consiste en realizar un análisis de la varianza usando como variable

dependiente el valor absoluto de los residuos.

Este análisis se debe realizar con un modelo a una vía de clasificación.

Las hipótesis que se someten a prueba son:

H0: 12 = 2

2 = …= n

2

H1: Al menos dos varianzas son distintas donde i2 es la varianza del tratamiento i,

i=1,...,n.

Si el valor p del factor tratamiento de este ANAVA es menor al valor de

significación nominal se rechaza la hipótesis de varianzas homogéneas, caso

contrario el supuesto de igualdad de varianzas puede ser sostenido. InfoStat no

tiene implementada esta prueba como tal en la sección de las pruebas de hipótesis,

pero se puede construir fácilmente ya que se pueden guardar automáticamente los

valores absolutos de los residuos.

Análisis de la varianza (Levene)

Variable N R² R² Aj CV

RABS_Rendimiento 20 0.44 0.11 71.10

Cuadro de Análisis de la Varianza (SC tipo III)

F.V. SC gl CM F p-valor

Modelo 47492.34 7 6784.62 1.33 0.3150

Bloque 12265.80 3 4088.60 0.80 0.5154

Tratamiento 35226.54 4 8806.64 1.73 0.2076

Error 61022.36 12 5085.20

Total 108514.70 19

Page 128: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

128

Homogeneidad de varianza:

gráfico de dispersión

Cuando los errores son homocedásticos, haciendo un gráfico de dispersión de

residuos versus valores predichos se debe observar una nube de puntos sin patrón

alguno (patrón aleatorio).

Si el gráfico muestra estructura habrá indicios para sospechar sobre el

cumplimiento del supuesto.

Un patrón típico que indica falta de homogeneidad en las varianzas, se muestra

en la Figura 8 .

En este otro gráfico no se observa tendencia que indique falta de

cumplimiento del supuesto de homogeneidad de varianzas.

Independencia

Para verificar el supuesto de errores independientes, se realiza un gráfico de

dispersión de los residuos en función de la variable que se presume puede generar

dependencias sobre las observaciones.

1791.8 2211.3 2630.8 3050.2 3469.7

PRED_Rendimiento

-278.1

-136.9

4.2

145.3

286.5

RDUO_Rendimiento

Page 129: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

129

Una tendencia a tener agrupados residuos positivos y/o negativos indica la

presencia de correlación o falta de independencia.

En general, un buen proceso de aleatorización asegura el cumplimiento del

supuesto de independencia.

Ventajas y limitaciones del Análisis de la Varianza

El análisis de la varianza es una técnica estadística de contraste de hipótesis.

Tradicionalmente estas técnicas, conjuntamente con las técnicas de regresión lineal

múltiple, de las que prácticamente son una extensión natural, marcan el comienzo

de las técnicas multivariadas.

Con estas técnicas se manejan simultáneamente más de dos variables, y la

complejidad se incrementa proporcionalmente con el número de variables en juego.

El análisis de la varianza unifactorial es el modelo más simple:

una única variable nominal independiente, con tres o más niveles, explica

una variable dependiente continua.

Otra alternativa, que aparentemente es más lógica e intuitiva, consiste en comparar,

en todas las posibles combinaciones de dos en dos, las medias de todos los

subgrupos formados. Esto trae aparejado, dos tipos de problemas:

Se incrementa el riesgo de dar un resultado falso positivo, al realizar más de un

análisis sobre un mismo conjunto de datos.

Es difícil interpretar la verdadera influencia de la variable que actúa como factor de

clasificación, porque genera diferentes niveles de significación (p), resultantes de

las comparaciones entre sus subgrupos.

Mediante el ANAVA se eliminan estos inconvenientes. Con estas técnicas se

analiza globalmente la influencia de cada variable independiente, generándose un

único nivel de significación.

Con el ANAVA se puede analizar simultáneamente la influencia de dos o más

factores de clasificación (variables independientes) sobre una variable respuesta

continua. Esto se conoce como análisis factorial de la varianza.

El efecto de un factor puede añadirse al de otro factor (modelo aditivo) o bien

puede potenciarse (modelo multiplicativo).

En este último caso, aparece y se analiza un nuevo factor de interacción sobre la

variable respuesta, como resultado de la acción conjunta de dos o más factores.

Este posible efecto es detectado en el análisis de la varianza por la significación de

su estadístico de contraste correspondiente.

0.8 1.9 3.0 4.1 5.2 Tratamiento

-278.1

-136.9

4.2

145.3

286.5

RDUO_Rendimiento

Page 130: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

130

Las técnicas del ANAVA, basadas en la partición de la variabilidad (suma de

cuadrados) de la respuesta estudiada, sirven de base para el análisis de

distribuciones de datos generados, en diseños más complejos, como es el análisis

de covarianza.

En este último tipo de análisis se combinan variables explicativas discretas y

continuas. La variabilidad de la respuesta es analizada como en el análisis factorial

de la varianza, una vez que se ha eliminado la posible influencia de la o las

variables continuas explicativas.

Sería un análisis análogo al de la varianza de los residuales; esto es, se analizan los

residuos de la regresión en lugar de los datos iniciales.

Otros modelos más complejos son:

El análisis de medidas repetidas sobre las mismas unidades experimentales

El análisis de diseños cruzados

Análisis anidados

El análisis de la varianza factorial con información incompleta

otros

En el ANAVA se comparan medias, no varianzas: medias de los subgrupos o

estratos originados por los factores de clasificación estudiados.

En esta técnica, la hipótesis alternativa es múltiple, puesto que engloba diferentes

hipótesis, todas ellas referidas al hecho de que alguna de las medias de los estratos

sea diferente de las demás.

Cuando se alcanza la significación en alguno de los factores estudiados, es lógico

preguntarse cuál de las hipótesis alternativas es la que origina la significación. Esto

es equivalente a preguntarse qué media o medias son diferentes entre sí.

Estos enigmas se resuelven mediante procedimientos "a posteriori" para comparar

más de dos medias. Funcionan eficientemente, si previamente el factor en estudio

ha resultado significativo.

Comparaciones Múltiples

Pruebas a posteriori

Los diferentes métodos de hacer comparaciones múltiples se emplean sólo cuando

el resultado del ANAVA resulta significativo. En tal caso, se sabe que existen

diferencias entre las muestras, pero sin poder especificar entre cuales de ellas. Se

necesita, entonces, alguna forma de poder compararlas entre sí, y alcanzar así el

objetivo final del ANAVA.

Para analizar las diferencias de a pares. entre las medias de las distribuciones que

se comparan, es posible realizar una gran variedad de pruebas a posteriori o

pruebas de comparación múltiple

Comparaciones “a posteriori“: Son aquellas comparaciones no planificadas de

antemano. Surgen a partir de los datos experimentales, cuando el investigador

descubre diferencias inesperadas y quiere testearlas.

Para cualquier procedimiento elegido, el software permite definir el nivel de

significación nominal usado para la prueba seleccionada.

Page 131: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

131

Regresión y Correlación

Relaciones entre variables y regresión

• El término regresión fue introducido por Galton en su libro ―Natural inheritance‖

(1889) refiriéndose a la ―ley de la regresión universal‖:

– ―Cada peculiaridad en un hombre es compartida por sus descendientes, pero

en media, en un grado menor.‖

• Regresión a la media

– Su trabajo se centraba en la descripción de los rasgos físicos de los

descendientes (una variable) a partir de los de sus padres (otra variable).

– Pearson (un amigo suyo) realizó un estudio con más de 1000 registros de

grupos familiares observando una relación del tipo:

• Altura del hijo = 85cm + 0,5 altura del padre (aprox.)

• Conclusión: los padres muy altos tienen tendencia a tener hijos que

heredan parte de esta altura, aunque tienen tendencia a acercarse

(regresar) a la media. Lo mismo puede decirse de los padres muy

bajos.

• Hoy en día el sentido de regresión es el de predicción de una medida basándonos

en el conocimiento de otra.

Qué vamos a estudiar

• Vamos a tratar diferentes formas de describir la relación entre dos variables cuando

estas son numéricas.

– Estudiar si hay relación entre la altura y el peso.

• Haremos mención de pasada a otros casos:

– Alguna de las variables es ordinal.

• Estudiar la relación entre el sobrepeso y el dolor de espalda (ordinal)

– Hay más de dos variables relacionadas.

• ¿Conocer el peso de una persona conociendo su altura y contorno de

cintura?

Estudio conjunto de dos variables

• En la tabla tenemos una posible manera de recoger los datos obtenido observando

dos variables en varios individuos de una muestra.

– En cada fila tenemos los datos de un individuo

– Cada columna representa los valores que toma una variable sobre los

mismos.

Page 132: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

132

– Las individuos no se muestran en ningún orden particular.

• Dichas observaciones pueden ser representadas en un diagrama de dispersión

(‗scatterplot‘). En ellos, cada individuos es un punto cuyas coordenadas son los

valores de las variables.

• Nuestro objetivo será intentar reconocer a partir del mismo si hay relación entre las

variables, de qué tipo, y si es posible predecir el valor de una de ellas en función de

la otra.

Altura

en cm.

Peso en

Kg.

162 61

154 60

180 78

158 62

171 66

169 60

166 54

176 84

163 68

... ...

Diagramas de dispersión o nube de puntos

Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de

dispersión.

Relación entre variables

Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de

dispersión.

Page 133: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

133

Predicción de una variable en función de la otra.

Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea, el peso aumenta

en una unidad por cada unidad de altura.

Cómo reconocer relación directa e inversa.

Para valores de X por encima de la media tenemos valores de Y por encima y por debajo

en proporciones similares. Incorrelación.

Incorrelaciónn

30 80

130 180 230 280 330

140 150 160 170 180 190 200

Page 134: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

134

• Para los valores de X mayores que la media le corresponden valores de Y mayores

también.

• Para los valores de X menores que la media le corresponden valores de Y menores

también.

• Esto se llama relación directa o creciente entre X e Y.

Para los valores de X mayores que la media le corresponden valores de Y menores. Esto es

relación inversa o decreciente.

Cómo reconocer buena o mala relación

Dado un valor de X no podemos decir gran cosa sobre Y. Mala relación. Independencia.

Poca relación

30

80

130

180

230

280

330

140 150 160 170 180 190 200

Cierta relación

inversa

0

10

20

30

40

50

60

70

80

140 150 160 170 180 190 200

Fuerte relación

directa.

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Page 135: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

135

• Conocido X sabemos que Y se mueve por una horquilla estrecha. Buena relación.

• Lo de ―horquilla estrecha‖ hay que entenderlo con respecto a la dispersión que

tiene la variable Y por si sola, cuando no se considera X.

Covarianza de dos variables X e Y

• La covarianza entre dos variables, Sxy, nos indica si la posible relación entre dos

variables es directa o inversa.

– Directa: Sxy >0

– Inversa: Sxy <0

– Incorreladas: Sxy =0

• El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o

no, pero no nos dice nada sobre el grado de relación entre las variables.

))((1

yyxxn

S i

i

ixy

Coeficiente de correlación lineal de Pearson

• El coeficiente de correlación lineal de Pearson de dos variables, r, nos indica si los

puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas

horizontales y verticales).

Cierta relación

inversa

0

10

20

30

40

50

60

70

80

140 150 160 170 180 190 200

Fuerte relación

directa.

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Page 136: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

136

• tiene el mismo signo que Sxy por lo tanto de su signo obtenemos el que la posible

relación sea directa o inversa.

• r es útil para determinar si hay relación lineal entre dos variables, pero no servirá

para otro tipo de relaciones (cuadrática, logarítmica,...)

yx

xy

SS

Sr

Propiedades de r

• Es adimensional

• Sólo toma valores en [-1,1]

• Las variables son incorreladas r=0

• Relación lineal perfecta entre dos variables r=+1 o r=-1

– Excluimos los casos de puntos alineados horiz. o verticalmente.

• Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.

– Siempre que no existan observaciones anómalas.

Entrenando el ojo: correlaciones positivas

Page 137: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

137

r=0,1

30

80

130

180

230

280

330

140 150 160 170 180 190 200

r=0,4

30

40

50

60

70

80

90

100

110

120

130

140 150 160 170 180 190 200

r=0,6

30

40

50

60

70

80

90

100

110

140 150 160 170 180 190 200

r=0,8

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Casi perfectas y positivas

Page 138: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

138

r=0,930

40

50

60

70

80

90

100

140 150 160 170 180 190 200

r=1

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

r=0,99

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Correlaciones negativas

Page 139: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

139

r=-0,50

10

20

30

40

50

60

70

80

90

140 150 160 170 180 190 200

r=-0,70

10

20

30

40

50

60

70

80

140 150 160 170 180 190 200

r=-0,95

0

10

20

30

40

50

60

70

80

140 150 160 170 180 190 200

r=-0,999

0

10

20

30

40

50

60

70

80

140 150 160 170 180 190 200

Preguntas frecuentes

• ¿Si r=0 eso quiere decir que no las variables son independientes?

– En la práctica, casi siempre sí, pero no tiene

por qué ser cierto en todos los casos.

Page 140: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

140

– Lo contrario si es cierto: Independencia

implica incorrelación.

• Me ha salido r=1.2 ¿la relación es “superlineal”[sic]?

– ¿Superqué? Eso es un error de cálculo. Siempre debe tomar un valor entre -

1 y +1.

• ¿A partir de qué valores se considera que hay “buena relación lineal”?

– Es difícil dar un valor concreto (mirar los gráficos anteriores). Para este

curso digamos que si |r|>0,7 hay buena relación lineal y que si |r|>0,4 hay

cierta relación (por decir algo... la cosa es un poco más complicada:

observaciones anómalas,...)

Otros coeficientes de correlación

• Cuando las variables en vez de ser numéricas son ordinales, es posible preguntarse

sobre si hay algún tipo de correlación entre ellas.

• Disponemos para estos casos de dos estadísticos, aunque no los usaremos en clase:

– ρ (‗ro‘) de Spearman

– τ (‗tau‘) de Kendall

• No hay que estudiar nada sobre ellos en este curso. Recordar sólo que son

estadísticos análogos a r y que los encontraran en publicaciones donde las variables

no puedan considerarse numéricas.

Regresión

• El análisis de regresión sirve para predecir una medida en función de otra medida

(o varias).

– Y = Variable dependiente

• predicha

• explicada

– X = Variable independiente

Page 141: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

141

• predictora

• explicativa

– ¿Es posible descubrir una relación?

• Y = f(X) + error

– f es una función de un tipo determinado

– el error es aleatorio, pequeño, y no depende de X

• El ejemplo del estudio de la altura en grupos familiares de Pearson es del tipo que

desarrollaremos en el resto del tema.

– Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)

• Si el padre mide 200cm ¿cuánto mide el hijo?

– Se espera (predice) 85 + 0,5x200=185 cm.

» Alto, pero no tanto como el padre. Regresa a la

media.

• Si el padre mide 120cm ¿cuánto mide el hijo?

– Se espera (predice) 85 + 0,5x120=145 cm.

» Bajo, pero no tanto como el padre. Regresa a la

media.

• Es decir, nos interesaremos por modelos de regresión lineal simple.

Modelo de regresión lineal simple

• En el modelo de regresión lineal simple, dado dos variables

– Y (dependiente)

– X (independiente, explicativa)

• buscamos encontrar una función de X muy simple (lineal) que nos permita

aproximar Y mediante

– Ŷ = A + BX

• A (ordenada en el origen, constante)

• B (pendiente de la recta)

• Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión. A la

cantidad

– e=Y-Ŷ se le denomina residuo o error residual.

• En el ejemplo de Pearson y las alturas, él encontró:

– Ŷ = A + BX

• A=85 cm (No interpretar como altura de un hijo cuyo padre mide 0

cm ¡Extrapolación salvaje!

• B=0,5 (En media el hijo gana 0,5 cm por cada cm del padre.)

Page 142: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

142

• La relación entre las variables no es exacta. Es natural preguntarse entonces:

– Cuál es la mejor recta que sirve para predecir los valores de Y en función

de los de X

– Qué error cometemos con dicha aproximación (residual).

• El modelo lineal de regresión se construye utilizando la técnica de estimación

mínimo cuadrática:

– Buscar A, B de tal manera que se minimice la cantidad

• Σi ei2

• Se comprueba que para lograr dicho resultado basta con elegir:

• Se obtiene además unas ventajas ―de regalo‖

– El error residual medio es nulo

– La varianza del error residual es mínima para dicha estimación.

xByAxn

yxnxyB

x22

• Traducido: En término medio no nos equivocamos. Cualquier otra

estimación que no cometa error en término medio, si es de tipo

lineal, será peor por presentar mayor variabilidad con respecto al

error medio (que es cero).

• Que el error medio de las predicciones sea nulo no quiere decir que las

predicciones sean buenas.

• Hay que encontrar un medio de expresar la bondad del ajuste (bondad de la

predicción)

Page 143: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

143

¿Cómo medir la bondad de una regresión?

Imaginemos un diagrama de dispersión, y vamos a tratar de comprender en primer lugar

qué es el error residual, su relación con la varianza de Y, y de ahí, cómo medir la bondad

de un ajuste.

Interpretación de la variabilidad en Y

En primer lugar olvidemos que existe la variable X. Veamos cuál es la variabilidad en el

eje Y.

La franja sombreada indica la zona donde varían los valores de Y. Proyección sobre el eje

Y = olvidar X

Interpretación del residuo

Fijémonos ahora en los errores de predicción (líneas verticales). Los proyectamos sobre el

eje Y.

Se observa que los errores de predicción, residuos, están menos dispersos que la variable Y

original.

Cuantos menos dispersos sean los residuos, mejor será la bondad del ajuste.

Page 144: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

144

Bondad de un ajuste

Resumiendo:

• La dispersión del error residual será una fracción de la dispersión original

de Y

• Cuanto menor sea la dispersión del error residual

mejor será el ajuste de regresión.

Eso hace que definamos como medida de bondad de un ajuste de regresión, o coeficiente

de regresión a:

2

22 1

Y

e

S

SR

22

Ye S S

• La bondad de un ajuste de un modelo de regresión se mide usando el coeficiente de

determinación R2

• R2 es una cantidad adimensional que sólo puede tomar valores en [0, 1]

– Para el alumno astuto: ¿por qué?

• Cuando un ajuste es bueno, R2 será cercano a uno.

– ¿por qué?

• Cuando un ajuste es malo R2 será cercano a cero.

– ¿por qué?

Page 145: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

145

Otros modelos de regresión

• Se pueden considerar otros tipos de modelos, en función del aspecto que presente

el diagrama de dispersión (regresión no lineal)

• Incluso se puede considerar el que una variable dependa de varias (regresión

múltiple).

¿recta o parábola?

140 150 160 170 180 190 200

¿recta o cúbica?

140 150 160 170 180 190 200

Page 146: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

146

Modelos de análisis de regresión

1 variable explicativa 2+ variables

explicativas

No ajustaremos modelos a mano. Usaremos para ello un software Estadístico (ej. InfoStat).

Repaso

• Estos métodos se emplean para conocer las relaciones y significación entre series

de datos.

• Cuando, simultáneamente, contemplamos dos variables continuas, aunque por

extensión se pueden emplear para variables discretas cuantitativas, surgen

preguntas y problemas específicos.

Regresión Lineal

• El establecimiento de una correlación entre dos variables es importante, pero esto

se considera un primer paso para predecir una variable a partir de la otra. (U otras,

en el caso de la regresión múltiple)

• Claro está, si sabemos que la variable X está muy relacionada con Y, ello quiere

decir que podemos predecir Y a partir de X. Estamos ya en el terreno de la

predicción. (Evidentemente si, X no está relacionada con Y, X no sirve como

predictor de Y)

El tema básico en regresión (con 2 variables) es ajustar los puntos del diagrama de

dispersión de las variables X e Y. Para simplificar, nos centraremos especialmente (por

simplicidad) en el caso de que la relación entre X e Y sea lineal.

Modelos de

regresión

Simple Múltiple

Lineal No lineal Lineal No lineal

Page 147: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

147

Claro está, el tema ahora es cómo conseguir cuál es la ―mejor‖ línea que parece unir los

puntos. Necesitamos para ello un criterio. Si bien hay otros criterios, el más empleado

comúnmente, y el que veremos aquí, es el criterio de mínimos cuadrados.

Recordar: Que el criterio de mínimos cuadrados, es aquel que minimiza las distancias

cuadráticas de los puntos con la línea.

Repaso de la ecuación de una recta

Y=A+BX

A es la ordenada en el origen (es donde la recta corta el eje Y)

B es la pendiente (observad que en el caso de las relaciones positivas, B será positivo; en

el caso de las relación negativas, B será negativo; si no hay relación, B será

aproximadamente 0)

Si queremos predecir Y a partir de X, necesitamos calcular (en el caso de relación lineal) la

recta de regresión de Y sobre (a partir de) X.

El criterio de mínimos cuadrados nos proporciona un valor de A y uno de B, tal que

rendimiento

inteligencia

rendimiento

inteligencia

Page 148: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

148

2

'

1

n

i i

i

Y Y

sea mínimo

CI (X) Rendim (Y)

120 10

100 9

90 4

110 6

La recta por mínimos cuadrados es:

Y‘=-8,5+0,15X

2

'

1

n

i i

i

Y Y

es mínimo

Esa expresión vale 11,5 en nuestro caso

Rendimiento (Y)

Inteligencia (X)

Y’

Page 149: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

149

Observar....

-Cada unidad de CI hace aumentar 0,15 la nota.

-Aunque en este caso, lo siguiente no tiene sentido, una persona con CI de 0, sacaría un -

8,5

Ordenada origen

A Y BX

Pendiente

2 2

XY nXYB

X nX

Nota: Tanto A como B se pueden obtener fácilmente en cualquier calculadora con opción

“LR” (Linear Regression)

X Y XY X2

suj1 120 10 1200 14400

suj2 100 9 900 10000

suj3 90 4 360 8100

suj4 110 6 660 12100

4 SUMA SUMA

3120 44600

PROMEDIO PROMEDIO

105 7.25

N

4

Page 150: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

150

2

3120 4 105 7 '250 '15

44600 4 105B

7'25 0'15 105 8'5A

Luego

Y‘=-8,5+0,15X

Errores de Predicción

Los errores de predicción en la recta de regresión de Y sobre X

Puntuaciones observadas iY

Puntuaciones predichas iY

Error de predicción

con la recta de

regresión de Y sobre X i i

Y Y

La cuestión ahora en cuánto se reduce la varianza al emplear la recta de regresión de Y

sobre X (es decir, teniendo X como predictor) en comparación con el caso en que no

tuviéramos la recta de regresión

Si no tuviéramos el predictor X, ¿qué puntuación prediríamos para las puntuaciones de Y?

En tal caso, dado el criterio de mínimos cuadrados, si tenemos datos en Y y

carecemos de datos en X, nuestra mejor estimación de Y será su media

Recordemos que la media minimiza el sumatorio de las diferencias

Cuadráticas

2( )Y Yes mínimo

Si empleamos la media como predictor, la varianza de las predicciones será

2

2( )

y

Y Ys

n

Page 151: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

151

Pero si tenemos un predictor X, la varianza será

2

2

.

( )i i

y x

Y Ys

n Esta es la varianza de Y no explicada por X

Se puede demostrar que

2 2 2

. (1 )y x y xys s r

Que despejando sale

2

.2

21

y x

xy

y

sr

s

¿Cuán buena es la predicción de la recta de regresión? El coeficiente de regresión como

índice de la bondad de ajuste de nuestro modelo (la recta de regresión)

Acabamos de mostrar que

2

.2

21

y x

xy

y

sr

s

2

xyrEs el llamado coeficiente de regresión y permite conocer cuán bueno es el ajuste de

la recta de regresión (o en general del modelo lineal). Está acotado entre 0 y 1.

Si todos los puntos del diagrama de dispersión están sobre la recta (con pendiente diferente

de 0),

2

.y xsentonces será 0, y el coeficiente de determinación será 1

Cuanto más se alejen los puntos de la recta de regresión, mayor será el valor de

2

.y xs

el valor del coeficiente de regresión será menor y menor.

El coeficiente de regresión y la proporción de varianza

asociada/explicada/común

Page 152: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

152

Empecemos con una tautología

( )i i i iY Y Y Y

Esta expresión indica que la puntuación observada por el sujeto i-ésimo es igual a la

puntuación predicha para dicho sujeto más un error de predicción.

Se puede demostrar que las puntuaciones predichas y los errores de predicción son

independientes, con lo que podemos señalar

2 2 2

' .y y y xs s s

2

ysVarianza total de Y

2

'ysVarianza de las puntuaciones de Y predichas por el predictor X

2

.y xsVarianza de los errores de predicción (varianza no explicada por X)

De lo dicho anteriormente, tenemos

2 2 2

' .y y y xs s s

Y sabíamos que 2

.2

21

y x

xy

y

sr

s

luego

2 2 2

. ´2

2 2

y y x y

xy

y y

s s sr

s s

En definitiva, el coeficiente de regresión mide la proporción de la varianza de Y que está

asociada/explicada por el predictor X

El coeficiente de regresión y la reducción del error en la estimación

Ya hemos dicho antes, que en caso de no tener el predictor X, la mejor predicción que

podemos dar de un dato cualquiera en Y será la propia media de Y. Por lo tanto el error

cuadrático promedio en la estimación será la varianza TOTAL de Y

Page 153: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

153

Pero si tenemos el predictor X, predecimos con la recta de regresión Y‘ y ahora el error

cuadrático promedio en la estimación de los valores de Y será

2

ys

Como sabemos que

2

.y xs

2 2 2

' .y y y xs s s

Podemos despejar

2 2 2

' .y y y xs s s

Esto quiere decir que al emplear la recta de regresión para efectuar las estimaciones de Y

se reduce el error de estimación en una cantidad igual a

2

'ys

Puesto que sabemos que

2

´2

2

y

xy

y

sr

s

El coeficiente de regresión representa la proporción en que se reduce el error de estimación

que se hubiera cometido al emplear como estimador Y

Por ejemplo, un coeficiente de regresión de 0,16 quiere decir que el emplear la recta de

regresión reduce el error en los pronósticos un 16% respecto al caso de que hubiéramos

adjudicado la media aritmética de Y a cada dato de la variable predicha.

Ejemplo

• Para estudiar la relación entre la biomasa y el pH en un medio de cultivo, se midió

la biomasa (gr) para valores de pH entre 3 y 7 registrándose 45

mediciones.

• Los datos se encuentran en el archivo RegLin.

• Se tomó como Variable dependiente a la biomasa y como Variable regresora al

pH. El siguiente gráfico muestra el comportamiento de las variables.

Page 154: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

154

El diagrama indicaría que hay una relación positiva entre la biomasa y el pH. Solicitando

el análisis de regresión se obtuvieron los siguientes resultados

• Como puede verse, en la tabla del análisis de la varianza, hay relación

lineal entre la biomasa y el pH (p<0.0001).

• También se observa que el modelo propuesto no presenta falta de ajuste

(p=0.4348).

• Tomando la información sobre los coeficientes de regresión se puede escribir la

ecuación del modelo ajustado:

Y= a+bx = 313.95 + 95.56x

• Esta recta permite estimar el valor de y (valor predicho) para un valor de

x. El modelo ajustado puede ser usado con fines predictivos; por ejemplo, para un

pH de 3.5 la biomasa esperada es:

Y= 313.95 + 95.56 (3.5)= 648.2 gr

2.80 3.90 5.00 6.10 7.20

pH

532.80

653.29

773.77

894.25

1014.74

Biomasa

Page 155: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

155

Diagrama de dispersión con bandas de confianza y de predicción

En la figura anterior la línea central corresponde al modelo ajustado, las líneas

siguientes corresponden a las bandas de confianza y las líneas externas a las bandas de

predicción.

Validación de los supuestos

Normalidad:

Obsérvese que en el Q-Q plot fue realizado con los residuos del modelo de

regresión y usando como distribución teórica la Normal. Los puntos se disponen en una

recta a 45º indicando que el supuesto distribucional para los residuos se cumple.

Realizando la prueba se Shapiro-Wilks (modificada) en el menú INFERENCIA

BASADA EN UNA MUESTRA se concluye que los datos siguen una distribución

normal (p=0.8327).

2.80 3.90 5.00 6.10 7.20 pH

521.43

656.95

792.48

928.01

1063.53

-64.87 -31.48 1.92 35.31 68.70 Cuantiles de una Normal

-64.87

-31.48

1.92

35.31

68.70 n= 45 r= 0.993 (RDUO_Biomasa)

Cuantiles observados(RDUO_Biomasa)

Biomasa

Page 156: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

156

Homocedasticidad:

puede verse que los puntos para los valores de pH más altos presentan menor dispersión

que el resto, razón por la cual una prueba formal de homogeneidad de varianzas sería

recomendable.

Correlación lineal

Es posible, que estudiando una variable bidimensional, no se desee establecer ninguna

relación de subordinación de una variable con respecto a la otra. En este supuesto, se

intenta cuantificar la asociación entre las dos características.

• Entramos en las técnicas de correlación lineal.

• Es posible definir otro estadístico muestral a partir del las dos pendientes teóricas

de las dos posibles rectas de regresión (y) sobre(x) y de (x) sobre (y).

• Este estadístico es el coeficiente de correlación r. Su cuadrado r2 es el coeficiente

de determinación y da una medida entre 0 y 1 de la cantidad de información

compartida por dos características o variables continuas en los datos muestrales.

• La magnitud de la asociación entre dos variables continuas está en relación con la

dispersión de la nube de puntos. Se puede establecer una relación matemática

perfecta entre la desviación típica de los residuos y el coeficiente de determinación.

• El hecho de que dos variables estén correlacionadas, e incluso que lo estén con

valores muy cercanos a 1, no implica que exista una relación de causalidad entre

ellas. Se pueden producir correlaciones espurias (causales) entre dos variables, por

estar ambas relacionadas con otra tercera variable continua y anterior en el tiempo.

• Los nuevos estadísticos generados en la regresión y correlación lineal se emplean

como estimadores de los correspondiente parámetros poblacionales.

• Para que los coeficientes de la regresión y correlación sean estimadores adecuados

(centrados y de mínima varianza) de sus correspondientes parámetros

581.52 686.63 791.74 896.86 1001.97 PRED_Biomasa

-2.49

-1.21

0.07

1.35

2.63

RE_Biomasa

Page 157: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

157

poblacionales, es necesario que se asuman ciertas condiciones en la población de

origen, referidas fundamentalmente a las distribuciones de los residuos:

• Que la media de los residuos sea cero.

• Que su varianza sea similar (homogénea) a lo largo de la variable (x):

homocedasticidad.

• Que estén normalmente distribuidos

Ejemplo

• En un experimento sobre crecimiento de una maleza se utilizan 20 unidades

experimentales consistentes en bandejas sembradas con 40 semillas al

comienzo de la experiencia. Se registra el número de semillas germinadas y al

cabo de un cierto tiempo en todas se obtiene un indicador del área foliar y la

biomasa total. Se pretende estudiar las correlaciones de biomasa con área foliar y

número de semillas germinadas, en un sistema donde la biomasa es considerada

como variable dependiente. Los datos se encuentran en el archivo Sendero.

Coeficientes de Sendero (Path Analysis)

Variable dependiente: Biomasa

Efecto Via Coeficientes p-valor

SemGerm Directa 0.78168

SemGerm AreaFoliar -0.02020

r total 0.76148 0.00010

AreaFoliar Directa 0.03017

AreaFoliar SemGerm -0.52326

r total -0.49308 0.02717

La correlación entre biomasa y área foliar es significativa (r=-0.49, p=0.03) y está

fuertemente determinada (-0.52) por la correlación entre biomasa y semillas germinadas.

La correlación directa entre biomasa y semillas germinadas es alta y significativa

(r=0.78, p<0.0001).

Pearson

Correlación de Pearson: coeficientes\probabilidades

Biomasa SemGerm AreaFoliar

Biomasa 1.00000 0.00010 0.02717

SemGerm 0.76148 1.00000 0.00125

AreaFoliar -0.49308 -0.66940 1.00000

Regresión múltiple

Hemos visto el caso de un predictor (X) y una variable predicha (Y), y obtenido la recta de

regresión de Y sobre X por el procedimiento de mínimos cuadrados.

Dada la naturaleza del comportamiento humano, en el que cada conducta observada puede

ser influida por diferentes variables, resulta más ―ecológico‖ examinar no ya cuán bueno

es un predictor X para predecir Y, sino más bien tendremos varios predictores X1, X2, ....,

Page 158: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

158

para predecir Y (o si se quiere, varios predictores, X2, X3,...., para predecir X1). Es el caso

de la regresión múltiple.

Hasta ahora teníamos:

Y= A + BX

Ahora tendremos k predictores:

kk XBXBXBAX ...33221

X1= ―criterio‖, variable a predecir, variable ―dependiente‖

X2, X3= variables predictoras

Es importante tener en cuenta que las ponderaciones B2, B3, ..., son análogas a las que

vimos en el caso de la recta de regresión simple.

Al igual que ocurría en la recta de regresión (fijarse que el caso de 1 predictor es un caso

particular de la regresión múltiple), A representa el lugar donde el hiperplano de regresión

múltiple corta el eje de la variable predicha.

En puntuaciones directas, la ecuación de regresión es la que sabemos

kk XBXBXBAX ...33221

En puntuaciones diferenciales, recordad que A valía 0 en la recta de regresión; lo mismo se

aplica en la ecuación de regresión.

kk xbxbxbx ...33221

Y aplicando la misma lógica, el valor de los pesos es el mismo que el que teníamos en

puntuaciones directas

b2=B2

b3=B3 etc

Resumen del modelo

.904a .817 .634 1.744

Modelo

1

R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación

Variables predictoras: (Constante), NEURO, ANSIEa.

Datos (N=5) Rendim Ansied Neurot 9 3 5 3 12 15 6 8 8 2 9 7 7 7 6

Page 159: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

159

904,023.1R

Como en el caso de un predictor:

2

2

`2

23.1

1

1

x

x

S

SR

Series de Tiempo

Anteriormente se planteó el análisis de regresión como una herramienta para la

elaboración de modelos y predicción. Ahora se presentará un método cuantitativo de

elaboración de pronósticos, llamado método de series de tiempo. Los métodos de

elaboración de pronóstico básicamente se agrupan en métodos cualitativos y métodos

cuantitativos. Los métodos cualitativos son altamente subjetivos y de criterio, son

importantes cuando no se cuenta con información histórica como pro ejemplo en el caso en

que se quiere predecir las ventas de un producto nuevo. Los métodos cuantitativos por su

parte, se pueden subdividir en series de tiempo y causales. Los causales incluyen la

determinación de factores que se relacionan con la variable a predecir. En tanto los

métodos de series de tiempo incluyen las proyecciones de valores futuros de una variable,

basada completamente en observaciones pasadas.

La suposición básica que subyace en el análisis de series de tiempo es que los factores que

han ocasionado patrones de actividad en el pasado y en el presente continuarán haciéndolo,

más o menos de la misma forma, en el futuro. Por consiguiente, los principales objetivo

del análisis de series de tiempo consiste en identificar y aislar tales factores de influencia

con propósitos de hacer predicciones (pronósticos), así como para efectuar una planeación

y un control administrativo.(Berenson y Levine).

Definición de serie de tiempo

Una definición de serie de tiempo adecuada es la que proporciona el autor G.S. Maddala.,

quien define una serie de tiempo como una secuencia de datos numéricos cada uno de los

cuales se asocia con un instante específico de tiempo. Es decir, observaciones de una

misma variable en tiempos t1, t2, t3, ..., tT.

Se dice que una serie de tiempo observada es continua cuando las observaciones se toman

continuamente en el tiempo, y se denota, por ejemplo, Y(t), 0 ≤ t ≤ T. Se dice que una serie

Coeficientesa

11.288 2.221 5.082 .037

-1.139 .510 -1.293 -2.233 .155

.365 .421 .502 .868 .477

(Constante)

ANSIED

NEUROT

Modelo

1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizad

os

t Sig.

Variable dependiente: RENDIMa.

Page 160: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

160

de tiempo observada es discreta cuando las observaciones se toman sólo en momentos

específicos, usualmente equiespaciados, y se denota a la serie, por ejemplo, por Yt, t = 0, 1,

2, 3, ..., T. Desde un punto de vista teórico una serie de tiempo es una colección de

variables aleatorias ordenadas con respecto al tiempo, que recibe el nombre de proceso

estocástico (proceso relativo al azar).

Como ejemplos de series de tiempo discretas y equiespaciadas se pueden mencionar,

precios de acciones en sucesivos días, totales de exportación en sucesivos meses, ventas

semanales, mensuales o anuales de un comercio particular, lluvias caídas diariamente,

temperatura del aire medida en sucesivas horas, días o meses, población de un país en

forma anual, índice de precio al consumidor, y el producto bruto interno (PBI).

Descomposición de una serie de tiempo

Se puede pensar que una serie de tiempo está formada por varias componentes que

obedecen a causas diferentes. Estas componentes son la componente de tendencia (T), la

componente estacional (S), la componente cíclica (C) y la componente irregular (I), más

un término aleatorio. En términos matemáticos esto se puede expresar como:

Se definen a cada una de las componentes como

Tendencia:

Movimiento suave, de ―largo plazo‖, generalmente asociado a causas estructurales del

fenómeno en estudio; como aumento o disminución de la población, cambios en las

condiciones económicas, mejora en la organización económica, política y social, efectos

de cambios en cuestiones de salud, educación, seguridad social, entre otros. Los efectos de

la tendencia se notan en lapsos largos con relación al período de observación. Una

dificultad que se plantea, es decir qué se entiende por largo plazo. Por ejemplo, variables

climáticas algunas veces exhiben variaciones cíclicas sobre un período de tiempo muy

largo, tal como 50 años. Si solo se tiene 20 años de datos, esta oscilación a largo plazo

podría parecer parte de una tendencia, pero si se dispusiera de cientos de años, la

oscilación a largo plazo sería visible. Sin embargo en un período corto podría ser más útil

pensar en una oscilación a largo plazo como una tendencia. Así al hablar de tendencia

debemos tener en cuenta el número de observaciones disponibles y hacer una evaluación

subjetiva del término largo plazo.

Ciclo:

Oscilación casi periódica que dura 3, 5, 11, 13, etc. años originada por diversas causas.

Algunas series de tiempo exhiben variaciones con períodos fijos debidas a causas físicas,

como el caso de las variaciones diarias de temperatura. Otras exhiben oscilaciones que no

tienen un período fijo, pero que pueden ser predecibles, frecuentemente observado en

series económicas.

Estacionalidad:

Movimientos recurrentes, intra anuales, periódicos o aproximadamente periódicos debido a

causas como sucesión de estaciones, presencia de temporadas o festividades anuales. Se

puede decir entonces, que las fluctuaciones estacionales son aquellas que aparecen de una

manera recurrente y con periodicidad anual.

Page 161: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

161

Irregular:

Movimientos recurrentes que responden a una acumulación de causas, o que no tienen una

causa específica.

Para fijar ideas se presenta el siguiente ejemplo, extraído del libro de series de tiempo de

Box y Jenkins.

Ejemplo:

la serie a considerar es ―Cantidad de pasajeros en las líneas aéreas internacionales‖,

durante el período comprendido entre enero de 1949 y diciembre de 1961, son totales

mensuales, representados en miles de pasajeros. Estos datos fueron procesados con el

programa X- 11 ARIMA del ―Bureau of the Census‖, y los gráficos que se muestran a

continuación son los resultados de las estimaciones obtenidas por este programa En la

Figura 1 se representa la serie originaria. Se puede ver que esta serie tiene una marcada

tendencia ascendente, y además existen oscilaciones dentro de los años, que si bien tienen

aproximadamente la misma forma, la amplitud de las mismas se hace más grande a través

de los años. Esto lleva a pensar en que la serie tiene además de una componente de

tendencia una componente estacional. Al observar este gráfico hay que tener presente que

no se pueden hacer comparaciones de la cantidad de pasajeros de las líneas aéreas

internacionales, en pares de meses arbitrarios, por ejemplo, julio de 1960 con junio o

marzo del mismo año y concluir que hay mayor cantidad de personas que viajan en julio

que en marzo, ya que este aumento se puede haber debido al efecto estacional y no a la

realidad. Por lo tanto es importante hacer un estudio de cada una de las componentes y de

la serie sin estacionalidad

1 .Cantidad de pasajeros en las líneas aéreas internacionales. Serie ordinaria mensual

El gráfico 2 muestra las estimaciones de la componente tendencia-ciclo en donde se ve un

marcado aumento de la tendencia. Este aumento puede deberse entre otras cosas, por

ejemplo, al aumento de consumo per cápita, a una baja en los precios de los boletos de

avión, al aumento de la población.

A partir de este gráfico se pueden comparar los niveles de pasajeros de dos meses, por

ejemplo julio de 1950 con julio de 1949, y decir que la cantidad de pasajeros en las líneas

aéreas internacionales en julio de 1950 era mayor que en julio de 1949, no se conoce la

cantidad pero si se puede ver que hay un aumento de un año a otro.

Page 162: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

162

2. Cantidad de pasajeros en las líneas aéreas internacionales. Tendencia ciclo final.

El gráfico 3 de período completo y la Figura 4 (se grafica una porción del período)

representan las oscilaciones dentro de los años o intraanuales, o sea los factores

estacionales estimados. Se puede observar que hay picos para todos los años en los meses

de junio, julio y agosto, que coincide con las vacaciones de verano, y que es la época de

temporada alta para las líneas aéreas internacionales europeas. Se puede observar también,

un valle en los meses de enero y febrero, época considerada como temporada baja. Es

decir, estas fluctuaciones pueden deberse a la presencia de temporada alta y baja en los

datos. Otro pico se produce, todos los años, para los meses de marzo y abril, que puede

deberse al efecto Pascua.

Es importante entonces, eliminar estos efectos de los datos para poder observar el

verdadero comportamiento de los mismos.

3. Cantidad de pasajeros en las líneas aéreas internacionales.

Factores estacionales finales. Período completo

Page 163: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

163

4 .Cantidad de pasajeros en las líneas aéreas internacionales.

Factores estacionales finales. Período Enero de 1949 a Diciembre de 1951

La Figura 5 representa la serie ajustada por estacionalidad, donde no está presente la

componente estacional pero si la componente de tendencia. Con esta serie se pueden hacer

comparaciones de la cantidad de pasajeros que han viajado en cualquier par de meses, y no

tan solo conocer por ejemplo que en julio de 1950 viajan mas que en julio de 1949 sino

también conocer la cantidad.

5. Cantidad de pasajeros en las líneas aéreas internacionales. Serie

ajustada estacionalmente.

Esta serie es la que hay que tener en cuenta para hacer comparaciones entre meses. Muy a

menudo se encuentra en periódicos que se compara el valor de una serie en un mes con el

o los meses precedentes sin tener mayor cuidado, y esto es de mayor riesgo, ya que un mes

de temporada alta es en general, mayor que un mes de temporada baja.

Page 164: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

164

En resumen se espera:

o Poder conocer las componentes de una serie de tiempo para analizar la

estructura de cada una de ellas por separado.

o Poder hacer comparaciones de un mismo mes en distintos años (niveles de

tendencia).

o Poder hacer comparaciones de cualquier par de meses (serie estimada por

estacionalidad).

o Usar las estimaciones de las componentes para predecir el comportamiento

futuro de la serie.

Page 165: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

165

Pruebas No Paramétricas

Hasta ahora todas las técnicas utilizadas para realizar algún tipo de inferencia exigían:

bien asumir de ciertas hipótesis como la aleatoriedad en las observaciones que

componen la muestra, o la normalidad de la población, o la igualdad de varianzas

de dos poblaciones, etc;

o bien, la estimación de cualquier parámetro como la media, varianza, proporción,

etc, de la población.

El conjunto de estas técnicas de inferencia se denominan técnicas paramétricas. Existen sin

embargo otros métodos paralelos cuyos procedimientos no precisan la estimación de

parámetros ni suponer conocida ninguna ley de probabilidad subyacente en la población de

la que se extrae la muestra. Estas son las denominadas técnicas no paramétricas o

contrastes de distribuciones libres, algunos de los cuales desarrollamos a continuación. Sus

mayores atractivos residen en que:

Son más fáciles de aplicar que las alternativas paramétricas;

Al no exigir ninguna condición suplementaria a la muestra sobre su proveniencia

de una población con cierto tipo de distribución, son más generales que las

paramétricas, pudiéndose aplicar en los mismos casos en que estas son válidas.

Por otro lado, esta liberación en los supuestos sobre la población tiene inconvenientes. El

principal es la falta de sensibilidad que poseen para detectar efectos importantes. En las

técnicas no paramétricas juega un papel fundamental la ordenación de los datos, hasta el

punto de que en gran cantidad de casos ni siquiera es necesario hacer intervenir en los

cálculos las magnitudes observadas, más que para establecer una relación de menor a

mayor entre las mismas, denominadas rangos.

Aleatoriedad de una muestra: Test de rachas

A veces al realizar un muestreo, puede llegar a influir el orden temporal o espacial en que

las muestras han sido elegidas, con lo cual no estamos en las condiciones de un muestreo

aleatorio simple, ya que la ley de probabilidad varía de una observación a otra. Como

ilustración obsérvese la figura adjunta. También podemos denominar a este contraste como

test de independencia de las observaciones de una muestra.

Page 166: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

166

Consideremos una muestra de tamaño n que ha sido dividida en dos categorías y con

n1 y n2 observaciones cada una. Se denomina racha a una sucesión de valores de la misma

categoría. Por ejemplo si estudiamos una población de personas podemos considerar como

categoría el sexo

En función de las cantidades n1 y n2 se espera que el número de rachas no sea ni muy

pequeño ni muy grande.

Si las observaciones son cantidades numéricas estas pueden ser divididas en dos categorías

que poseen aproximadamente el mismo tamaño ( n1 = n2 ±1), si consideramos la mediana

de las observaciones como el valor que sirve para dividir a la muestra:

Se define la v.a. R como el número de rachas. Su distribución está tabulada para los casos

y (tabla 7 de Downie). La aleatoriedad en la extracción de la muestra se

rechaza cuando ó

Aproximación normal del test de rachas

Si el tamaño de cualquiera de las dos muestras es mayor que 30, la distribución de R se

aproxima a una normal de media:

Y varianza:

Y se considera el estadístico:

Se rechaza la hipótesis nula (aleatoriedad) si

Page 167: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

167

Normalidad de una muestra: Test de D'Agostino

Consideremos n observaciones, las cuales ordenamos de menor a mayor y les asignamos

su rango en función de este orden

Se calculan sobre la muestra la media, la desviación típica un estadístico T y por último el

estadístico del contraste D cuya distribución está tabulada

En la tabla de la distribución del estadístico de D'Agostino, D, para un nivel de

significación , se busca un intervalo de modo que si se

rechaza la normalidad y en otro caso se asume. Para realizar este test es necesario que al

menos .

Contraste de Wilcoxon para muestras apareadas

El contraste de Wilcoxon es la técnica no paramétrica paralela a el de la T de Student para

muestras apareadas. Igualmente dispondríamos de n parejas de valores (xi,yi) que podemos

considerar como una variable medida en cada sujeto en dos momentos diferentes.

El test de Wilcoxon, al igual que los otros contrastes no paramétricos puede realizarse

siempre que lo sea su homólogo paramétrico, con el inconveniente de que este último

detecta diferencias significativas en un de casos que el de la de Student.

Sin embargo a veces las hipótesis necesarias para el test paramétrico (normalidad de las

diferencias apareadas, di) no se verifican y es estrictamente necesario realizar el contraste

que presentamos aquí. Un caso muy claro de no normalidad es cuando los datos pertenecen

a una escala ordinal.

El procedimiento consiste en:

1. Ordenar las cantidades de menor a mayor y obtener sus rangos.

2. Consideramos las diferencias di cuyo signo (positivo o negativo) tiene menor frecuencia

(no consideramos las cantidades di=0) y calculamos su suma, T

Page 168: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

168

Del mismo modo es necesario calcular la cantidad T', suma de los rangos de las

observaciones con signo de di de mayor frecuencia, pero si hemos ya calculado T la

siguiente expresión de T' es más sencilla de usar

T' = m(n+1)-T

donde m es el número de rangos con signo de di de menor frecuencia.

3. Si T ó T' es menor o igual que las cantidades que aparecen en la tabla de Wilcoxon, se

rechaza la hipótesis nula del contraste

Aproximación normal en el contraste de Wilcoxon

Si la distribución de T admite una aproximación normal

donde

por lo que el estadístico

da como criterio el rechazar H0 si .

Contraste de Kruskal-Wallis

El contraste de Kruskall-Wallis es la alternativa no paramétrica del método ANOVA, es

decir, sirve para contrastar la hipótesis de que k muestras cuantitativas han sido obtenidas

de la misma población. La única exigencia versa sobre la aleatoriedad en la extracción de

las muestras, no haciendo referencia a ninguna de las otras condiciones adicionales de

homocedasticidad y normalidad necesarias para la aplicación del test paramétrico

ANOVA.

De este modo, este contraste es el que debemos aplicar necesariamente cuando no se

cumple algunas de las condiciones que se necesitan para aplicar dicho método.

Al igual que las demás técnicas no paramétricas, ésta se apoya en el uso de los rangos

asignados a las observaciones.

Para la exposición de este contraste, supongamos que tenemos k muestras representadas en

una tabla como sigue:

Page 169: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

169

Niveles Observaciones de X

Nivel x11 x12 x1n1

Nivel x21 x22 x2n2

... ...

Nivel xk1 xk2 xknk

El número total de elementos en todas las muestras es:

La hipótesis a contrastar es:

El modo de realizar el contraste es el siguiente:

Se ordenan las observaciones de menor a mayor, asignando a cada una de ellas su

rango (1 para la menor, 2 para la siguiente, ..., N para la mayor).

Para cada una de las muestras, se calcula Ri, , como la suma de los

rangos de las observaciones que les corresponden. Si H0 es falsa, cabe esperar que

esas cantidades sean muy diferentes.

Se calcula el estadístico:

La regla para decidir si se ha de rechazar o no la hipótesis nula es la siguiente:

Si el número de muestras es k=3 y el número de observaciones en cada una de ellas

no pasa de 5 se rechaza H0 si el valor de H supera el valor teórico que encontramos

en la tabla de Kruskall-Wallis.

En cualquier otro caso, se compara el valor de H con el de la tabla de la con

k-1 grados de libertad. Se rechaza H0 si el valor del estadístico supera el valor

teórico .

Page 170: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

170

Tablas de Contingencia

Las tablas de contingencia (formas tabulares de presentar datos

categorizados) son útiles para el análisis simultáneo de dos o más variables

categorizadas.

Una variable categorizada es aquella en la cual la escala de medida consiste en un conjunto

de categorías, por ejemplo la variable tipo de vivienda puede ser categorizada de acuerdo a

las siguientes dos categorías rural y urbana.

Para analizar e interpretar apropiadamente tablas de contingencia es necesario

tener en cuenta la escala de medida de las variables involucradas y el tipo

de estudio (aleatorización) usado para obtener los datos. Comúnmente, las hipótesis

de interés en tablas de contingencia se refieren a la asociación entre las variables

que definen las filas y las columnas de la tabla.

Las variables categorizadas con niveles que no tienen un ordenamiento

natural se denominan nominales (por ejemplo, afiliación política con

categorías liberal y conservador). Un caso particular es aquel de las variables

binarias las cuales involucran 2 categorías de variables nominales, por ejemplo, si y

no, respuesta y no respuesta.

Si los niveles se encuentran ordenados la variable se denomina ordinal; por

ejemplo, grado de infección categorizada como leve, moderada y severa. Si

bien las categorías pueden ser ordenadas, a diferencia de las variables

cuantitativas las distancias absolutas entre categorías son desconocidas.

En algunas situaciones las tablas pueden ser construidas con variables medidas en

una escala de intervalos, esta escala implica que se conoce la distancia

numérica entre dos niveles cualesquiera de la escala (por ejemplo, intervalos de la

variable edad).

Las variables que constituyen la tabla pueden ser consideradas como variables de

respuesta o como variables de clasificación.

Las primeras, también llamadas variables dependientes, son aleatorias y

describen lo que fue observado en las unidades muestrales.

Las segundas, también llamadas variables independientes o factores, son

fijas por condicionamiento y las combinaciones de sus niveles definen

estratos, poblaciones o subpoblaciones a las cuales las unidades muestrales

pertenecen.

Cuando todas las variables de la tabla son de respuesta generalmente se

analiza la asociación entre ellas.

Cuando algunas son respuesta y otras de clasificación, en general se estudian los

efectos de las variables de clasificación sobre la distribución de las variables

de respuesta.

Si denotamos por X a una variable categorizada con I categorías o niveles y por Y a

otra variable con J niveles, para clasificar sujetos sobre ambas variables existirán

I×J combinaciones de clasificación.

Los pares (X,Y) asociados a cada sujeto seleccionados aleatoriamente desde una

población tienen una distribución de probabilidad. La distribución se presenta en

una tabla con I filas y J columnas.

La probabilidad asociada al evento IJ, en general denotada por ij representa la

probabilidad de que la variable X asuma la categoría I y la variable Y asuma la

categoría J.

Page 171: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

171

El conjunto de los valores ij forman la distribución conjunta de ambas

variables.

El conjunto de los valores ij (total de las probabilidades conjuntas de la fila i) para

i=1, ..., I, forma la distribución marginal de las filas de la tabla.

Equivalentemente se puede obtener la distribución marginal de las columnas.

Cuando una variable (digamos, Y) es considerada como variable respuesta y la

otra (digamos, X) como variables explicativa, es informativo identificar las

distribuciones de probabilidad de la respuesta para cada nivel de X, entiéndase la

distribución condicional de Y dado X.

La noción de independencia es comúnmente utilizada en tablas de

contingencia.

Dos variables (X e Y) son estadísticamente independientes si las distribuciones

condicionales de Y son idénticas para todos los niveles de X.

Cuando ambas variables son consideradas como variables respuesta es indistinto

observar la distribución condicional de Y dado X o la distribución

condicional de X dado Y.

Las tablas de contingencia pueden ser utilizadas para visualizar resultados

obtenidos de distintos tipos de estudios:

1) estudios experimentales, aquellos donde el investigador tiene control

sobre el grupo de sujetos; es decir, decide bajo que condiciones va a ser

observado cada sujeto. Estos estudios son de tipo prospectivo y en el

campo biomédico se conocen como ensayos clínicos (clinical trials);

2) estudios observacionales, los cuales pueden ser retrospectivos (caso-

control) o prospectivos (cohortes, cross-sectional o transversales).

En el tipo caso-control se investiga el pasado seleccionando arbitrariamente un

grupo de sujetos que tienen la característica en estudio (casos) y otro grupo de

sujetos que no la tienen para ser usados como referencia (control).

Esta selección arbitraria impide realizar ciertas inferencias sobre Y. La

distribución marginal de Y está determinada por el muestreo y no

necesariamente responde a las características de la población.

En el tipo cohorte o transversales se parte de una muestra aleatoria de sujetos los

cuales son clasificados en una de las celdas ij de la tabla, simultáneamente, según

corresponda. Los totales marginales son de tal manera aleatorios (no fijados por el

experimentador).

Así, el diseño del estudio implica un tipo de muestreo particular el cual deberá ser

tenido en cuenta a la hora de interpretar los estadísticos obtenidos de la tabla

de contingencia.

Típicamente para tablas 2×2, entiéndase I=2 J=2, se identifican los siguientes

muestreos:

1) muestreo Poisson, cada celda es una variable Poisson independiente, derivado de

estudios transversales donde el muestreo es aleatorio y el número total de

individuos (n) no es fijo;

2) muestreo binomial, cada fila de la tabla define diferentes grupos y los tamaños

muestrales de la fila son fijados por el diseño (existe condicionamiento),

comúnmente se necesita analizar las distribuciones condicionales a las filas

las cuales se modelan con una distribución binomial para tablas 2×2 (en

caso de tablas con J>2 se utiliza el modelo multinomial para cada fila);

3) muestreo multinomial, los conteos de las celdas son multinomiales, el

tamaño muestral total es fijo pero no se fijan los totales de filas ni de

columnas;

Page 172: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

172

4) con n y marginales fijos la distribución de valores por celda puede

aproximarse a una distribución hipergeométrica.

Ejemplo 1

la siguiente tabla corresponde a un ensayo experimental donde se estudia la

respuesta “severidad de la infección” producida por una plaga en 3

subpoblaciones del cultivo de maní, cada una correspondiente a distintos

sistemas de manejo (distintas rotaciones de cultivos). Archivo Severidad.

Para declarar las variables de este ejemplo se deberán indicar como Criterios

de clasificación a las columnas ―Severidad‖ y ―Rotación‖.

La variable ―Frec‖ debe ingresarse en la subventana Frecuencias.

Al Aceptar, en la solapa Selección de filas y columnas se deberá indicar que

―Rotación‖ define las filas y ―Severidad‖ las columnas de la tabla.

Tablas de contingencia

Frecuencias: Frec

Frecuencias absolutas

En columnas:Severidad

Rotación alta baja moderada Total

mani/maiz 118 199 184 501

mani/mani 227 152 167 546

mani/sorgo 138 205 174 517

Total 483 556 525 1564

Estadístico Valor gl p

Chi Cuadrado Pearson 48.84 4 <0.0001

Chi Cuadrado MV-G2 48.33 4 <0.0001

Coef.Conting.Cramer 0.10

Coef.Conting.Pearson 0.17

Ejemplo 2

vamos a plantear otro ejemplo con 3 dimensiones, en la que se estudia la

proporción de mujeres admitidas en una determinada Universidad frente a la

proporción de hombres:

Datos tomados del libro de Powers y Xie, correspondientes a un estudio realizado

en la Universidad de California-Berkeley (Bickel et al. 1975; Freedman, Pisani,

and Purves 1978)

En base a estos datos se plantea una demanda a la citada Universidad acusándola

de sexista en las pruebas de admisión, que parecen favorecer claramente a los

hombres. Sin embargo los responsables de la Universidad presentaron los datos

distribuidos por facultades (vamos a denominar a las diferentes facultades de forma

genérica con las letras A hasta F):

Page 173: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

173

Se puede ver que apenas hay diferencias en las tasas de admisión, salvo en la

facultad A ¡donde el porcentaje de hombres admitidos es del 62% y el de mujeres

es del 82%!

Tenemos aquí un ejemplo claro de cómo la asociación entre dos variables

cualitativas resulta ser espuria cuando se considera los valores de una tercera

variable, situación que se conoce como Paradoja de Simpson y que también se

puede dar en variables cuantitativas.

Ejemplo 3

En la siguiente figura se presenta un ejemplo de tabla de contigencia para dos

variables: en las filas se encuentra la variable ESTUDIOS, clasificada según tres

categorías, y en las columnas representamos la variable HTA, según la clasificación

propuesta en el documento The VI Report of the JNC on Prevention, Detection,

Evaluation and Treatement of High Blood Pressure. Los datos corresponden a un

conjunto de pacientes diabéticos.

Los niveles de HTA II a IV se han agrupado en una sola categoría.

Como se mencionó anteriormente, en este tipo de tablas habitualmente se desea

conocer si existe asociación entre las dos variables, o si por el contrario se pueden

considerar independientes.

Dicho de otra forma: queremos saber si la proporción de casos para cada categoría

de una de las variables es independiente del valor que toma la otra variable.

En la tabla del ejemplo nos interesa saber si la proporción de sujetos en cada una de

las categorías de la variable HTA es diferente según el nivel de estudios o si, por el

contrario, se pueden considerar independientes.

Page 174: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

174

El razonamiento para contrastar si existe o no asociación entre dos variables

cualitativas se basa en calcular cuál serían los valores de frecuencia esperados para

cada una de las celdas en el caso de que efectivamente las variables fuesen

independientes, y compararlos con los valores realmente observados.

Si no existe mucha diferencia entre ambos, no hay razones para dudar de que las

variables sean independientes.

En el ejemplo, la proporción de pacientes con HTA nivel I en nuestra muestra es

275 / 821 = 33.5%

Si las variables son independientes esta proporción debiera mantenerse (al menos

de forma aproximada) en cada nivel de estudios. Así como tenemos 167 pacientes

con estudios de 2º o 3º grado, el número de casos esperado con HTA nivel I es

167 x 0.335 = 55.9

mientras que el valor observado es sólo 35.

Si se calcula el valor del chi² obtenemos 35.6, que con 8 grados de libertad

corresponde a un valor de probabilidad de 0.00002, lo que indica que los datos

obtenidos están en clara contradicción con la hipótesis de independencia y debemos

por lo tanto concluir, a partir de la evidencia de nuestros datos, que existe

asociación entre el grado de HTA y el nivel de estudios de los pacientes.

El contraste estadístico más utilizado para evaluar si las diferencias entre las

frecuencias observadas y las esperadas pueden atribuirse al azar, bajo la hipótesis

de independencia, es el denominado chi² de Pearson:

donde Fij representa la frecuencia esperada para la celda situada en la fila i columna

j, y fij representa la frecuencia efectivamente observada para esa celda. En la

hipótesis de independencia este estadístico se distribuye de forma aproximada

según una chi² con grados de libertad (I-1)(J-1), siendo I el número de filas y J el

número de columnas.

Page 175: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

175

Diseño de Experimentos Este parte del documento trata de dar una visión muy simplificada de la utilidad y la

utilización del Diseño de Experimentos. En él se explican los conceptos clave de esta

herramienta como aleatorización, ruido o error experimental, análisis de varianza, etc., y se

detalla el proceso de diseño, realización y análisis de Experimentos que contemplan una

única variable independiente.

Concepto, Objetivo e Importancia

La investigación científica consiste en la búsqueda permanente de la verdad mediante

métodos objetivos, adecuados y precisos. La experimentación es un método científico de

investigación que consiste en hacer operaciones y prácticas destinadas a demostrar,

comprobar o descubrir fenómenos o principios básicos.

La experimentación en el área de las ciencias agropecuarias, en particular, comprende las

pruebas, ensayos, observaciones, análisis o estudio práctico de todo aquello que interesa a

los fenómenos que ocurren en la naturaleza. Se considera un experimento probar con la

práctica una hipótesis formulada (por ejemplo ensayo de rendimiento de cuatro variedades

de Buffel grass). Se considera una investigación cuando se estudia la causa y el efecto (por

ejemplo, determinación del tamaño de la parcela más eficaz para ensayar variedades de

Buffel). En un experimento se observan únicamente los efectos y es de aplicación práctica

inmediata, ya sea para el científico o para la comunidad. Por su parte, una investigación es

de aplicación mediata y puede ser evolucionista, o sea, puede conducir a idear nuevas

técnicas o a modificar las existentes. Comúnmente ambos términos se confunden y son

inseparables.

La experimentación en el área de las ciencias agropecuarias se puede considerar como un

ARTE y como una CIENCIA.

COMO ARTE:

Por la habilidad necesaria para ingeniar, planear o aplicar un conjunto de técnicas a fin de

eliminar causas extrañas y realizar experimentos de campo y de laboratorio o de

invernadero.

COMO CIENCIA:

Por la aplicación del método científico y un conjunto de conocimientos científicos para el

desarrollo de tecnologías que permitan forman nuevos tipos de plantas o animales, nuevas

prácticas agropecuarias que conduzcan al incremento de mayor producción.

El método científico consiste en la búsqueda de hechos, la formulación de hipótesis y la

obtención de principios y leyes que rigen tales hechos. Comprende dos pasos importantes.

a) MÉTODO INDUCTIVO: Mediante éste, se buscan hechos a través de la

observación y la experimentación.

b) MÉTODO DEDUCTIVO: Consiste en clasificar y ordenar los hechos por medio de

una relación. Si ésta es contaste de manera que se pueda predecir un hecho y

confirmarlo mediante la experimentación, puede ser general y formarse un

postulado básico o una ley.

Page 176: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

176

La aplicación del método científico ha conducido al descubrimiento de leyes que rigen el

proceso biológico; por ejemplo, Gregorio Mendel formuló sus hipótesis, relativas a la

herencia biológica, después de efectuar una serie de observaciones y experimentos; así

encontró las relaciones conocidas.

Los experimentos que se realizan frecuentemente en agronomía son:

a) Ensayos comparativos entre variedades, líneas, cruzamientos y descendencia.

b) Observaciones y pruebas con fertilizantes, raciones, insecticidas, fungicidas y

herbicidas.

c) Estudios de prácticas culturales, como rotación de cultivos, manejo de pastizales,

riegos, densidades de siembra, preparación del suelo, etc.

Lo anteriormente expuesto revela la importancia de la experimentación agropecuaria, la

cual se puede apreciar en los aspectos científico, social y económico.

Los países que desarrollan programas de investigación y experimentación han

incrementado la producción por unidad de superficie, lo cual ha originado un aumento en

la producción global, ya que una mayor producción unitaria estimula a sembrar mayor

superficie por mayor número de agricultores. Esto origina un desarrollo económico en

diversas actividades humanas y un mejor bienestar social.

Necesidad de realizar la Experimentación y la Investigación

El desarrollo agrícola de países avanzados se basa en la investigación de las diversas

ciencias de la agronomía, empleando como método la experimentación. Cualquier

variedad o nueva modalidad en las técnicas de cultivo, al introducirse a un nuevo país o

región, necesita de la experimentación para poderse adaptar y divulgar entre los

agricultores. Esto se debe a que las condiciones de clima y suelo varían de una región a

otra, de una estación a otra o de un año a otro.

Etapas fundamentales de la Experimentación Agropecuaria

Las etapas sucesivas en todo trabajo de investigación se pueden resumir en las siguientes:

1) Especificación del problema:

a. Antecedente

b. Importancia

c. Objetivos

d. Números de los tratamientos

2) Revisión de bibliografía respectiva

3) Planteamiento (o diseño) del experimento (material y métodos):

a. Lugar de la experiencia

b. Tamaño de la parcela experimental o unidad experimental

c. Número de repeticiones por tratamiento

d. Distribución de los tratamientos

e. Instrumentos, equipo, semillas, etc

f. Métodos de evaluación de resultados experimentales (pruebas de hipótesis,

niveles de significación)

4) Ejecución y desarrollo de las operaciones en el campo o en el laboratorio.

5) Recolección de datos y observaciones, muestreo, etc.

6) Ordenamiento de los resultados experimentales.

Page 177: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

177

7) Interpretación y evaluación de resultados.

8) Discusión de los resultados en relación con los conocimientos vertidos

anteriormente, con los principios del razonamiento riguroso, o con resultados obtenidos

en otros experimentos similares realizados en diferente lugar y tiempo.

9) Análisis económico y su utilidad práctica como contribución a la comunidad.

10) Conclusiones.

El Método Científico

El método científico ha sido definido como una aplicación de la lógica y la objetividad

para el entendimiento de los fenómenos naturales. Para éste, es esencial el estudio de lo

que ya se conoce; a partir de este conocimiento se formulan las hipótesis, las cuales se

ponen a prueba partiendo por lo general de situaciones experimentales, siendo ésta la parte

crucial de todo el proceso ya que cualquier pregunta donde sus respuestas no pueden

obtenerse a partir de la investigación no puede aceptarse como parte del método científico.

El método científico no es estático, es de naturaleza circulante. De acuerdo con

Kempthorne (1952), la primera etapa es la observación del fenómeno en estudio, donde se

colectan los elementos básicos en términos abstractos a partir de los cuales, se establecen

las bases lógicas de una teoría, siendo ésta la segunda etapa del método. En la tercera

etapa, se lleva a cabo el desarrollo propiamente dicho de esta teoría, de tal forma que en la

cuarta etapa se puede llegar a la predicción de eventos futuros. Una vez termina este ciclo,

el proceso vuelve a repetirse, consolidando los fundamentos teóricos, buscando siempre

una mayor precisión en la etapa de la predicción. En este sentido, la estadística juega un

papel importante en la fundamentación del método científico, donde de acuerdo con

Cramer (1960), tiene tres funciones fundamentales que son la descripción, el análisis y la

predicción. En la investigación científica, es común la formulación de la hipótesis, la cual

para su aprobación o rechazo, debe estar sustentada por un conjunto de observaciones, las

cuales deben seleccionarse a través de un patrón bien definido. Este patrón se conoce como

diseño experimental.

Se deben destacar dos aspectos esenciales en el método científico:

i. Examen crítico de resultados experimentales previos basados en el

conocimiento corriente, con el fin de formular nuevas hipótesis para ser

probadas por medio de la experimentación, y

ii. Diseño de experimentos recomendados por el estudio experimental del

problema con el propósito de proveer mayor información para posibles

soluciones.

Estos dos aspectos implican una naturaleza interactiva para la experimentación práctica.

Box (1957) ha establecido cuatro etapas básicas, estas son:

1. Conjeturas, donde las investigaciones experimentales de resultados iniciales son

tenidas en cuenta para plantear nuevas hipótesis a ser probadas.

2. Diseño del experimento donde algunas formas para probar una nueva hipótesis son

desarrolladas.

3. Desarrollo del experimento y,

4. Análisis, donde los datos experimentales son cuidadosamente examinados para

determinar que evidencia tienen en relación con la hipótesis de estudio.

Page 178: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

178

Una vez que se ha alcanzado la última etapa, el ciclo comienza nuevamente con la

formulación de nuevas hipótesis. De esta manera, conceptos originales son modificados y

un mejor entendimiento del problema y sus posibles soluciones lentamente van

evolucionando.

Las principales contribuciones estadísticas a este proceso iterativo ocurren en el diseño de

experimentos y en el análisis de los datos. Este es el propósito del análisis, proveer una

explicación razonable a la evidencia experimental, para determinar cuales hipótesis están

en contradicción con la evidencia, para proveer estimaciones de parámetros poblacionales,

para indicar el nivel de confianza que puede asignarse a cualquier conclusión alcanzada y

estimular el proceso de conjetura por parte del experimentador. Esto no podría ser

realizado a menos que un diseño de experimentos valido haya sido usado.

Es una función del diseño experimental estadístico, proveer los patrones de observación

para ser recolectados con el fin de obtener estimaciones más precisas y/o para tener la

capacidad de probar las distintas hipótesis con una potencia de discriminación máxima.

Modelos

Los modelos de ―Diseño de experimentos‖ son modelos estadísticos clásicos cuyo objetivo

es averiguar si unos determinados factores influyen en la variable de interés y, si existe

influencia de algún factor, cuantificarla. Ejemplos donde habría que utilizar estos modelos

son los siguientes:

En el rendimiento de un determinado tipo de máquinas (unidades producidas por

día) se desea estudiar la influencia del trabajador que la maneja y la marca de la máquina.

Se quiere estudiar la influencia del tipo de pila eléctrica y de la marca en la

duración de las pilas.

Una compañía telefónica está interesada en conocer la influencia de varios factores

en la variable de interés ―la duración de una llamada telefónica‖. Los factores que se

consideran son los siguientes: hora a la que se produce la llamada; día de la semana en que

se realiza la llamada; zona de la ciudad desde la que se hace la llamada; sexo del que

realiza la llamada; tipo de teléfono (público o privado) desde el que se realiza la llamada.

Una compañía de software está interesada en estudiar la variable ―porcentaje que se

comprime un fichero al utilizar un programa que comprime ficheros‖ teniendo en cuenta el

tipo de programa utilizado y el tipo de fichero que se comprime.

Se quiere estudiar el rendimiento de los alumnos en una asignatura y, para ello, se

desean controlar diferentes factores: profesor que imparte la asignatura; método de

enseñanza; sexo del alumno.

La metodología del diseño de experimentos se basa en la experimentación. Es conocido

que si se repite un experimento, en condiciones indistinguibles, los resultados presentan

variabilidad que puede ser grande o pequeña. Si la experimentación se realiza en un

laboratorio donde la mayoría de las causas de variabilidad están muy controladas, el error

experimental será pequeño y habrá poca variación en los resultados del experimento. Pero

si se experimenta en procesos industriales, administrativos, ... la variabilidad es grande en

la mayoría de los casos.

El objetivo del diseño de experimentos es estudiar si utilizar un determinado tratamiento

produce una mejora en el proceso o no. Para ello se debe experimentar utilizando el

tratamiento y no utilizándolo. Si la variabilidad experimental es grande, sólo se detectará la

influencia del uso del tratamiento cuando éste produzca grandes cambios en relación con el

error de observación.

Page 179: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

179

La metodología del Diseño de Experimentos estudia cómo variar las condiciones

habituales de realización de un proceso empírico para aumentar la probabilidad de detectar

cambios significativos en la respuesta, de esta forma se obtiene un mayor conocimiento del

comportamiento del proceso de interés.

Para que la metodología de diseño de experimentos sea eficaz es fundamental que el

experimento esté bien diseñado.

Un experimento se realiza por alguno de los siguientes motivos:

Determinar las principales causas de variación en la respuesta.

Encontrar las condiciones experimentales con las que se consigue un valor extremo

en la variable de interés o respuesta.

Comparar las respuestas en diferentes niveles de observación de variables

controladas.

Obtener un modelo estadístico-matemático que permita hacer predicciones de

respuestas futuras.

La utilización de los modelos de diseño de experimentos se basa en la experimentación y

en el análisis de los resultados que se obtienen en un experimento bien planificado. En

muy pocas ocasiones es posible utilizar estos métodos a partir de datos disponibles o datos

históricos, aunque también se puede aprender de los estudios realizados a partir de datos

recogidos por observación, de forma aleatoria y no planificada. En el análisis estadístico de

datos históricos se pueden cometer diferentes errores, los más comunes son los siguientes:

o Inconsistencia de los datos. Los procesos cambian con el tiempo, se producen cambios

en el personal (cambios de personas, mejoras del personal por procesos de aprendizaje,

motivación...), cambios en las máquinas (reposiciones, reparaciones,

envejecimiento...). Estos cambios tienen influencia en los datos recogidos, lo que hace

que los datos históricos sean poco fiables, sobre todo si se han recogido en un amplio

espacio de tiempo.

o Variables con fuerte correlación. Puede ocurrir que en el proceso existan dos o más

variables altamente correlacionadas que pueden llevar a situaciones confusas. Por

ejemplo, en el proceso hay dos variables X1 y X2 fuertemente correlacionadas que

influyen en la respuesta, pero si en los datos que se tiene aumenta al mismo tiempo el

valor de las dos variables no es posible distinguir si la influencia es debida a una u otra

o a ambas variables (confusión de los efectos). Otra situación problemática se presenta

si solo se dispone de datos de una variable (por ejemplo de X1 y no de X2), lo que

puede llevar a pensar que la variable influyente es la X1 cuando, en realidad, la

variable influyente es la X2 (variable oculta).

o El rango de las variables controladas es limitado. Si el rango de una de las variables

importantes e influyentes en el proceso es pequeño, no se puede saber su influencia

fuera de ese rango y puede quedar oculta su relación con la variable de interés o lo

cambios que se producen en la relación fuera del rango observado. Esto suele ocurrir

cuando se utilizan los datos recogidos al trabajar el proceso en condiciones normales y

Page 180: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

180

no se experimenta (cambiando las condiciones de funcionamiento) para observar el

comportamiento del proceso en situaciones nuevas.

Tipos de variabilidad.

Uno de los principales objetivos de los modelos estadísticos y, en particular, de los

modelos de diseño de experimentos, es controlar la variabilidad de un proceso estocástico

que puede tener diferente origen. De hecho, los resultados de cualquier experimento están

sometidos a tres tipos de variabilidad cuyas características son las siguientes:

Variabilidad sistemática y planificada.

Esta variabilidad viene originada por la posible dispersión de los resultados debida a

diferencias sistemáticas entre las distintas condiciones experimentales impuestas en el

diseño por expreso deseo del experimentador. Es el tipo de variabilidad que se intenta

identificar con el diseño estadístico.

Cuando este tipo de variabilidad está presente y tiene un tamaño importante, se espera que

las respuestas tiendan a agruparse formando grupos (clusters).

Es deseable que exista esta variabilidad y que sea identificada y cuantificada por el

modelo.

Variabilidad típica de la naturaleza del problema y del experimento.

Es la variabilidad debida al ruido aleatorio. Este término incluye, entre otros, a la

componente de variabilidad no planificada denominada error de medida. Es una

variabilidad impredecible e inevitable.

Esta variabilidad es la causante de que si en un laboratorio se toman medidas repetidas de

un mismo objeto ocurra que, en muchos casos, la segunda medida no sea igual a la

primera y, más aún, no se puede predecir sin error el valor de la tercera. Sin embargo, bajo

el aparente caos, existe un patrón regular de comportamiento en esas medidas: todas ellas

tenderán a fluctuar en torno a un valor central y siguiendo un modelo de probabilidad que

será importante estimar.

Esta variabilidad es inevitable pero, si el experimento ha sido bien planificado, es posible

estimar (medir) su valor, lo que es de gran importancia para obtener conclusiones y poder

hacer predicciones.

Es una variabilidad que va a estar siempre presente pero que es tolerable.

Variabilidad sistemática y no planificada.

Esta variabilidad produce una variación sistemática en los resultados y es debida a causas

desconocidas y no planificadas. En otras palabras, los resultados están siendo sesgados

sistemáticamente por causas desconocidas. La presencia de esta variabilidad supone la

principal causa de conclusiones erróneas y estudios incorrectos al ajustar un modelo

estadístico.

Como se estudiará posteriormente, existen dos estrategias básicas para tratar de evitar la

presencia de este tipo de variabilidad: la aleatorización y la técnica de bloques.

Page 181: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

181

Este tipo de variabilidad debe de intentar evitarse y su presencia lleva a conclusiones

erróneas.

Planificación de un experimento

La experimentación forma parte natural de la mayoría de las investigaciones científicas e

industriales, en muchas de las cuales, los resultados del proceso de interés se ven afectados

por la presencia de distintos factores, cuya influencia puede estar oculta por la variabilidad

de los resultados muestrales. Es fundamental conocer los factores que influyen realmente y

estimar esta influencia. Para conseguir esto es necesario experimentar, variar las

condiciones que afectan a las unidades experimentales y observar la variable respuesta.

Del análisis y estudio de la información recogida se obtienen las conclusiones.

La forma tradicional que se utilizaba en la experimentación, para el estudio de estos

problemas, se basaba en estudiar los factores uno a uno, esto es, variar los niveles de un

factor permaneciendo fijos los demás. Esta metodología presenta grandes inconvenientes:

Es necesario un gran número de pruebas.

Las conclusiones obtenidas en el estudio de cada factor tiene un campo de validez

muy restringido.

No es posible estudiar la existencia de interacción entre los factores.

Es inviable, en muchos casos, por problemas de tiempo o costo.

Las técnicas de diseño de experimentos se basan en estudiar simultáneamente los efectos

de todos los factores de interés, son más eficaces y proporcionan mejores resultados con un

menor coste.

A continuación se enumeran las etapas que deben seguirse para una correcta planificación

de un diseño experimental, etapas que deben ser ejecutadas de forma secuencial. También

se introducen algunos conceptos básicos en el estudio de los modelos de diseño de

experimentos.

Las etapas a seguir en el desarrollo de un problema de diseño de experimentos son las

siguientes:

1) Definir los objetivos del experimento.

2) Identificar todas las posibles fuentes de variación, incluyendo:

a. factores tratamiento y sus niveles,

b. unidades experimentales,

c. factores nuisance (molestos): factores bloque, factores ruido y covariables.

3) Elegir una regla de asignación de las unidades experimentales a las condiciones de

estudio (tratamientos).

4) Especificar las medidas con que se trabajará (la respuesta), el procedimiento

experimental y anticiparse a las posibles dificultades.

Page 182: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

182

5) Ejecutar un experimento piloto.

6) Especificar el modelo.

7) Esquematizar los pasos del análisis.

8) Determinar el tamaño muestral.

9) Revisar las decisiones anteriores. Modificarlas si se considera necesario.

Los pasos del listado anterior no son independientes y en un determinado momento puede

ser necesario volver atrás y modificar decisiones tomadas en algún paso previo.

A continuación se hace una breve descripción de las decisiones que hay que tomar en cada

uno de los pasos enumerados. Sólo después de haber tomado estas decisiones se procederá

a realizar el experimento.

1.- Definir los objetivos del experimento.

Se debe hacer una lista completa de las preguntas concretas a las que debe dar respuesta el

experimento. Es importante indicar solamente cuestiones fundamentales ya que tratar de

abordar problemas colaterales puede complicar innecesariamente el experimento.

Una vez elaborada la lista de objetivos, puede ser útil esquematizar el tipo de conclusiones

que se espera obtener en el posterior análisis de datos.

Normalmente la lista de objetivos es refinada a medida que se van ejecutando las etapas

del diseño de experimentos.

2.- Identificar todas las posibles fuentes de variación.

Una fuente de variación es cualquier ―cosa‖ que pueda generar variabilidad en la

respuesta. Es recomendable hacer una lista de todas las posibles fuentes de variación del

problema, distinguiendo aquellas que, a priori, generarán una mayor variabilidad. Se

distinguen dos tipos:

- Factores tratamiento: son aquellas fuentes cuyo efecto sobre la respuesta es de

particular interés para el experimentador.

- Factores ―nuisance‖: son aquellas fuentes que no son de interés directo pero que se

contemplan en el diseño para reducir la variabilidad no planificada.

A continuación se precisan más estos importantes conceptos.

1) Factores y sus niveles.

Se denomina factor tratamiento a cualquier variable de interés para el experimentador

cuyo posible efecto sobre la respuesta se quiere estudiar.

Los niveles de un factor tratamiento son los tipos o grados específicos del factor que se

tendrán en cuenta en la realización del experimento.

Los factores tratamiento pueden ser cualitativos o cuantitativos.

Ejemplos de factores cualitativos y sus niveles respectivos son los siguientes:

— proveedor (diferentes proveedores de una materia prima),

— tipo de máquina (diferentes tipos o marcas de máquinas),

— trabajador (los trabajadores encargados de hacer una tarea),

Page 183: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

183

— tipo de procesador (los procesadores de los que se quiere comparar su velocidad de

ejecución),

— un aditivo químico (diferentes tipos de aditivos químicos),

— el sexo (hombre y mujer),

— un método de enseñanza (un número determinado de métodos de enseñanza cuyos

resultados se quieren comparar).

Ejemplos de factores cuantitativos son los siguientes:

— tamaño de memoria (diferentes tamaños de memoria de ordenadores),

— droga (distintas cantidades de la droga),

— la temperatura (conjuntos de temperaturas seleccionadas en unos rangos de interés).

Debe tenerse en cuenta que en el tratamiento matemático de los modelos de diseño de

experimento los factores cuantitativos son tratados como cualitativos y sus niveles son

elegidos equiespaciados o se codifican. Por lo general, un factor no suele tener más de

cuatro niveles.

Cuando en un experimento se trabaja con más de un factor, se denomina:

Tratamiento a cada una de las combinaciones de niveles de los distintos factores.

Observación es una medida en las condiciones determinadas por uno de los

tratamientos.

Experimento factorial es el diseño de experimentos en que existen observaciones de

todos los posibles tratamientos.

2) Unidades experimentales.

Son el material donde evaluar la variable respuesta y al que se le aplican los distintos

niveles de los factores tratamiento.

Ejemplos de unidades experimentales son:

— en informática, ordenadores, páginas web, buscadores de internet,

— en agricultura, parcelas de tierra,

— en medicina, individuos humanos u animales,

— en industria, lotes de material, trabajadores, máquinas.

Page 184: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

184

Cuando un experimento se ejecuta sobre un período de tiempo de modo que las

observaciones se recogen secuencialmente en instantes de tiempo determinados, entonces

los propios instantes de tiempo pueden considerarse unidades experimentales.

Es muy importante que las unidades experimentales sean representativas de la población

sobre la que se han fijado los objetivos del estudio. Por ejemplo, si se utilizan los

estudiantes universitarios de un país como unidades experimentales, las conclusiones del

experimento no son extrapolables a toda la población adulta del país.

3) Factores “nuisance”: bloques, factores ruido y covariables.

En cualquier experimento, además de los factores tratamiento cuyo efecto sobre la

respuesta se quiere evaluar, también influyen otros factores, de escaso interés en el estudio,

pero cuya influencia sobre la respuesta puede aumentar significativamente la variabilidad

no planificada. Con el fin de controlar esta influencia pueden incluirse en el diseño nuevos

factores que, atendiendo a su naturaleza, pueden ser de diversos tipos.

Factor bloque. En algunos casos el factor nuisance puede ser fijado en distintos niveles,

de modo que es posible controlar su efecto a esos niveles. Entonces la forma de actuar es

mantener constante el nivel del factor para un grupo de unidades experimentales, se

cambia a otro nivel para otro grupo y así sucesivamente. Estos factores se denominan

factores de bloqueo (factores-bloque) y las unidades experimentales evaluadas en un

mismo nivel del bloqueo se dice que pertenecen al mismo bloque. Incluso cuando el factor

nuisance no es medible, a veces es posible agrupar las unidades experimentales en bloques

de unidades similares: parcelas de tierra contiguas o períodos de tiempo próximos

probablemente conduzcan a unidades experimentales más parecidas que parcelas o

períodos distantes.

Desde un punto de vista matemático el tratamiento que se hace de los factores-

bloque es el mismo que el de los factores-tratamiento en los que no hay interacción, pero

su concepto dentro del modelo de diseño de experimentos es diferente. Un factor-

tratamiento es un factor en el que se está interesado en conocer su influencia en la variable

respuesta y un factor-bloque es un factor en el que no se está interesado en conocer su

influencia pero se incorpora al diseño del experimento para disminuir la variabilidad

residuas del modelo.

Covariable. Si el factor nuisance es una propiedad cuantitativa de las unidades

experimentales que puede ser medida antes de realizar el experimento (el tamaño de un

fichero informático, la presión sanguínea de un paciente en un experimento médico o la

acidez de una parcela de tierra en un experimento agrícola). El factor se denomina

covariable y juega un papel importante en el análisis estadístico.

Ruido. Si el experimentador está interesado en la variabilidad de la respuesta cuando se

modifican las condiciones experimentales, entonces los factores nuisance son incluidos

deliberadamente en el experimento y no se aisla su efecto por medio de bloques. Se habla

entonces de factores ruido.

Page 185: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

185

En resumen, las posibles fuentes de variación de un experimento son:

Fuente Tipo

Debida a las condiciones de interés

(Factores tratamiento)

Planificada y sistemática

Debida al resto de condiciones

controladas

(Factores ―nuisance‖)

Planificada y sistemática

Debida a condiciones no controladas

(error de medida, material

experimental, ... )

No planificada, pero ¿sistemática?

3.- Elegir una regla de asignación de las unidades experimentales a las condiciones de

estudio (―tratamientos‖).

La regla de asignación o diseño experimental especifica que unidades experimentales se

observarán bajo cada tratamiento. Hay diferentes posibilidades:

— diseño factorial o no,

— anidamiento,

— asignación al azar en determinados niveles de observación,

— el orden de asignación, etc.

En la práctica, existen una serie de diseños estándar que se utilizan en la mayoría de los

casos.

4.- Especificar las medidas que se realizarán (la ―respuesta‖), el procedimiento

experimental y anticiparse a las posibles dificultades.

Variable respuesta o variable de interés. Los datos que se recogen en un experimento son

medidas de una variable denominada variable respuesta o variable de interés.

Es importante precisar de antemano cuál es la variable respuesta y en qué unidades

se mide. Naturalmente, la respuesta está condicionada por los objetivos del experimento.

Por ejemplo, si se desea detectar una diferencia de 0,05 gramos en la respuesta de dos

tratamientos no es apropiado tomar medidas con una precisión próxima al gramo.

A menudo aparecen dificultades imprevistas en la toma de datos. Es conveniente

anticiparse a estos imprevistos pensando detenidamente en los problemas que se pueden

presentar o ejecutando un pequeño experimento piloto (etapa 5). Enumerar estos

problemas permite en ocasiones descubrir nuevas fuentes de variación o simplificar el

procedimiento experimental antes de comenzar.

También se debe especificar con claridad la forma en que se realizarán las

mediciones: instrumentos de medida, tiempo en el que se harán las mediciones, etc.

Page 186: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

186

5.- Ejecutar un experimento piloto.

Un experimento piloto es un experimento que utiliza un número pequeño de

observaciones. El objetivo de su ejecución es ayudar a completar y chequear la lista de

acciones a realizar. Las ventajas que proporciona la realización de un pequeño

experimento piloto son las siguientes:

— permite practicar la técnica experimental elegida e identificar problemas no

esperados en el proceso de recogida de datos,

— si el experimento piloto tiene un tamaño suficientemente grande puede ayudar a

seleccionar un modelo adecuado al experimento principal,

— los errores experimentales observados en el experimento piloto pueden ayudar a

calcular el número de observaciones que se precisan en el experimento principal.

6.- Especificar el modelo.

El modelo matemático especificado debe indicar la relación que se supone que existe entre

la variable respuesta y las principales fuentes de variación identificadas en el paso 2. Es

fundamental que el modelo elegido se ajuste a la realidad con la mayor precisión posible.

El modelo más habitual es el modelo lineal:

ijijY

En este modelo la respuesta viene dada por una combinación lineal de términos que

representan las principales fuentes de variación planificada más un término residual debido

a las fuentes de variación no planificada. Los modelos que se estudian en este texto se

ajustan a esta forma general. El experimento piloto puede ayudar a comprobar si el modelo

se ajusta razonablemente bien a la realidad.

Los modelos de diseño de experimentos, según sean los factores incluidos en el

mismo, se pueden clasificar en: modelo de efectos fijos, modelo de efectos aleatorios y

modelos mixtos. A continuación se precisan estas definiciones.

Factor de efectos fijos es un factor en el que los niveles han sido seleccionados por el

experimentador. Es apropiado cuando el interés se centra en comparar el efecto sobre la

respuesta de esos niveles específicos.

Factor de efectos aleatorios es un factor del que sólo se incluyen en el experimento una

muestra aleatoria simple de todos los posibles niveles del mismo. Evidentemente se

utilizan estos factores cuando tienen un número muy grande de niveles y no es razonable o

posible trabajar con todos ellos. En este caso se está interesado en examinar la variabilidad

de la respuesta debida a la población entera de niveles del factor.

7.- Esquematizar los pasos del análisis estadístico.

El análisis estadístico a realizar depende de:

— los objetivos indicados en el paso 1,

Page 187: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

187

— el diseño seleccionado en el paso 3,

— el modelo asociado que se especificó en el paso 5.

Se deben esquematizar los pasos del análisis a realizar que deben incluir:

— estimaciones que hay que calcular,

— contrastes a realizar,

— intervalos de confianza que se calcularán

— diagnosis y crítica del grado de ajuste del modelo a la realidad.

8.- Determinar el tamaño muestral.

Calcular el número de observaciones que se deben tomar para alcanzar los objetivos del

experimento.

Existen, dependiendo del modelo, algunas fórmulas para determinar este tamaño. Todas

ellas sin embargo requieren el conocimiento del tamaño de la variabilidad no planificada

(no sistemática y sistemática, si es el caso) y estimarlo a priori no es fácil, siendo

aconsejable sobreestimarla. Normalmente se estima a partir del experimento piloto y en

base a experiencias previas en trabajos con diseños experimentales semejantes.

9.- Revisar las decisiones anteriores. Modificar si es necesario.

De todas las etapas enumeradas, el proceso de recogida de datos suele ser la tarea que

mayor tiempo consume, pero es importante realizar una planificación previa, detallando

los pasos anteriores, lo que garantizará que los datos sean utilizados de la forma más

eficiente posible.

Es fundamental tener en cuenta que

―Ningún método de análisis estadístico, por sofisticado que sea, permite extraer

conclusiones correctas en un diseño de experimentos mal planificado‖.

Recíprocamente, debe quedar claro que el análisis estadístico es una etapa más que está

completamente integrado en el proceso de planificación.

―El análisis estadístico no es un segundo paso independiente de la tarea de planificación.

Es necesario comprender la totalidad de objetivos propuestos antes de comenzar con el

análisis. Si no se hace así, tratar que el experimento responda a otras cuestiones a

posteriori puede ser (lo será casi siempre) imposible‖.

Pero no sólo los objetivos están presentes al inicio del análisis sino también la

técnica experimental empleada. Una regla de oro en la experimentación y que debe

utilizarse es la siguiente:

―No invertir nunca todo el presupuesto en un primer conjunto de experimentos y

utilizar en su diseño toda la información previa disponible‖.

Finalmente indicar que todas las personas que trabajan en el experimento se deben

implicar en el mismo, esto es:

Page 188: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

188

―Toda persona implicada en la ejecución del experimento y en la recolección de los

datos debe ser informada con precisión de la estrategia experimental diseñada‖.

Resumen de los principales conceptos.

Resumen de la terminología común utilizada en la teoría de los modelos de diseño de

experimentos:

Unidad experimental: son los objetos, individuos, intervalos de espacio o tiempo

sobre los que se experimenta.

Variable de interés o respuesta: es la variable que se desea estudiar y controlar su

variabilidad.

Factor: son las variables independientes que pueden influir en la variabilidad de la

variable de interés.

Factor tratamiento: es un factor del que interesa conocer su influencia en la

respuesta.

Factor bloque: es un factor en el que no se está interesado en conocer su influencia

en la respuesta pero se supone que ésta existe y se quiere controlar para disminuir

la variabilidad residual.

Niveles: cada uno de los resultados de un factor. Según sean elegidos por el

experimentador o elegidos al azar de una amplia población se denominan factores

de efectos fijos o factores de efectos aleatorios.

Tratamiento: es una combinación específica de los niveles de los factores en

estudio. Son, por tanto, las condiciones experimentales que se desean comparar en

el experimento. En un diseño con un único factor son los distintos niveles del factor

y en un diseño con varios factores son las distintas combinaciones de niveles de los

factores.

Observación experimental: es cada medición de la variable respuesta.

Tamaño del Experimento: es el número total de observaciones recogidas en el

diseño.

Interacción de factores: existe interacción entre dos factores FI y FJ si el efecto de

algún nivel de FI cambia al cambiar de nivel en FJ. Esta definición puede hacerse

de forma simétrica y se puede generalizar a interacciones de orden tres o superior.

Ortogonalidad de factores: dos factores FI y FJ con I y J niveles, respectivamente,

son ortogonales si en cada nivel i de FI el número de observaciones de los J niveles

de FJ están en las mismas proporciones. Esta propiedad permite separar los efectos

simples de los factores en estudio.

Diseño equilibrado o balanceado: es el diseño en el que todos los tratamientos son

asignados a un número igual de unidades experimentales.

Principios básicos en el diseño de experimentos.

Al planificar un experimento hay tres principios básicos que se deben tener siempre en

cuenta:

— El principio de aleatorización.

— El bloqueo.

— La factorización del diseño.

Page 189: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

189

Los dos primeros (aleatorizar y bloquear) son estrategias eficientes para asignar los

tratamientos a las unidades experimentales sin preocuparse de qué tratamientos considerar.

Por el contrario, la factorización del diseño define una estrategia eficiente para elegir los

tratamientos sin considerar en absoluto como asignarlos después a las unidades

experimentales.

Aleatorizar

―Aleatorizar todos los factores no controlados por el experimentador en el diseño

experimental y que pueden influir en los resultados serán asignados al azar a las unidades

experimentales‖.

Ventajas de aleatorizar los factores no controlados:

• Transforma la variabilidad sistemática no planificada en variabilidad no planificada o

ruido aleatorio. Dicho de otra forma, aleatorizar previene contra la introducción de sesgos

en el experimento.

• Evita la dependencia entre observaciones al aleatorizar los instantes de recogida

muestral.

• Valida muchos de los procedimientos estadísticos más comunes.

Bloquear

―Se deben dividir o particionar las unidades experimentales en grupos llamados bloques de

modo que las observaciones realizadas en cada bloque se realicen bajo condiciones

experimentales lo más parecidas posibles.

A diferencia de lo que ocurre con los factores tratamiento, el experimentador no está

interesado en investigar las posibles diferencias de la respuesta entre los niveles de los

factores bloque‖.

Bloquear es una buena estrategia siempre y cuando sea posible dividir las unidades

experimentales en grupos de unidades similares.

La ventaja de bloquear un factor que se supone que tienen una clara influencia en la

respuesta pero en el que no se está interesado, es la siguiente:

• Convierte la variabilidad sistemática no planificada en variabilidad sistemática

planificada.

Con el siguiente ejemplo se trata de indicar la diferencia entre las estrategias de aleatorizar

y de bloquear en un experimento.

La factorización del diseño.

―Un diseño factorial es una estrategia experimental que consiste en cruzar los niveles de

todos los factores tratamiento en todas las combinaciones posibles‖.

Ventajas de utilizar los diseños factoriales:

Page 190: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

190

• Permiten detectar la existencia de efectos interacción entre los diferentes factores

tratamiento.

• Es una estrategia más eficiente que la estrategia clásica de examinar la influencia de un

factor manteniendo constantes el resto de los factores.

Fuentes de Error

Las discrepancias entre los observado y lo esperado para un tratamiento surgen de dos

fuentes principales de variación cuya magnitud relativa depende del experimento que se

esté considerando. La primera es el error que se introduce cuando se quiere reproducir

(repetir) el experimento sobre cada una de las unidades experimentales; la otra es la

respuesta diferencial de cada unidad experimental al tratamiento que recibe y que depende

de propiedades inherentes a la unidad experimental. A la primer fuente

de error se la conoce como error de tratamiento y a la segunda como error de muestreo.

Una vez realizado un experimento, ambas fuentes de error son indistinguibles y conforman

un único error que se designa genéricamente como error experimental.

Existen dos recursos básicos para reducir el efecto no deseado de la presencia de los

errores. Estos recursos son la aleatorización y la repetición.

Para modelar es importante identificar DOS tipos de estructuras

Estructura de parcelas

Anteriormente se estableció que la aleatorización era un método de distribución equitativa

de parcelas sobre y sub respondedoras a los tratamientos y que el método se justificaba en

el hecho de que no era posible anticipar estas respuestas. A estos diseños en los que la

aleatorización no está restringida, se los llama completamente aleatorizados. En algunos

casos, sin embargo, es posible establecer que algunas parcelas o unidades experimentales

responderán de una manera y otras de otra. Un ejemplo simple se observa en los ensayos

de rendimiento cuando el terreno donde se realiza el experimento tiene una pendiente

marcada. En estos casos las parcelas de la parte elevada suelen tener rendimientos menores

que las de la parte baja y usar aleatorización (no restringida) como criterio de distribución

de las parcelas no es la mejor decisión a la hora de planificar el experimento. Por el

contrario, si a cada tratamiento se le asigna una repetición dentro de conjuntos de parcelas

ubicados por ejemplo en la parte superior, media e inferior del lote experimental y se

aplica aleatorización dentro de cada conjunto de esas parcelas, se habrá reconocido desde

el punto de vista del diseño, una fuente sistemática de variación debida a la pendiente del

Estructura de

PARCELAS

Estructura de

TRATAMIENTOS

Page 191: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

191

terreno. Para ser consistentes con el diseño, el modelo del experimento deberá incorporar

los parámetros necesarios para dar cuenta de la estructura de parcelas. El resultado de esta

acción no es solo tener un modelo con mas parámetros sino un experimento mas preciso.

Diseño de la estructura de parcelas

Consiste en el agrupamiento de unidades experimentales homogéneas en grupos o bloques.

El reconocimiento de la estructura de parcelas y su incorporación al modelo de análisis de

la varianza tiene como consecuencia inmediata el aumento de precisión del diseño. Esto es

así siempre y cuando la estructura de parcela obedezca al reconocimiento de variaciones

reales entre las unidades experimentales ya que la imposición de una estructura de parcela

arbitraria e innecesaria lejos de aumentar la precisión la disminuirá.

Algunos diseños clásicos

A continuación se presentan tres diseños (estructura de parcelas) clásicos en la literatura de

diseño de experimentos. El segundo de ellos es uno de los más simples arreglos de

unidades experimentales no homogéneas y posiblemente el más popular entre los

experimentadores agrícolas.

Completamente aleatorizado

Cuando las parcelas experimentales son homogéneas o no se es capaz de anticipar

respuestas diferenciales de cada una de ellas, la mejor opción desde el punto de vista del

diseño de experimentos es asignar los tratamientos, de manera completamente al azar. El

modelo para este diseño y el análisis de la varianza discutidos cuando estudiamos el

Análisis de la Varianza corresponden al análisis de un experimento unifactorial sin

estructura de parcelas.

Ejemplo:

El porcentaje de humedad relativa (HR) es determinante para el ataque de hongos en

semillas. Para evaluar la susceptibilidad de las semillas de una forrajera al ataque de un

hongo se realizó un ensayo en cámaras de cría con tres porcentajes de HR: 70%, 80% y

90%. Se tomaron cinco observaciones para cada porcentaje de HR, registrándose el

número de semillas atacadas en un grupo de 100 semillas.

Page 192: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

192

Si =0,05 luego el punto crítico que delimita la zona de aceptación y rechazo de H0 es

F(2,12; 0.95) = 3,88

Como F=21,91> Fcrítica se concluye, con un nivel de significación del 5%, que se rechaza

la hipótesis nula de igualdad de medias, por lo tanto al menos una de las HR produce un

grado de ataque de hongos diferente de los restantes.

Comparaciones múltiples

Si se rechaza la hipótesis nula del ANAVA, la pregunta que sigue es ¿cuál o cuáles de las

medias poblacionales en estudio son las diferentes?

Existe una gama muy amplia de alternativas para llevar adelante este tipo de pruebas, entre

las que se destacan las pruebas de Tukey (Tukey, 1949), Scheffé (Scheffé, 1953), Duncan

(Duncan, 1955), Dunnet (Dunnet, 1964) y la de Fisher (Fisher, 1966), entre otras.

Prueba de Tukey

Examina con un mismo estadístico todas las diferencias de medias muestrales en estudio.

Si hay a medias, luego habrá diferencias de medias posibles.

El estadístico de Tukey es el siguiente:

donde qa,gld; (1-) es el cuantil (1-) que se obtiene de la distribución de Rangos

Studentizados para a tratamientos y los grados de libertad dentro; es el nivel de

significación en base al cual se rechazó la H0 del ANAVA y n es el número de repeticiones

en base a las que se calculan las medias muestrales.

Si el valor de la diferencia entre un par de medias supera a DMSt, se dice que esta

diferencia es estadísticamente significativas. Se concluirá en consecuencia que las

esperanzas asociadas a esa diferencia son distintas con un nivel de significación .

En el Ejemplo recuérdese que se había concluido que los diferentes porcentajes HR

producían un diferente grado de ataque del hongo sobre la semilla de maní. La pregunta

que sigue es ¿cuál o cuáles de ellos producen ataques diferentes? Para dar respuesta a ello

se utilizará el test de Tukey.

Page 193: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

193

El segundo paso consiste en calcular el estadístico de Tukey. Para el ejemplo, a = 3,

gld=12 y =0.05 (el mismo usado en el ANAVA), q a,gld;(1-α) = 3.77; CMD = 6.73 y n=5

(número de repeticiones). Así se tiene:

Para terminar con esta prueba basta controlar qué diferencias entre medias muestrales son

mayores que 4,37 para concluir que las esperanzas que estiman difieren entre sí con un

nivel de significación del 5%. Revisando la matriz de diferencias de medias se puede

verificar que :

Page 194: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

194

Luego, el grado de ataque que se produce con un 80% de HR no difiere del que se produce

con 90% de HR, mientras que con 70% de HR se produce un ataque significativamente

menor que con 80 y 90%. Sintetizando se podría afirmar con un 95% de confianza que el

menor grado de ataque se produce con 70% de HR.

Prueba de Fisher

La prueba de Fisher es similar en su procedimiento a la prueba de Tukey, pero el

estadístico de la prueba es diferente. En vez de usar los cuantiles de la distribución de

rangos estudentizados utiliza los cuantiles de una t con los grados de libertad del cuadrado

medio dentro de tratamientos y es particular para cada comparación de medias ya que

depende del número de repeticiones por tratamiento. Luego, la diferencia mínima

significativa entre el tratamiento i-ésimo y el tratamiento j-ésimo está dada por:

Para el ejemplo que estamos tratando: t 12;(0.95)=1.782, CMD=6.73 y ni=nj=5 ∀ij, luego la

diferencia mínima significativa por Fisher es para todas las comparaciones

Page 195: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

195

Es interesante mostrar que mientras para Fisher la diferencia mínima significativa es 2,92,

para Tukey es 4,37. Esto implica que con Fisher es más fácil rechazar la hipótesis de

igualdad de medias que con Tukey, por esta razón se dice que este último es más

conservador (menor error tipo I) y el primero más potente (menor error tipo II).

Bloques completos aleatorizados

Aunque la asignación aleatoria de tratamientos es una forma natural de distribuir

imparcialmente las pequeñas (o grandes) diferencias en las respuestas de las unidades

experimentales, esta asignación no siempre es la más conveniente. Cuando las diferencias

de respuestas de las unidades experimentales pueden ser anticipadas, lo conveniente es

agrupar aquellas unidades similares en bloques y asignar aleatoriamente los tratamientos

dentro de esos bloques. De esta manera, cada bloque representa una repetición completa de

todos los tratamientos. Este arreglo experimental se denomina diseño en bloques

completos aleatorizados. Se dice que son completos porque en cada bloque aparecen todos

los tratamientos, y aleatorizados porque dentro de cada bloque los tratamientos son

distribuidos aleatoriamente. Un caso particular de diseño en bloques es el que aparece

relacionado con la prueba T para muestras apareadas, aunque el número de tratamientos es

sólo dos.

Ejemplo:

Se realizó un ensayo para evaluar el rendimiento en kg de materia seca por hectárea de una

forrajera megatérmica con distintos aportes de N2 en forma de urea. Las dosis de urea

probadas fueron 0 (control), 75, 150, 225 y 300 kg/ha. El ensayo se realizó en distintas

zonas, en las que por razones edáficas y climáticas se podían prever rendimientos

diferentes. Las zonas en este caso actuaron como bloques. El diseño a campo se ilustra en

la siguiente figura y a continuación se presentan los resultados obtenidos ordenados por

tratamiento y por bloque.

Page 196: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

196

El modelo lineal para un análisis de la varianza con un factor (en este caso fertilizante) en

un diseño en bloques completos, es el siguiente:

ijjiijY

Yij es la observación del i-ésimo tratamiento en el j-ésimo bloque

μ es la media general de las observaciones

τi es el efecto del i-ésimo tratamiento

βj es el efecto del j-ésimo bloque

determinista

aleatorio

Page 197: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

197

εij es una variable aleatoria normal, independientemente distribuida con esperanza 0 y

varianza σ2

Fórmulas de trabajo de análisis de la varianza de un experimento unifactorial con diseño

en bloques completos aleatorizados:

Tabla de Análisis de la Varianza para un diseño en Bloques:

El procedimiento del test de hipótesis es similar al realizado para un diseño completamente

aleatorizado. Dado que F, 41.57, es mayor que el cuantil (1-) de una distribución F4,12 se

rechaza la hipótesis de igualdad de tratamientos. La aplicación del test a posteriori es

directa y el número de bloques (b) sustituye el número de repeticiones en el cálculo del

error estándar de la comparación.

La eficacia de este diseño depende de los efectos de los bloques. Si éstos son pequeños, es

más eficaz el diseño completamente aleatorio ya que el denominador en la comparación de

tratamientos tiene menos grados de libertad. Sin embargo si los bloques influyen es mucho

mejor y más eficaz este modelo, ya que disminuye la variabilidad no explicada. Por ello, es

mejor estudiar primero el modelo de bloques aleatorizados y, si los bloques no influyen, se

pasa fácilmente al modelo de un solo factor sumando en la tabla ANAVA la fila del factor

bloque con la de la variabilidad residual.

Page 198: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

198

Cuadrado latino

Una extensión directa del concepto de bloques completos aleatorizado es la del cuadrado

latino, en el que se incorporan al diseño, el reconocimiento de dos fuentes sistemáticas de

variación entre parcelas.

Este diseño no es tan popular como el anterior ya que impone un número fijo de

repeticiones y cuando el número de tratamientos es grande, el experimento completo puede

ser inmanejable. De hecho, el número total de parcelas experimentales es igual al cuadrado

del número de tratamientos. No obstante estas dificultades, el cuadrado latino es un diseño

base de otros diseños como los llamados experimentos cross-over, populares en la

experimentación con animales.

El diseño en cuadrado latino clásico de la experimentación agrícola, en el que ensayan a

tratamientos, se obtiene ordenando a2 parcelas experimentales en un cuadrado de a.a

parcelas y asignando a parcelas a cada uno de los tratamientos de tal manera que en cada

fila y en cada columna haya sólo una repetición de cada tratamiento como muestra la

Figura

El modelo lineal de un experimento en diseño cuadrado latino es el siguiente:

ijkkjiijY

donde Yijk es la observación de la respuesta del i-ésimo tratamiento en la columna j-ésima

y fila k-ésima. εijk es el término de error correspondiente a la observación del i-ésimo

tratamiento en la columna j-ésima y fila k-ésima. En este modelo los parámetros χj y ρk

modelan los efectos de las columnas y las filas respectivamente.

Fórmulas de trabajo de análisis de la varianza de un experimento unifactorial con diseño

en Cuadrado Latino:

Page 199: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

199

Ejemplo:

La siguiente tabla muestra los rendimientos de remolacha azucarera en toneladas por

hectárea bajo tres tipos de labores culturales:

Es importante notar que la suma de cuadrados debida a las columnas es

muy importante y si no hubiera sido removida de la suma de cuadrados del error la interpretación de estos resultados hubiera sido diferente.

Page 200: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

200

Estructura de tratamientos

Anteriormente se presentó a los tratamientos como los distintos niveles de un único factor

o como combinación de niveles de varios factores.

En este último caso, el experimentador se pregunta si es posible identificar los efectos de

cada uno de los factores, estimarlos y eventualmente probar hipótesis sobre ellos.

Aunque la respuesta es afirmativa aún persiste una duda fundamental ¿para qué diseñar

experimentos en los que hay que usar herramientas analíticas especiales para separar los

efectos de los distintos factores si se pueden planificar experimentos más sencillos para

cada factor evitando complicaciones?.

La respuesta a este problema está relacionada con el concepto de eficiencia y que en

términos prácticos se relaciona con la cantidad de repeticiones que son necesarias en un

experimento para tener una precisión dada.

Por ejemplo si para evaluar los efectos de los factores A y B con tres niveles cada uno se

requieren tres repeticiones para cada nivel, se necesitarán 9 unidades experimentales para

el ensayo del factor A y otras 9 para el ensayo del factor B, haciendo un total de 18

unidades experimentales.

Si en vez de utilizar dos experimentos separados se planifica un experimento conjunto con

9 tratamientos (3 niveles de A x 3 niveles de B) y solo se repite una vez cada tratamiento,

solo se necesitarán 9 unidades experimentales para acomodar todo el experimento y aún se

tendrán tres unidades tratadas con cada uno de los niveles de cada uno de los factores.

Es decir que, aunque no se cuentan con repeticiones para las combinaciones de niveles de

factores, si las hay (tres) para cada uno de los niveles de los factores individuales. En

consecuencia, con la mitad de las unidades experimentales necesarias para acomodar los

experimentos separados, se puede montar un experimento conjunto que provee la misma

precisión para la evaluación de cada factor individual.

Si aún se quisieran invertir las 18 unidades experimentales de los dos experimentos

originales, se podría hacer una repetición completa de todo el experimento y se tendría el

doble de unidades experimentales para cada nivel de cada uno de los factores y en este

sentido, los EXPERIMENTOS FACTORIALES son más eficientes para evaluar los

efectos de los factores individuales.

Pero los experimentos factoriales, cuando están repetidos, permiten además, probar la

existencia y estimar la magnitud de respuestas diferenciales a la combinación de los

factores individuales, fenómeno que se conoce como interacción. Dado que la interacción

es común en los sistemas biológicos, los experimentos que son capaces de detectarla y

estimarla son siempre preferibles.

Page 201: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

201

Experimentos Factoriales

En los modelos de los experimentos factoriales los parámetros Τi que hacen referencia a

los efectos de tratamientos se descompone en un conjunto de parámetros que dan cuenta de

cada uno de los factores intervinientes y se agrega según sea necesario, conveniente y

posible, los términos correspondientes a las interacciones.

MODELOS ADITIVOS

Los modelos factoriales aditivos son aquellos en los que los términos que modelan la

interacción están ausentes. Para ejemplificar este caso se presenta un experimento factorial

2x2 (dos factores con dos niveles cada uno) en el que la interacción se supone ausente y

montado en un diseño completamente aleatorizado.

Los Factores se han designado como A y B y sus niveles como A1,A2 y B1,B2. Como

existen 4 tratamientos (A1B1, A1B2, A2B1, A2B2) y estos no están repetidos, se necesitan

sólo cuatro parcelas experimentales. Dado que el diseño es completamente aleatorizado la

asignación de las parcelas a cada uno de los tratamientos es al azar. Un arreglo posible se

presenta en la siguiente figura.

Page 202: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

202

Glosario de términos estadísticos A

AJUSTE DE BONFERRONI

Técnica estadística que ajusta el nivel de significación en relación al número de pruebas

estadísticas realizadas simultáneamente sobre un conjunto de datos. El nivel de

significación para cada prueba se calcula dividiendo el error global de tipo I entre el

número de pruebas a realizar. El ajuste de Bonferroni se considera conservador.

AMPLITUD O RANGO

La diferencia entre el valor máximo y mínimo de los valores de una variable. En la

amplitud de una variable se encuentran comprendidos el 100% de los valores muestrales

ANACOVA o ANCOVA

Análisis de la covarianza. Es una técnica estadística que combina ANOVA (pues compara

medias entre grupos) y análisis de regresión (ajusta las comparaciones de las medias entres

los grupos por variables continuas o covariables)

ANAVA o ANOVA

Análisis de la varianza. Es una técnica estadística que sirve para decidir/determinar si las

diferencias que existen entre las medias de tres o más grupos (niveles de clasificación) son

estadísticamente significativas. Las técnicas de ANOVA se basan en la partición de la

varianza para establecer si la varianza explicada por los grupos formados es

suficientemente mayor que la varianza residual o no explicada

ÁREA BAJO LA CURVA entre dos puntos

Si la curva viene dada por una función de densidad teórica, representa la probabilidad de

que la variable aleatoria tome un valor dentro del intervalo determinado por esos dos

puntos

B

BONFERRONI

Ver ajuste de bonferroni

C

CARACTERÍSTICAS

Propiedades de las unidades o elementos que componen las muestras. Se miden mediante

variables. Se asume que los individuos presentan diferentes características.

CAUSALIDAD

Relación entre causa y efecto. Generalmente identificadas como variables. No hay que

confundir causalidad con correlación. La correlación mide la similitud estructural

numérica entre dos variables. Normalmente la existencia de correlación es condición

necesaria para la causalidad.

COEFICIENTE DE CORRELACIÓN

Estadístico que cuantifica la correlación. Sus valores están comprendidos entre -1 y 1

Page 203: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

203

COEFICIENTE DE DETERMINACIÓN

Es el cuadrado del coeficiente de correlación. Expresado en tanto por ciento mide el grado

de información compartida entre dos variables continuas

COEFICIENTES DE REGRESIÓN

En un modelo de regresión lineal son los valores de a y b que determinan la expresión de

la recta de regresión y=a + b·x

COEFICIENTE DE VARIACIÓN

Es una medida de dispersión relativa. No tiene unidades y se calcula dividiendo la cuasi-

desviación típica entre la media muestral. Se suele expresar en tanto por ciento

CONTRASTE BILATERAL

Contraste de hipótesis en la que la hipótesis alternativa da opción a igualdad o superioridad

CONTRASTE DE HIPÓTESIS

Es el proceso estadístico que se sigue para la toma de decisiones a partir de la información

de la muestra. Comparando el valor del estadístico experimental con le valor teórico

rechazamos o no la hipótesis nula

CONTRASTE UNILATERAL

Contraste de hipótesis en la que la hipótesis alternativa da opción a solo igualdad o a solo

superioridad

CORRELACIÓN

Expresa la concordancia entre dos variables según el sentido de la relación de estas en

términos de aumento ó disminución

COVARIABLES

Variables continuas independientes que junto a una o más variables grupo de tratamiento

sirven para explicar una variable respuesta continua. Supongamos que pretendemos

explicar las diferencias existentes en el nivel de cortisol en sangre por grupo de tratamiento

A/B, teniendo en cuenta el peso. La variable peso es una covariable

COVARIANZA

Representa la media del producto de las desviaciones de dos variables en relación a su

media.

CUARTILES

Existen tres cuartiles: Q!, Q2 y Q3. Estos números dividen a los valores muestrales , una

vez ordenados, en cuatro partes homogéneas en cuanto a número de observaciones. Así Q1

determina el valor que hace que haya un 25% de valores muestrales por debajo de éste, y

un 75% por encima de éste. Q2 es la mediana

CUASIVARIANZA

Característica de una muestra o población que cuantifica su dispersión o variabilidad. La

cuasi varianza se obtiene multiplicando la varianza por n / (n-1). La cuasivarianza muestral

es un estimador centrado (no sesgado) de la varianza poblacional.

D

DATOS CENSURADOS

Page 204: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

204

En análisis de supervivencia son datos donde no se conoce el tiempo total hasta la

aparición del fracaso/éxito bien porque el individuo se retiró del estudio bien porque se

acabó el estudio (datos con censura administrativa) Existen datos censurados por la

izquierda y por la derecha.

DATOS PAREADOS

Datos de poblaciones dependientes, donde los datos de las variables van emparejados por

individuos, en contraposición con los datos independientes

DECILES

Corresponden a los percentiles 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80% , 90% y

100%

DESCRIPTIVA

Parte de la estadística que resume la información de la muestra. La información recogida y

resumida en los estadísticos se usa para la estimación de parámetros poblacionales

DESVIACIÓN ESTANDAR (TÍPICA)

Característica de una muestra o población que cuantifica su dispersión o variabilidad.

Tiene las mismas unidades que la variable. la desviación típica es invariante con respecto

al origen de la distribución. Su cuadrado es la varianza

DIAGRAMA DE PUNTOS (scatter plot)

Es un gráfico bidimensional o tridimensional que muestra la variación de los valores

muestrales de dos o tres variables.

DIAGRAMAS DE BARRAS

Representación gráfica para las variables discretas

DIFERENCIAS ESTADISTICAMENTE SIGNIFICATIVAS

Las diferencias entre lo observado y lo supuesto en la hipótesis nula no puede ser

explicado por el azar

DIFERENCIAS RELEVANTES

Diferencia esperada o definida a priori con un valor conceptual intrínseco. No confundir

diferencias estadísticamente significativas que establece si una diferencia, cualquiera que

sea su valor

DIMENSIÓN

Si estudiamos una única variable la dimensión es uno, si estudiamos la información de dos

variables en forma conjunta la dimensión es dos,...

DISPERSIÓN

Ver estadísticos de dispersión

DISTRIBUCIÓN DE DATOS

En la realización de un experimento, corresponde a la recogida de los datos experimentales

para cada individuo y cada variable

DISTRIBUCIÓN NORMAL O DE GAUSS

Page 205: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

205

Es una distribución teórica de probabilidad que se usa tanto en la estadística aplicada como

en la teórica. Aparece en la práctica con mucha frecuencia como consecuencia del

importante resultado que establece el teorema central del límite. Tiene una forma en forma

de campana, y viene caracterizada por únicamente dos valores: la media y la varianza.

DISTRIBUCIÓN T STUDENT

Distribución teórica de probabilidad. Se usa para la comparación de dos medias en

poblaciones independientes y normales

E

ECUACIÓN DE LA REGRESIÓN

Ver recta de regresión

ERROR ALFA

Es el error que se comete cuando se rechaza una hipótesis nula cuando ésta verdadera.

Error de tipo I

ERROR ALFA GLOBAL

Es el error alfa que se comete por hacer múltiples comparaciones

ERROR BETA

Es el error que se comete cuando no se rechaza una hipótesis nula siendo ésta falsa. Error

de tipo II

ERROR DE PRIMERA ESPECIE

Ver error alfa

ERROR DE SEGUNDA ESPECIE

Ver error beta

ERROR DE TIPO I

Ver error alfa

ERROR DE TIPO II

Ve error beta

ERROR ESTANDAR DE LA MEDIA

Es el cociente entre la cuasi varianza muestral y la raíz cuadrada del tamaño muestral

ERROR ESTANDAR DE LOS RESIDUOS

Estadístico de dispersión de los valores de los residuos después de la regresión.

ERROR FALSO NEGATIVO

Ver error beta

ERROR FALSO POSITIVO

Ver error alfa

ESCALA

La distribución de datos puede recogerse en distintas escalas: nominal, dicotómica,

discreta o continua

Page 206: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

206

ESPECIFICIDAD DE UN TEST DIAGNÓSTICO

Representa la probabilidad de que un individuo este sano habiendo dado negativo en el test

diagnóstico

ESTADÍSTICO DE CONTRASTE EXPERIMENTAL

Se utiliza para realizar las pruebas o contrastes de hipótesis. Depende de la muestra. Su

valor hay que compararlo con el valor crítico dado en las tablas de distribución teóricas

ESTADÍSTICOS

Son funciones de la muestra. Su valor variará según la muestra, pero nos permite hacer

estimaciones de parámetro poblacionales o construir estadísticos experimentales para

tomar decisiones acerca de la

ESTADÍSTICOS DE CENTRALIZACIÓN

Son estadísticos que nos resumen la información de la muestra dándonos información

acerca del valor donde parece concentrarse la distribución de datos

ESTADÍSTICOS DE DISPERSIÓN

Son estadísticos que nos resumen la información de la muestra dándonos información

acerca de la magnitud del alejamiento de la distribución de datos en relación a un valor

central o de concentración de los datos

ESTADÍSTICOS DE FORMA

Son aquellos que nos hablan de la forma de la distribución de datos en cuanto a su simetría

y su apuntamiento

ESTIMACIÓN

Técnicas estadísticas que a partir de la información de la estadística descriptiva pretenden

conocer cómo es la población en global. Existen técnicas de estimación puntuales y por

intervalos de confianza

ESTIMADOR

Función de la muestra que sirve para dar valores candidatos a los valores desconocidos

poblacionales.

F

FACTOR

Variable que se incluye en un modelo con el propósito de explicar la variación en la

variable respuesta. Ver variable independiente o explicativa

FACTOR DE CLASIFICACIÓN

Es una variable que se usa para clasificar los datos experimentales en grupos. Los factores

de clasificación son variables nominales. Cada factor de clasificación se compone de

niveles. Así la variable "Fumador" codificada como "nunca", "ex fumador", "fumador

actual" es un factor de clasificación con tres niveles

FRECUENCIAS: ABSOLUTAS, RELATIVAS

Las frecuencias absolutas representan el recuento de los valores de una variable discreta de

forma que su suma nos da el tamaño muestral .Las relativas son las absolutas divididas por

Page 207: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

207

el tamaño muestral .Las frecuencias relativas sumarán 1 ó 100 según se expresen en tanto

por uno o en tanto por ciento

FUNCIÓN

Función matemática. Expresión que liga dos o mas variables de forma determinística

FUNCIÓN TEÓRICA DE PROBABILIDAD

Idealización matemática que nos permite calcular probabilidades de que una variable tome

un valor (caso discreto) o rango de valores (caso continuo)

G

GAUSSIANA

Ver distribución normal

GRADO DE CONFIANZA

Ver nivel de confianza

GRADOS DE LIBERTAD

El número de datos que se pueden variar para que a un total fijo podamos reconstruir dicho

total. así la media tiene n-1 grado de libertad, pues si conocemos el valor de esta podemos

variar n-1 datos ya que restante vendrá fijado. En una tabla 4x3, si nos dan las frecuencias

marginales podremos variar las frecuencias de (4-1)x(3-1)=3x2=6 celdas, quedando

forzosamente determinadas las frecuencias de las celdas restantes. Así, los grados de

libertad serían en este caso de 6

H

HETEROCEDASTICIDAD

Hipótesis de no igualdad de varianzas poblacionales en distintos grupos

HIPÓTESIS

Cualquier teoría que formule posibles líneas de trabajo experimental. Ver hipótesis nula y

alternativa

HIPOTESIS ALTERNATIVA

Aquella que queremos probar. Representa la hipótesis renovadora

HIPOTESIS NULA

Aquella que queremos rechazar. Representa a la situación actual

HISTOGRAMAS

Es un gráfico en forma de barras de una variable continua que se ha discretizado en

intervalos, de forma que la altura de las barras en cada intervalo indica la frecuencia

relativa en éste.

HOMOCEDASTICIDAD

Hipótesis de igualdad de varianzas poblacionales en distintos grupos

I

IMPRECISION

Error que se comete en la predicción

Page 208: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

208

INDEPENDENCIA

Son datos que no están ligados entre si

INTERVALO DE PROBABILIDAD

Proporción de casos entre dos valores definidos de la muestra

INTERVALOS CONFIDENCIALES

Intervalos de confianza. Intervalos fiduciales. Incluyen una cota mínima y máxima del

verdadero parámetro poblacional con un determinado nivel de confianza

J

JACKNIFE

Método estadístico de estimación por intervalos de confianza basado en la simulación con

reeemplazamineto, propuesto por TuKey

L

LIMITES CONFIDENCIALES

Extremos de los intervalos confidenciales

M

MAXIMO

Es un valor muestral de forma que por encima de este no hay valores muestrales

MEDIANA

Corresponde al percentil 50%. Es decir, la mediana hace que haya un 50% de valores

muestrales inferiores a ella y un 50% de valores muestrales superiores a ella.

MEDIA

Es una medida de centralización para una variable continua. Se obtiene sumado todos los

valores muestrales y dividiendo por el tamaño muestral

MÍNIMO

Es un valor muestral de forma que por debajo de este no hay valores muestrales

MODA

Es el valor que más se repite en una variable nominal

MODELO

Intento matemático / estadístico para explicar una variable respuesta por medio de una o

más variables explicativas o factores

MUESTRAS

Subgrupos de observaciones de la población de estudio.

N

NIVEL DE CONFIANZA

Se define como 1 menos el nivel de significación. Se suele expresar en tanto por ciento

NIVEL DE SIGNIFICACIÓN

Page 209: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

209

La probabilidad de rechazar una hipótesis nula verdadera; es decir, la probabilidad de

cometer un error de tipo I

NIVELES DE CLASIFICACIÓN

Los distintos posibles valores que pueden aparecer en una variable explicativa nominal u

ordinal

NORMAL

Ver distribución de probabilidad normal

NÚMEROS

Ver valores numéricos

O

OBSERVACION

Sinónimo de caso registro e individuo

ORDEN DE UNA MATRIZ

Es el número que designa, en una matriz cuadrada, el numero de filas o columnas

ORTOGONAL

Se dice de las variables y en general de las funciones que son independientes.

P

P (p- valor)

El nivel de significación observado en le test. Cuanto más pequeño sea, mayor será la

evidencia para rechazar la hipótesis nula

PARÁMETROS

Son valores desconocidos de características de una distribución teórica. El objetivo de la

estadística es estimarlos bien dando un valor concreto, bien dado un intervalo confidencial

PEARSON ( r de Pearson)

Ver coeficiente de correlación

PERCENTILES

Un percentil 90% corresponde a un valor que divide a la muestra en dos, de forma que hay

un 90% de valores muestrales inferiores a éste, y un 10% de valores muestrales superiores

a éste. Los percentiles 25%, 50%, 75% son el primer, segundo y tercer cuartil

respectivamente

POBLACIONES

Conjunto de individuos de interés. Normalmente no se dispone de información de toda la

población y se recurre a muestras

PORCENTAJES

Proporciones expresadas en tanto por ciento

POTENCIA DE LA PRUEBA

(1-beta). Es decir la probabilidad de rechazar una hipótesis nula siendo ésta falsa. Se suele

expresar en tanto por ciento

Page 210: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

210

PREVALECIA

Cociente entre el número de individuos que poseen una característica (p. ej. enfermedad)

entre el total de la población

PROBABILIDAD

Asignación de un número entre cero y uno a cada resultado experimental.

PROPORCION

Número de individuos que verifican una condición entre el total del tamaño muestral. Se

puede expresar en tanto por uno o en tanto por cien

PRUEBA CHI CUADRADO

Se utiliza para analizar tablas de contingencia y comparación de proporciones en datos

independientes

PRUEBA DE F

Prueba estadística que sirve para comparar varianzas. El estadístico F experimental es el

estadístico de contraste en el ANOVA y otras pruebas de comparación de varianzas

PRUEBA DE FISHER

Es la prueba estadística de elección cuando la prueba de chi cuadrado no puede ser

empleada por tamaño muestral insuficiente.

PRUEBA DE LOS SIGNOS

Prueba estadística que sirve para comparar dos variables en términos de diferencias

positiva o negativa, y no en términos de magnitud

PRUEBA DE MCNEMAR

Prueba estadística que sirve para comparar proporciones en datos pareados

PRUEBA NO PARAMÉTRICA

Técnica estadística que no presupone ninguna distribución de probabilidad teórica de la

distribución de nuestros datos

PRUEBA PARAMETRICA

En contraposición de la técnicas no paramétricas, las técnicas paramétricas si presuponen

una distribución teórica de probabilidad subyacente para la distribución de los datos. Son

más potentes que las no paramétricas.

PRUEBA T DE STUDENT

Se utiliza para la comparación de dos medias de poblaciones independientes y normales

PUNTO DE INFLEXIÓN

Representan los puntos de una función matemática donde la curva pasa de ser cóncava a

convexa o recíprocamente

R

RANGO

Page 211: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

211

Diferencia entre el valor máximo y mínimo de un muestra o población. Solo es valido en

variables continuas. Es una mala traducción de ingles "range". Amplitud

RANGO INTERCUARTILICO

La diferencia entre el percentil 75% y el percentil 25%

RAZÓN DE VEROSIMILITUDES

Combina resultados de varios tests diagnósticos dando una probabilidad de enfermedad en

base a ese conjunto de resultados en forma global

RECTA DE REGRESIÓN

Es el modelo que sirve para explicar una variable respuesta continua en términos de un

único factor o variable explicativa

REGRESION

Técnica estadística que relaciona una variable dependiente (y) con la información

suministrada por otra variable independiente (x). Ambas variables deben ser continuas. Si

asumimos relación lineal, utilizaremos la regresión lineal simple. Entre las restricciones de

la RLS se incluyen:

Los residuos deben ser normales

Las observaciones independientes

La dispersión de los residuos debe mantenerse a lo largo de la recta de regresión

REGRESIÓN LINEAL MÚLTIPLE

El modelo de regresión lineal múltiple sirve para explicar una variable respuesta continua

en términos de varios factores o variables explicativas continuas

REGRESIÓN POLINÓMICA

Es un tipo especial de regresión múltiple donde aparecen como variables independientes

una única variable y potencias de ésta (al cuadrado, al cubo.)

RELACIÓN LINEAL

Ver recta de regresión

RESIDUOS

Residuales. Distribución de valores muestrales calculados como la diferencia entre el valor

de la variables respuesta (y) y el estimado del modelo de regresión ( ^y). La distribución

de residuos es importante como indicador del cumplimiento de las condiciones de

aplicación de las técnicas de correlación, así como de la bondad del ajuste.

S

SECTORES CIRCULARES

Forma de representación en forma de tarta de variables discretas nominales

SENSIBILIDAD DE UN TEST DIAGNÓSTICO

Representa la probabilidad de que un individuo esté enfermo habiendo dado positivo en el

test diagnóstico

SESGO

La diferencia entre el valor del parámetro y su valor esperado. También se utiliza en

contraposición de aleatorio, así una muestra sesgada es no aleatoria

Page 212: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

212

SIMETRIA

Es una medida que refleja si los valores muestrales se extienden o no de igual forma a

ambos lados de la media.

SPEARMAN (rho de Spearman)

Coeficiente de correlación ordinal análogo al coeficiente r de Pearson de correlación lineal

SUMATORIO

Estadístico descriptivo que suma los valores numéricos de los datos muestrales de

distribuciones continuas

T

TABLAS DE CONTINGENCIA

Tablas de 2 o más variables, donde en cada celda se contabilizan los individuos que

pertenecen a cada combinación de los posibles niveles de estas variables

TABLAS DE FRECUENCIAS

Ver tablas de contingencia

TABLA DEL ANAVA

Es una forma de presentar la variabilidad observada en una variable respuesta en términos

aditivos según las distintas fuentes de variación: modelo y residual

TAMAÑO MUESTRAL

Número de individuos u observaciones que componen la muestra

TECNICAS DE CORRELACION

Ver coeficiente de correlación

TECNICAS DE REGRESION

Ver recta de regresión y regresión lineal múltiple

TECNICAS NO PARAMETRICAS

Son técnicas estadísticas que no presuponen ningún modelo probabilístico teórico. Son

menos potentes que las técnicas paramétricas, aunque tienen la ventaja que se pueden

aplicar más fácilmente

TEOREMA CENTRAL DEL LIMITE

Resultado básico en la estadística que afirma que la distribución de las medias muestrales

será normal para un n suficientemente grande con independencia de la distribución de

datos de partida

TRANSFORMACIONES

Cambios de escala con el propósito de conseguir linealidad, normalidad en los datos

U

UNIDAD

Page 213: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

213

Concepto primario relacionado con los componentes elementales de las muestras

estadísticas. Sinónimo, pero no esencialmente idéntico, de caso, observación , registro o

individuo

UNIVERSO

Conjunto infinito de elementos o unidades generado por un modelo teórico. Conjunto real

de todos los elementos que comparten unas condiciones de admisión en el conjunto

VALORES NUMÉRICOS

Resultados de las variables para cada individuo en la muestra de estudio. Su naturaleza

puede ser nominal, dicotómica, ordinal o continua

V

VALORES NUMÉRICOS

Resultados de las variables para cada individuo en la muestra de estudio. Su naturaleza

puede ser nominal, dicotómica, ordinal o continua

VALOR PREDICTIVO POSITIVO DE UN TEST DIAGNOSTICO

La probabilidad de que un individuo esté enfermo si el test diagnóstico da positivo

VALOR PREDICTIVO NEGATIVO DE UN TEST DIAGNOSTICO

La probabilidad de que un individuo esté enfermo si el test diagnóstico da negativo

VARIABLE

Objeto matemático que puede tomar diferentes valores. Generalmente asociado a

propiedades o características de las unidades de la muestra. Lo contrario de variable es

constante.

VARIABLE ALEATORIA

Variable cuyo resultado varía según la muestra según una distribución de probabilidad

VARIABLE CONTINUA

Aquella que puede tomar una infinidad de valores, de forma que dados dos valores

cualesquiera, también pueda tomar cualquier valor entre dichos valores

VARIABLE DEPENDIENTE

Ver variable respuesta

VARIABLE DISCRETA

Variable que toma un número finito o infinito de valores, de forma que no cubre todos los

posibles valores numéricos entre dos dados, en contraposición de las continuas

VARIABLE EXPLICATIVA

Ver variable independiente

VARIABLE INDEPENDIENTES O EXPLICATIVAS

Variables que no sirven para construir un modelo que explique el comportamiento de una

o más variables respuesta

VARIABLE RESPUESTA O DEPENDIENTE

Page 214: Mg Hugo Fernando Ayanfiles.hugo-fernando-ayan.webnode.com.ar/200000123-d668dd7623... · Glosario de términos estadísticos ..... 202. 6 Condición de Regularidad Promedio mínimo

214

Variable objeto del estudio y que sus resultados se pretenden explicar por medio de las

variables llamadas explicativas o independientes

VARIABLES

Describen características en las observaciones realizadas

VARIANZA

Característica de una muestra o población que cuantifica su dispersión o variabilidad. La

varianza tiene unidades al cuadrado de la variable. Su raíz cuadrada positiva es la

desviación típica. La varianza muestral es un estimador sesgado de la varianza poblacional

X

X2 Chi- cuadrado

Ver prueba de Chi cuadrado

W

WILCOXON

Prueba estadística no paramétrica para la comparación de dos muestras (dos tratamientos).

Las distribuciones de datos no necesitan seguir la distribución normal. Es por tanto una

prueba menos restrictiva que la prueba t-Student.