control.docx

63
REVICION DE LOS FUNDAMENTOS DE ESTADISTICA I. OBJETIVO Revisar los principales conceptos y aplicaciones de los fundamentos de estadística, debido a su importante relación con las actividades de control de calidad en la industria alimentaria. II. REVISIÓN Y APLICACIONES A PRESENTAR II.1. DISTRIBUCIONES DE FRECUENCIA 2.1.1 DEFINICIONES RELATIVAS A LAS DISTRIBUCIONES DE FRECUENCIAS Distribuciones de frecuencia. Necesidad de resumir la información. Para que los datos sean útiles deben organizarse para distinguir patrones y tendencias y llegar así a conclusiones lógicas. Una forma de organizar un conjunto de datos es clasificarlos en categorías o clases y luego contar cuántas observaciones quedan dentro de cada categoría. Para el análisis e interpretación de datos es valioso conocer: . La forma o patrón de distribución de los datos. . La posición de la distribución: alrededor de qué valor se tienden a concentrar los datos. . Variabilidad: la dispersión de los datos alrededor de los valores centrales. Ordenamiento o arreglo de los datos en clases o categorías indicando para cada una de ellas, el número de elementos que contiene o frecuencia. Frecuencia relativa. Se obtiene dividiendo la frecuencia absoluta por el número de observaciones. Denota la importancia de la clase, al expresarse en términos porcentuales. Facilitan el análisis de los datos, en especial para comparar distribuciones de frecuencias basadas en diferentes números de observaciones.

Upload: omar-yana-caseres

Post on 24-Jan-2016

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: control.docx

REVICION DE LOS FUNDAMENTOS DE ESTADISTICA

I. OBJETIVORevisar los principales conceptos y aplicaciones de los fundamentos de estadística, debido a su importante relación con las actividades de control de calidad en la industria alimentaria.

II. REVISIÓN Y APLICACIONES A PRESENTARII.1. DISTRIBUCIONES DE FRECUENCIA

2.1.1 DEFINICIONES RELATIVAS A LAS DISTRIBUCIONES DE FRECUENCIAS

Distribuciones de frecuencia.

Necesidad de resumir la información. Para que los datos sean útiles deben organizarse para distinguir patrones y tendencias y llegar así a conclusiones lógicas.Una forma de organizar un conjunto de datos es clasificarlos en categorías o clases y luego contar cuántas observaciones quedan dentro de cada categoría.Para el análisis e interpretación de datos es valioso conocer: . La forma o patrón de distribución de los datos. . La posición de la distribución: alrededor de qué valor se tienden a concentrar los datos. . Variabilidad: la dispersión de los datos alrededor de los valores centrales.Ordenamiento o arreglo de los datos en clases o categorías indicando para cada una de ellas, el número de elementos que contiene o frecuencia.

Frecuencia relativa.

Se obtiene dividiendo la frecuencia absoluta por el número de observaciones. Denota la importancia de la clase, al expresarse en términos porcentuales. Facilitan el análisis de los datos, en especial para comparar distribuciones de frecuencias basadas en diferentes números de observaciones.

Frecuencia acumulada.

Número de observaciones que son menores que el límite superior de la clase.Se obtiene sumando las frecuencias (absolutas o relativas) en sentido descendente.

clase (número de intervalos).

Valor central de la clase. Promedio entre el límite inferior de entre dos clases sucesivas. Es el valor representativo de la clase.

Page 2: control.docx

Rango.En estadística, el rango representa la diferencia entre el valor máximo y el valor mínimo de un conjunto de datos. El rango nos muestra qué tan distribuidos están los valores en una serie. Si el rango es un número muy alto, entonces los valores de la serie están bastante distribuidos; en cambio, si se trata de un número pequeño, quiere decir que los valores de la serie están muy cerca entre sí.

2.1.2. REPRESENTACIONES GRAFICAS. Histograma de frecuencia.

Gráfico de barras verticales, las barras no guardan separación entre sí. Definidas las escalas en el eje cartesiano se dibuja un rectángulo acorde a la frecuencia de la clase (altura).

En clases de igual amplitud las barras son proporcionales a la frecuencia de la clase.

Diagrama de frecuencia.

Esta representación gráfica se corresponde con la de una función constante entre cada dos valores de la variable a representar hasta el menor de los dos valores de la variable que construyen el tramo en el que es constante.

Page 3: control.docx

Ejemplo:También para el ejemplo del Número de Hijos, se tendrá un diagrama de frecuencias como el del siguiente gráfico.

Diagrama de barras.

El diagrama de barras (o gráfico de barras) es un gráfico que se utiliza para representar datos de variables cualitativas o discretas. Está formado por barras rectangulares cuya altura es proporcional a la frecuencia de cada uno de los valores de la variable.

Tipos de gráficos de barrasExisten cuatro tipos de gráficos de barras según las series de datos y como están estas representadas:

Page 4: control.docx

1. Gráfico de barras sencillo:Representa los datos de una única serie o conjunto de datos.

2. Gráfico de barras agrupado:Representa los datos de dos o más series o conjuntos de datos.Cada serie se representa en un mismo color.Las barras se colocan una al lado de la otra por categoría de la variable para comparar las series de datos.

3. Gráfico de barras apiladoRepresenta los datos de dos o más series o conjuntos de datos.Cada serie se representa en un mismo color.Cada barra representa una categoría de la variable, y se divide en segmentos que representan cada una de las series de datos.

Page 5: control.docx

4. Pirámide de población:Una pirámide de población es un diagrama de barras bidireccional que muestra la población por sexo y rangos de edad en un momento determinado.En el eje vertical se representan los intervalos de edades. En el eje horizontal se representan los porcentajes de población. En una dirección se representarán los hombres y en el otro las mujeres.

Polígono de frecuencia.

Alternativo al histograma de frecuencias podemos representar la información a través de los llamados polígonos de frecuencias. Estos se construyen a partir de los puntos medios de cada clase. La utilización de los puntos medios o marcas de clase son llevados al escenario gráfico mediante la utilización de los polígonos de frecuencias. Se construye uniendo los puntos medios de cada clase localizados en las tapas superiores de los rectángulos utilizados en los histogramas de las gráficas. Su utilidad se hace necesaria cuando desean destacarse las variables de tendencia central, como son media, modas y medianas.

Page 6: control.docx

2.1.3. MEDIDAS ALGEBRAICAS DE LAS DISTRIBUCIONES DE FRECUENCIA. Medidas de exactitud.

Es el grado de concordancia entre el valor verdadero y el experimental. Un instrumento es exacto si las medidas realizadas con él son todas muy próximas, todas al valor "verdadero" de la magnitud medida. Cabe recalcar que es la proximidad entre el valor medido y el valor real, además indica una comparación con un valor aceptado. Por ejemplo, si la masa de una sustancia es 22.5 g y una medida de dicha masa es 22.4 g se puede considerar exacta; sin embargo, un valor de 20.05 es poco exacto.

Medidas de precisión.

Es la propiedad que se aplica a un conjunto de medidas de una misma magnitud en condiciones sensiblemente iguales, estas condiciones pueden ser: de repetabilidad, de precisión intermedia o de reproducibilidad. Un instrumento mide con precisión cuando la diferencia entre distintas medidas de una misma magnitud es muy pequeña. Los conceptos entre exactitud y precisión son independientes entre sí, pues algunas medidas pueden ser muy precisas pero no exactas.

2.2. DISTRIBUCIONES MÁS COMUNES:. Distribución Normal.

La distribución normal N (, es un modelo matemático que rige muchos fenómenos. La experiencia demuestra que las distribuciones de la mayoría de las muestras tomadas en el campo de la industria se aproximan a la distribución normal si el tamaño de la muestra es grande. Esta distribución queda definida por dos parámetros: la media y la desviación típicaSe presenta mediante una curva simétrica conocida como campana de Gauss. Esta distribución nos da la probabilidad de que al elegir un valor, éste tenga una medida contenida en unos intervalos definidos. Esto permitirá predecir de forma aproximada, el comportamiento futuro de un proceso, conociendo los datos del presente.

Page 7: control.docx
Page 8: control.docx
Page 9: control.docx
Page 10: control.docx

Ejemplo: Una maquina llena un recipiente con una cantidad medida de café. El peso del café en cada recipiente tiene una distribución normal con una media de 510g de café y una desviación estándar de 4g. ¿Cuál es la probabilidad de que un recipiente escogido al azar contenga menos de 500 g de café? Sea y = peso del café en el recipiente. Entonces,

f ( y )= 1

√2 π .4e−( y−510 )2 /2(4)2

La cantidad

z= y−5104

tendrá una distribución normal estándar

f ( y )= 1

√2 πe− z

2/2

Cuando y = 500, z = (500-510)/4 = -2,5. Por tanto,

Pr(y 500) = Pr(z 2,5) = ∫−∞

2,5

f ( z)dz

Esta cantidad aparece tabulada en la tabla como 0.0048. La probabilidad de que un recipiente tomado al azar contenga menos de 500 g de café es de 0.0048.

.Distribución Binomial.

La distribución binomial es una distribución de probabilidad discreta que mide el número de éxitos si la variable es una variable aleatoria discreta, es decir, sólo puede tomar los valores 0, 1, 2, 3, 4, ..., n suponiendo que se han realizado n pruebas. En las empresas tenemos muchas situaciones donde se espera que ocurra o no un evento específico. Éste, sólo puede ser de éxito o fracaso. Por ejemplo, en la producción de una pieza, ésta puede salir buena o defectuosa. Para situaciones como éstas se utiliza la distribución binomial. La estructura de este objeto de aprendizaje es como sigue: en primer lugar se presentan los objetivos que se desean consigan los alumnos; a continuación se trabaja la definición y características de la distribución binomial, haciendo especial relevancia en como identificarla y diferenciarla de otras distribuciones discretas y se resuelven algunos ejemplos prácticos para ayudar a su comprensión. Finalmente, en el Cierre, se destacan

Page 11: control.docx

los conceptos básicos de aprendizaje con respecto a la distribución binomial y sus aplicaciones prácticas.

Características Se dice que X sigue una distribución Binomial de parámetros n y p, que se representa con la siguiente notación:

X =B (n, p)

Su función de probabilidad viene definida por:

Ecuación 1. Función de Probabilidad de la distribución Binomial.

Donde, n, debe ser un entero positivo y p debe pertenecer al intervalo 0 ≤ p ≤ 1, por ser una proporción. Su media y su varianza, vendrán dadas por las siguientes expresiones:

E = (X)=NxPEcuación 2. Esperanza de la distribución Binomial.

Una distribución de probabilidad binomial es una distribución teórica, que se puede calcular mediante el uso de la fórmula de la función de probabilidad. Sin embargo, los cálculos pueden ser muy tediosos, especialmente cuando nos piden probabilidades acumuladas, ya que será necesario aplicar la fórmula repetidamente. Por tal motivo existen tablas en las que se pueden consultar las probabilidades de un determinado número de éxitos para varios valores de n y de p, pero únicamente para valores máximos de n = 25. Para cualquier n superior hemos de utilizar inevitablemente la fórmula de la función de probabilidad. Se puede obtener más información al respecto en el recurso poli media, referido en bibliografía. Sin embargo, el cálculo puede ser todavía tedioso.‐ Para solventar el problema del cálculo de probabilidades de la distribución binomial para n elevados, y siempre que el producto n x p x (1 p) es elevado, del orden de 9 o superior,‐ las probabilidades correspondientes a una variable con distribución binomial, pueden también aproximarse, usando las tablas de la distribución normal, por el Teorema Central del Límite, la suma de variables aleatorias independientes, tiende a distribuirse normalmente a medida que aumenta el número de sumandos. En caso de que podamos aproximar, debemos tener en cuenta que estamos pasando de una variable discreta (binomial) a una continua (normal), y por tanto son distribuciones diferentes. El “precio” que hay que pagar por pasar de una a otra se denomina “corrección por continuidad” y

Page 12: control.docx

consiste en hacer determinados ajustes para que la aproximación realizada sea lo más precisa posible. En las distribuciones continuas, la probabilidad de obtener un valor exacto es cero, como se vio en temas precedentes y en consecuencia, la corrección por continuidad Consiste en tomar un pequeño intervalo de longitud 1 alrededor del determinado punto k (aumentar y disminuir un poco el valor solicitado creando en lugar de una valor único un intervalo). La distribución binomial se puede expresar de forma gráfica, y que en realidad consiste en un diagrama de barras, similar a los obtenidos en la función de probabilidad pero que van a ir variando su forma en función de los valores de n y de p al modificarse las probabilidades de los distintos posibles valores de P(X=x).

Por ejemplo, para p=0,2 (azul), y p=0,3 (rojo) y distintos valores de n:

En la siguiente figura, puede apreciarse como al incrementar n, se ve que los curvas de frecuencias se aproximan a una forma en forma de campana, con la típica forma de campana de Gauss, pudiendo a deducirse, que conforme aumenta n, las variables discretas que siguen una distribución binomial tiende a aproximarse a la distribución normal.

Page 13: control.docx

Tabla de distribucion binomial:

Page 14: control.docx

Ejemplo 3.

Con el propósito de verificar si se aceptan los lotes de piezas de que se reciben en una determinada fábrica, se lleva a cabo un plan de control consistente en seleccionar 10 artículos al azar de cada lote y determinar el número de piezas defectuosas. Un lote se rechaza si se encuentran dos o más piezas defectuosas. ¿Cuál es la probabilidad de aceptar lotes con un 5 % de piezas defectuosas? Sea el suceso A: ser pieza defectuosa. La probabilidad de A, será p= 0,05 al ser la proporción de defectuosos de lote del 5%. Sea la variable X número piezas defectuosas en el lote B (n=10, p=0,05). Sea el coeficiente de aceptación, a (o c), a = 2.

p (aceptar )=P (X<2 )=P ( X=0 )+P (X=1)

P (aceptar )=(100 )x (0.05 )0 x (1−0.005)10+( 10

1 ) x (0.005)1(1−0.005)9

P (aceptar) = 0.599 + 0.315 = 0.914

Distribución de Poisson.

La distribución de Poisson se utiliza en situaciones donde los sucesos son impredecibles o de ocurrencia aleatoria. En otras palabras no se sabe el total de posibles resultados.

Permite determinar la probabilidad de ocurrencia de un suceso con resultado discreto.Es muy útil cuando la muestra o segmento n es grande y la probabilidad de éxitos p es pequeña.Se utiliza cuando la probabilidad del evento que nos interesa se distribuye dentro de un segmento n dado como por ejemplo distancia, área, volumen o tiempo definido.

Fórmula de Poisson:

Page 15: control.docx

P (x I λ) = la probabilidad de que ocurran X éxitos cuando el número promedio de ocurrencia de ellos es λ

λ media o promedio de éxitos por unidad de tiempo, área o producto

e =es la constante 2.7183, base de los logaritmos naturales, en tanto que los valores de e- λ

pueden obtenerse de tablas.

X = señala un valor específico que la variable pueda tomar (el número de éxitos que deseamos ocurran)

Por definición, el valor esperado (media en el intervalo o región de interés) de una distribución de probabilidad de Poisson es igual a la media de la distribución.

E(X) = λ

La varianza del número de eventos de una distribución de probabilidad de Poisson también es igual a la media de la distribución λ. De este modo, la desviación estándar es la raíz cuadrada de λ.

V(X) = λ σ = √λ

Page 16: control.docx

n = número de experimentos p = probabilidad de exito

Page 17: control.docx
Page 18: control.docx

Una microbiologa quiere estimar la concentración de cierto tipo de bacteria en un muestra de agua tratada, ella pone una muestra de 0.5 ml de agua tratada en vidrio del microscopio y descubre 39 bacterias. Estime la concentración por ml. En esta agua tratada y determine la incertidumbre en la estimación.

X = numero de bacterias en los 0.5 mlY = concentración real de bacterias por ml.Poisson = (0.5)

El valor observado de x = 39. La concentración estimada de y = 39/0.5 = 78

Page 19: control.docx

La incertidumbre x=78/0.5 = 12.49

Y = 78 +- 12

Distribución hipergeometrica.

En teoría de la probabilidad la distribución hipergeométrica es

una distribución discreta relacionada con muestreos aleatorios y sin

reemplazo. Supóngase que se tiene una población de N elementos de los

cuales, d pertenecen a la categoría A y N-d a la B. La distribución

hipergeométrica mide la probabilidad de obtener x ( )

elementos de la categoría A en una muestra sin reemplazo de n elementos

de la población original.

Propiedades:

La función de probabilidad de una variable aleatoria con distribución hipergeométrica puede

deducirse a través de razonamientos combinatorios y es igual a

donde es el tamaño de población, es el tamaño de la muestra extraída, es el número

de elementos en la población original que pertenecen a la categoría deseada y es el número

de elementos en la muestra que pertenecen a dicha categoría. La

notación hace referencia al coeficiente binomial, es decir, el número de combinaciones

posibles al seleccionar elementos de un total .

El valor esperado de una variable aleatoria X que sigue la distribución hipergeométrica es

y su varianza,

En la fórmula anterior, definiendo

Page 20: control.docx

y

se obtiene

La distribución hipergeométrica es aplicable a muestreos sin reemplazo y la binomial a

muestreos con reemplazo. En situaciones en las que el número esperado de repeticiones en

el muestreo es presumiblemente bajo, puede aproximarse la primera por la segunda. Esto es

así cuando N es grande y el tamaño relativo de la muestra extraída, n/N, es pequeño.

Page 21: control.docx
Page 22: control.docx

Ejemplo. Un cargamento de 20 cajas de chocolate contiene 5 defectuosas, si diez de ellas son aleatoriamente elegidas, ¿Cuál es la probabilidad de que 2 estén defectuosas?

X = 2n= 10t = 5N= 20

p( XN ,T ,n)=( N−TN−X

)( TX

)

(Nn

)

p(x = 2, N = 20, t = 5, N = 10) = ( 5

2)( 20−5

10−2)( 5

2)

(2010

)=0.3482

2.3. CORRELACION ENTRE DOS VARIABLES.

Correlacion.La correlación es la forma numérica en la que la estadística ha podido evaluar la relación de dos o más variables, es decir, mide la dependencia de una variable con respecto de otra variable independiente.

Para poder entender esta relación tendremos que analizarlo en forma gráfica:

Si tenemos los datos que se presentan en la tabla y consideramos que la edad determina el peso de las personas entonces podremos observar la siguiente gráfica:

Donde los puntos representan cada uno de los pares ordenados y la línea podría ser una recta que represente la

tendencia de los datos, que en otras palabras podría decirse que se observa que a mayor edad mayor peso.

edad peso15 6030 7518 6742 8028 6019 6531 92

Page 23: control.docx

r=n∑i=1

n

x i y i−∑i=1

n

x i∗∑i=1

n

y i

√ [n∑i=1

n

x i2−(∑

i=1

n

xi)2 ][n∑i=1

n

y i2−(∑

i=1

n

y i)2 ]

Edad (x) Peso (y) X2 Y2 X* Y15 60 225 3600 90030 75 900 5625 225018 67 324 4489 120642 80 1764 6400 336028 60 784 3600 168019 65 361 4225 123531 92 961 8464 2852

183 499 5319 36403 13483

La correlación se puede explicar con la pendiente de esa recta estimada y de esta forma nos podemos dar cuenta que también existe el caso en el que al crecer la variable independiente decrezca la variable dependiente. En aquellas rectas estimadas cuya pendiente sea cero entonces podremos decir que no existe correlación.

Así en estadística podremos calcular la correlación para datos no agrupados con la siguiente formula.

En donde:R = coeficiente de correlación N = número de pares ordenadosX = variable independienteY = variable independiente

Ejemplo:

Supóngase que deseamos obtener la correlación de los datos de la tabla anterior:Ahora podemos observar que:

r=n∑i=1

n

x i y i−∑i=1

n

x i∗∑i=1

n

y i

√ [n∑i=1

n

x i2−(∑

i=1

n

xi)2 ][n∑i=1

n

y i2−(∑

i=1

n

y i)2 ]

=7∗13483−(183∗499 )

√[7∗5319−(183 )2] [7∗36403−(499 )2]=0 . 65638606

Se debe aclarar que el coeficiente de correlación sólo puede variar de la siguiente manera: y que para entenderlo mejor se debe obtener el coeficiente de determinación que se

obtiene con “ r “ cuadrada, ya que este representa el porcentaje que se explica “ y ” mediante los datos de “ x ”.

En nuestro ejemplo decimos que la correlación es casi perfecta, ya que, está muy cerca de 1 y que el porcentaje de datos que explican a “ y “ es (0.65638606)2= 0.430842 o sea el 43.08 %

1 1r

Page 24: control.docx

r=n∑j=1

k

∑i=1

l

f x i yi−∑i=1

l

f x x i∗∑i=1

k

f y y i

√ [n∑i=1

l

f x x i2−(∑

i=1

l

f x x i)2][n∑i=1

k

f y y i2−(∑

i=1

k

f y y i)2]

En el caso de que fueran datos agrupados tendremos lo siguiente:

Primero tendremos que pensar que se genera una matriz, ya que, ahora estamos juntando dos tablas de distribución de frecuencias y por ello nuestros cálculos serán más laboriosos, por lo que les recomiendo el uso de una hoja de cálculo o al menos una calculadora con regresión para datos agrupados.

De cualquier forma aquí tambien estamos evaluando numéricamente si existe relación entre dos variables y lo haremos con la siguiente ecuación.

En donde podemos encontrar k como el número de clases para la variable "y" y l para el número de clases de "x".También podemos observar que hay varios tipos de "f" es

decir, la que se encuentra sola (sin subíndice) que nos habla de las frecuencias celdares (cada una de las frecuencias que se encuentran en la intersección entre una columna y un renglón) y las "f" con subíndices que representan las frecuencias de cada una de las variables.

Para entender el uso de esta fórmula usaremos un ejemplo:Los resultados que se presentan en la siguiente tabla representan los pesos y las estaturas de 48 alumnos entrevistados el "día anáhuac"

Marcas de clase de "x"

1.445 1.545 1.645 1.745 1.845 1.945 fy fx y fx y^2

44.5 3 1 4 178 7921marcas 54.5 5 9 5 19 1035.5 56434.75de clase 64.5 1 2 4 1 1 9 580.5 37442.25de "Y" 74.5 5 1 1 7 521.5 38851.75

84.5 2 2 1 5 422.5 35701.2594.5 1 3 4 378 35721

fx 0 9 12 17 7 3 48 3116 212072fx x 0 13.90

519.74 29.665 12.915 5.835 82.06

fx x^2 0 21.483225

32.4723

51.765425

23.828175

11.349075

140.8982

f x y 5380.77

Correlación= 0.695

La sustitución de la fórmula es la siguiente:

r=n∑j=1

k

∑i=1

l

f x i yi−∑i=1

l

f x x i∗∑i=1

k

f y y i

√ [n∑i=1

l

f x xi2−(∑

i=1

l

f x xi)2][n∑i=1

k

f y yi2−(∑

i=1

k

f y yi)2]

=48∗5380.77- (82.06*3116 )

√((48*140 .8982)-82 .062 )∗((48∗212072)-31162 )=0 .695

Page 25: control.docx

Al interpretar nuestro resultado podemos concluir que si existe relación entre el peso y la estatura, es decir, que a mayor estatura mayor peso.

En muchas ocasiones el resultado de la correlación es negativo y lo que debemos pensar es que la relación de las variables involucradas en el cálculo es inverso es decir que en la medida que crece la variable independiente la variable dependiente decrece:

Coeficiente de correlación.

Una vez calculado el valor del coeficiente de correlación interesa determinar si tal valor obtenido muestra que las variables X e Y están relacionadas en realidad o tan solo presentan dicha relación como consecuencia del azar. En otras palabras, nos preguntamos por la significación de dicho coeficiente de correlación.

Un coeficiente de correlación se dice que es significativo si se puede afirmar, con una cierta probabilidad, que es diferente de cero. Más estrictamente, en términos estadísticos, preguntarse por la significación de un cierto coeficiente de correlación no es otra cosa que preguntarse por la probabilidad de que tal coeficiente proceda de una población cuyo valor sea de cero. A este respecto, como siempre, tendremos dos hipótesis posibles:

H0: rxy = 0 ⇒ El coeficiente de correlación obtenido procede de una población cuya correlación es cero ( ρ = 0 ).

H1 : rxy = 0 ⇒ El coeficiente de correlación obtenido procede de una población cuyo coeficiente de correlación es distinto de cero ( ρ ≠ 0).

Desde el supuesto de la Hipótesis nula se demuestra que la distribución muestral de correlaciones procedentes de una población caracterizada por una correlación igual a cero (ρ = 0) sigue una ley de Student con N-2 grados de libertad, de media el valor poblacional y desviación tipo:

Page 26: control.docx

En consecuencia, dado un cierto coeficiente de correlación rxy obtenido en una determinada muestra se trata de comprobar si dicho coeficiente es posible que se encuentre dentro de la distribución muestral especificada por la Hipótesis nula. A efectos prácticos, se calcula el número de desviaciones tipo que se encuentra el coeficiente obtenido del centro de la distribución, según la formula conocida:

y se compara el valor obtenido con el existente en las tablas para un cierto nivel de significación α y N-2 grados de libertad – t(α,N-2)- , que como se sabe, marca el límite (baja probabilidad de ocurrencia, según la Hipótesis nula) de pertenencia de un cierto coeficiente r xy a la distribución muestra de correlaciones procedentes de una población con ρ = 0. De esta forma si:

t > t (α ,N− 2) ⇒ Se rechaza la Hipótesis nula. La correlación obtenida no procede de una población cuyo valor ρ xy = 0. Por tanto las variables están relacionadas.

t ≤ t (α ,N− 2) ⇒ Se acepta la Hipótesis nula. La correlación obtenida procede de una población cuyo valor ρ xy = 0. Por tanto ambas variables no están relacionadas.

Regresión: lineal y curvilínea.

Lineal.Se supone que se tiene una muestra (x1, y1),(x2, y2), . . . ,(xn, yn) correspondiente a la observación conjunta de las variables X e Y . El objetivo será encontrar una relación entre ambas variables, esta relación podría estar dada por una recta (ecuación de regresión: yb = β0 + β1 · x)

En un diagrama de dispersión, cada unidad de análisis es un punto cuyas coordenadas son los valores de las variables.

El error aleatorio; son las desviaciones de los verdaderos valores de Y con respecto a los valores estimados y (recta).

Page 27: control.docx

Curvilínea.

Cuando las variables X e Y se relacionan según una línea curva, se habla de regresión no lineal o curvilínea. Es una función de segundo grado la que se ajusta lo suficiente a la situación real dada.

La expresión general de un polinomio de segundo grado es:

Y =a+bX+cX2 donde a , b y c son los parámetros.

El problema consiste, por tanto, en determinar dichos parámetros para una distribución dada. Se seguirá para ello, un razonamiento y la utilización de las ecuaciones normales de Gauss. Las ecuaciones normales son:

∑ Y = na + b ∑ X + C ∑ X2 (1)

∑ X Y = a ∑ X + b ∑ X2 + C ∑ X3 (2)

∑ X2 Y = a ∑ X2 + b ∑ X3 + C ∑ X4 (3)

Para lo cual se necesita elaborar el cuadro con cada una de las variables que aparecen en las ecuaciones normales y los resultados obtenidos en este sustituirlos en ellas para encontrar los valores de las constantes.

Page 28: control.docx

Para encontrar los valores de las constantes utilizaremos matrices.

Una matriz es un conjunto de elementos de cualquier naturaleza aunque, en general, suelen ser números ordenados en filas y columnas.

Se llama matriz de orden "m × n" a un conjunto rectangular de elementos aij dispuestos en m filas y en n columnas. El orden de una matriz también se denomina dimensión o tamaño, siendo m y n números naturales.

Las matrices se denotan con letras mayúsculas: A, B, C, ... y los elementos de las mismas con letras minúsculas y subíndices que indican el lugar ocupado: a, b, c, ... Un elemento genérico que ocupe la fila i y la columna j se escribe aij . Si el elemento genérico aparece entre paréntesis también representa a toda la matriz : A = (aij)

Al encontrar los valores de las constantes que buscamos sustituimos los valores en la ecuación de regresión curvilínea para obtener los resultados que buscamos. Y poder hacer las estimaciones correspondientes.

Diagrama de regresión linial

Page 29: control.docx

2.4. PRUEBAS ESTADÍSTICAS. 2.4.1. PARAMETRICAS. A. DISEÑOS EXPERIMENTALES. Diseño completamente al azar.

El diseño completamente al azar es un prueba basada en el análisis de varianza, en donde la varianza total se descompone en la “varianza de los tratamientos” y la “varianza del error”. El objetivo es determinar si existe un diferencia significativa entre los tratamientos, para lo cual se compara si la “varianza del tratamiento” contra la “varianza del error” y se determina si la primera es lo suficientemente alta según la distribución F.

Características del diseño:

Se definen los t tratamientos que se van a aplicar a las n unidades experimentales, de tal forma que a r unidades experimentales les va a corresponder un tipo de tratamiento. Las unidades experimentales se sortean para la asignación a cada tratamiento. Se define la variable a medir.

Ejemplo. Se desea investigar el efecto del pH en el crecimiento de cierto microorganismo en un medio especifico. Para ello se realiza un experimento, teniendo como punto de partida la misma cantidad de microrganismos. Se hacen cuatro repeticiones y se obtienen los siguientes resultados. ¿estos datos son evidencia suficiente para afirmar que los niveles de pH donde se logra menor y mayor crecimiento son el 3 y el 2, respectivamente? Explique su respuesta.

NIVEL DE PH CRESIMIENTO PROMEDIO(EN %)1 802 1053 75

No se puede afirmar que el nivel de pH influya directamente en el crecimiento promedio, se considera que hay más factores, edemas es necesario que nos proporcionen más datos por tratamiento para tomar esa decisión.

Diseño de bloques completamente al azar.

El material experimental es dividido en b grupos de t unidades experimentales (UE) cada uno, donde t es el número de tratamientos , tales que las UE dentro de cada grupo son lo más homogénea posible y las diferencias entre las UE sea dada por estar en diferentes grupos. Los conjuntos son llamados bloques. Dentro de cada bloque las UE son asignadas aleatoriamente, cada tratamiento ocurre exactamente una vez en un bloque. Si la variación entre las UE dentro de los bloques es apreciablemente pequeña en comparación con la variación entre bloques, un diseño de bloque completo al azar es más potente que un diseño completo al azar.

Page 30: control.docx

Ejemplo. Se hace un estudio sobre la efectividad de 3 marcas de atomizador para matar moscas. Para ello, cada atomizador se aplica a un grupo de 100 moscas, y se cuenta el número de moscas muertas (expresada en porcentaje). Se hicieron 6 réplicas, pero estas se hicieron en días diferentes, por ello se sospecha que puede haber algún efecto importante debido a esta fuente de variación. Los datos obtenidos se muestran a continuación: Suponiendo un (DBCA) Diseños de bloques completos al azar formule la hipótesis adecuada utilice = 0.5

Page 31: control.docx

“No hubo variación en los efectos de atomizador en los diferentes días”

Page 32: control.docx

Diseños cuadrados latino.

Los diseños en cuadrados latinos son apropiados cuando es necesario controlar dos fuentes de variabilidad. En dichos diseños el número de niveles del factor principal tiene que coincidir con el número de niveles de las dos variables de bloque o factores secundarios y además hay que suponer que no existe interacción entre ninguna pareja de factores. Supongamos que el número de niveles de cada uno de los factores es K. El diseño en cuadrado latino utiliza K2 bloques, cada uno de estos bloques corresponde a una de las posibles combinaciones de niveles de los dos factores de control. En cada bloque se aplica un solo tratamiento de manera que cada tratamiento debe aparecer con cada uno de los niveles de los dos factores de control. Si consideramos una tabla de doble entrada donde las filas y las columnas representan cada uno de los dos factores de bloque y las celdillas los niveles del factor principal o tratamientos, el requerimiento anterior supone que cada tratamiento debe aparecer una vez y sólo una en cada fila y en cada columna.

Recibe el nombre de cuadrado latino de orden K a una disposición en filas y columnas de K letras latinas, de tal forma que cada letra aparece una sola vez en cada fila y en cada columna. A continuación vamos a dar una forma simple de construcción de cuadrados latinos. Se parte de una primera fila con las letras latinas ordenadas alfabéticamente

Las sucesivas filas se obtienen moviendo la primera letra de la fila anterior a la última posición (construcción por permutación cíclica), el cuadrado así obtenido es un cuadrado latino estándar. Un cuadrado latino se denomina estándar cuando las letras de la primera fila y la primera columna están ordenadas alfabéticamente. A parte de los cuadrados latinos así obtenidos existen otros cuadrados latinos diferentes, estándares y no estándares. En el Apéndice B se muestran algunos cuadrados latinos estándares para los órdenes 3, 4, 5, 6, 7, 8 y 9.

Page 33: control.docx

Ejemplo. Se probaron 4 raciones alimenticias para pollos, criados en jaula de 4 pisos y cuatro casilleros. La variable analizada fue: peso en kg a las 8 semanas de edad. Realice la prueba de hipótesis correspondientes. Use = 0.05

Page 34: control.docx

Experimentos factoriales.

Por lo tanto, se puede definir a los experimentos factoriales como aquellos en los que se comparan o estudian simultáneamente dos o más factores principales, incluyendo los diferentes niveles o modalidades de cada uno. El Anova en experimentos factoriales constituye una técnica estadística para analizar el efecto de dos o más variables independientes (factores) sobre una variable respuesta. Como en estos experimentos los tratamientos se forman combinando cada nivel de un factor con cada uno de los niveles del otro (o de los otros, si hubiere más de dos), este tipo de experimento permite además evaluar los efectos de las interacciones. Se dice que entre dos factores hay interacción si los efectos de un nivel de un factor dependen de los niveles del otro.

Page 35: control.docx

Dicho con otras palabras la respuesta de un factor es influenciada en forma diferenciada por los niveles del otro. La existencia de interacciones indica que los efectos de los factores sobre la respuesta no son aditivos y por tanto no pueden separarse los efectos de los factores.

Tabla 1: Expresiones para el cálculo del cuadro de análisis de la varianza de un experimento bifactorial con diseño completamente aleatorizado.

EJEMPLO.

Page 36: control.docx

B. PRUEBAS DE COMPARACION DE PROMEDIOS.

Prueba de “t” de Student.

La prueba de t Student, es un método de análisis estadístico, que compara las medias de dos grupos diferentes. Es una prueba paramétrica, o sea que solo sirve para comparar variables numéricas de distribución normal. La prueba t Student, arroja el valor del estadístico t. Según sea el valor de t, corresponderá un valor de significación estadística determinado. En definitiva la prueba de t Student contrasta la H0 de que la media de la variable numérica “y”, no tiene diferencias para cada grupo de la variable categórica “x”

Prueba T de Student para muestras relacionadas:La prueba estadística t de Student para muestras dependientes es una extensión de la utilizada para muestras independientes. De esta manera, los requisitos que deben satisfacerse son los mismos, excepto la independencia de las muestras; es decir, en esta prueba estadística se exige dependencia entre ambas, en las que hay dos momentos uno antes y otro después. Con ello se da a entender que en el primer período, las observaciones servirán de control o testigo, para conocer los cambios que se susciten después de aplicar una variable experimental.Con la prueba t se comparan las medias y las desviaciones estándar de grupo de datos y se determina si entre esos parámetros las diferencias son estadísticamente significativas o si sólo son diferencias aleatorias.

Page 37: control.docx

Consideraciones para su usoEl nivel de medición, en su uso debe ser de intervalo o posterior.El diseño debe ser relacionado.Se deben cumplir las premisas paramétricas. En cuanto a la homogeneidad de varianzas, es un requisito que también debe satisfacerse y una manera práctica es demostrarlo mediante la aplicación de la prueba ji cuadrada de Bartlett. Este procedimiento se define por medio de la siguiente fórmula:

Donde:t = valor estadístico del procedimiento.

= Valor promedio o media aritmética de las diferencias entre los momentos antes y después.sd = desviación estándar de las diferencias entre los momentos antes y después.N = tamaño de la muestra.

La media aritmética de las diferencias se obtiene de la manera siguiente:

La desviación estándar de las diferencias se logra como sigue:

Pasos:Ordenar los datos en función de los momentos antes y después, y obtener las diferencias entre ambos.Calcular la media aritmética de las diferencias ( ).Calcular la desviación estándar de las diferencias (sd).Calcular el valor de t por medio de la ecuación.Calcular los grados de libertad (gl) gl = N - 1.Comparar el valor de t calculado con respecto a grados de libertad en la tabla respectiva, a fin de obtener la probabilidad.Decidir si se acepta o rechaza la hipótesis.

Page 38: control.docx

Prueba T de Student para muestras no relacionados: Todas las pruebas paramétricas, en las cuales se incluye la t de Student y la F de Fischer, se basan en supuestos teóricos para utilizarse. Dichos supuestos matemáticos las hacen válidas, pues al analizar las mediciones de las observaciones, se tienen procedimientos de gran potencia-eficiencia para evitar error del tipo I.

En tales pruebas paramétricas se exige una serie de requisitos para aplicarlas como instrumento estadístico:

Las observaciones deben ser independientes.

Las observaciones se deben efectuar en universos poblacionales distribuidos normalmente.Las mediciones se deben elaborar en una escala de intervalo, entendiendo que una escala de intervalo exige que puedan efectuarse todas las operaciones aritméticas admisibles. También se requiere que los intervalos entre las mediciones tengan la misma magnitud.Las varianzas de los grupos deben ser homogéneas, de modo que cabe aclarar que en las mediciones realizadas en biomedicina, es poco probable encontrar varianzas iguales. Por ello, se utiliza la prueba ji cuadrada de Barlett para decidir si las diferencias observables en la magnitud de las varianzas son significativas o no. El modelo matemático que en seguida se presenta, corresponde a dos muestras independientes.

Donde:t = valor estadístico de la prueba t de Student.

1 = valor promedio del grupo 1.2 = valor promedio del grupo 2.

sp = desviación estándar ponderada de ambos grupos.N1 = tamaño de la muestra del grupo 1.N2 = tamaño de la muestra del grupo 1.

Ecuación para obtener la desviación estándar ponderada:

Donde:sp = desviación estándar ponderada.SC = suma de cuadrados de cada grupo.N = tamaño de la muestra 1 y 2.

Pasos:Determinar el promedio o media aritmética de cada grupo de población.Calcular las varianzas de cada grupo, a fin de demostrar la homogeneidad de varianzas mediante la prueba de X2 de Bartlett.Calcular la suma de cuadrados de cada grupo: Suma de cuadrados (SC) = S(X - )2.Calcular la desviación estándar ponderada (sp) de ambos grupos.Obtener la diferencia absoluta entre los grupos ( 1 - 2).Aplicar la fórmula y obtener el valor estadístico de t.Calcular los grados de libertad (gl). gl = N1 + N2 -2Obtener la probabilidad del valor t en la tabla.Decidir si se acepta o rechaza la hipótesis.

Page 39: control.docx

Ejemplo: Un investigador ha obtenido la talla de 20 niños de 5 años de edad, de dos condiciones socioeconómicas contrastantes (alta y baja). Considera que ambos grupos de población tienen estaturas diferentes.Elección de la prueba estadística.Tenemos un modelo experimental con dos muestras independientes.Planteamiento de la hipótesis.Hipótesis alterna (Ha). Las tallas de niños de 5 años de las dos muestras, de condiciones socioeconómicas contrastantes, son distintas.Hipótesis nula (Ho). Las diferencias observadas en las tallas de niños de las dos muestras de condición socioeconómica similar se deben al azar. Nivel de significación.Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho.Zona de rechazo.Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.Talla en cm de niños de condiciones socioeconómicas baja y alta.

Aplicación de la prueba estadística.Suma de cuadrados.

Desviación estándar ponderada.

Ecuación t.

gl = N1 + N2 -2 = 10 + 10 - 2 = 18

Page 40: control.docx

El valor de to se compara con los valores críticos de la tabla (tt) con 18 grados de libertad, y se obtiene que en el valor más cercano al calculado, la probabilidad es de 0.001 (valor crítico de t: 3.92).Decisión.Como el valor de to (3.99) tiene una probabilidad de significancia menor que 0.001, también es menor que 0.05, propuesto como nivel de significancia, por lo cual se acepta Ha y se rechaza Ho.Interpretación.Las diferencias en talla de ambos niños de condiciones socioeconómicas antagónicas (alta y baja) difieren notoriamente en el nivel de confianza de p menor que 0.001.

Prueban de Ducan.

Se utiliza para comparar todos los pares de medias. Fue desarrollado por primera vez por Duncan en 1951 pero posteriormente él mismo modificó su primer método generando el que ahora se denomina Nuevo método de Rango Múltiple de Duncan. Esta prueba no requiere de una prueba previa de F, como sucede con la DMS o sea que aún sin ser significativa la prueba F puede llevarse a cabo.

La estadística de Prueba es denotado, por

Donde es el número de medias inclusives entre las dos medias a comparar para diseños balanceados. Para aplicar esta prueba al nivel se debe pasar por las siguientes etapas:

1. Determine el error estándar (desviación estandar) de cada promedio, , el cual es dado por la expresión:

Donde el CM es obtenido de la tabla Anova

2. Con los grados de libertad del error y el nivel de significancia determinar los valores de (intervalos o amplitudes estandarizadas significativos) utilizando las tablas de amplitudes estandarizadas de Duncan dadas por Harter (1960) y que se encuentran en el libro de Miller (1992). Para encontrar estos valores, se requieren los grados de libertad del error y el valor

de .

Page 41: control.docx

3. Determinar las amplitudes mínimas significativas denotadas por calculados por la expresión:

4. Se ordenan de manera creciente los resultados promedios del

experimento

5. Se comparan las medias ordenadas así:comienza a comparar en el siguiente orden:

a) El promedio más alto, con el más bajo, comparando esta diferencia con el intervalo mínimo significativo . Si esta diferencia es no significativa entonces todas las otras diferencias son no significantes. Si la diferencia es significativa se continua con b)

b) Posteriormente se calcula la diferencia entre el valor más alto y el penúltimo y se compara con el intervalo mínimo significativo

c) Este procedimiento se continúa hasta que todas las medias se han comparado con la media más

grande .

d) A continuación se compara la segunda media más grande con la más pequeña y se compara con el intervalo mínimo significativo .

Este proceso continúa hasta que han sido comparadas las diferencias entre todos los posibles pares.

Page 42: control.docx

Si una diferencia observada es mayor que el intervalo mínimo significativo, se concluye que la pareja de medias comparadas son significativamente diferentes.

Para evitar contradicciones, ninguna diferencia entre una pareja de medias se considera significativamente diferentes si éstas se encuentran entre otras dos que no difieren significativamente. A manera de ilustración se tiene:

Cuando el diseño es desbalanceado pero los tamaños de réplicas difieren marcadamente este método puede adaptarse utilizando en vez de en la estadística, el valor de la media armónica de los tamaños de muestras

o alternativamente se puede reemplazar a por la media armónica de las medias extremas, donde

y y son los tamaños de muestra correspondientes a las medias de tratamientos menos pequeño y más grande respectivamente.

Ejemplo: Al aplicar el método de Duncan a los datos del ejemplo del algodón se tiene:

1. El error estándar de la media es

2. Determinación de los intervalos significativos como y Utilización la tabla VII del Apéndice de Montgomery se tiene:

Page 43: control.docx

3. Los rangos mínimos significativos son:

4. Las medias ordenadas ascendentemente son:

5. Comparación de las medias

se

compara con porque entre y hay inclusive medias.Ver numeral 4 .

Page 44: control.docx

Al presentar en u diagrama de líneas los resultados se tiene

Prueba de Tukey.

Este procedimiento fue propuesto por Tukey (1952) para probar la

hipótesis .

Este metodo es muy similar en la aplicación al de , salvo por el hecho de que en lugar de utilizar las distribuciones de como base para realizar las comparaciones, se emplea la distribución del rango estandarizado o estudentizado

Se rechaza si

Nosotros comparamos con

Donde es el percentil de la distribución rango estandarizado.Tablas para hallar

los valores de son dadas por Harter (1960), Hochberg and Tamhane (1987).

En esta prueba se utiliza un sólo valor con el cual se comparan todos los posibles pares de medias. El método de comparación de Tukey fue reformado por Kramer (1956) para casos en el que el número de réplicas no es igual. Este método es conocido como método de Tukey-Kramer. Este simplemente reemplaza la expresión dada en Tukey por:

Donde en un D.C.A.

Page 45: control.docx

Si el número de repeticiones no es demasiado desigual, Spotuall y Stoline (1973) dieron un

método para probar la hipótesis .

Rechazar si

Cuando las réplicas son muy diferentes este método es menos sensible que el de Scheffé.

Ejemplo: En el ejemplo de los medicamentos los contrastes C , C y C , son comparaciones

independientes, así y la regla de decisión para todas las hipótesis

Son respectivamente rechazar si

El valor de es 2.522

2.4.2. NO PARAMETRICAS. Prueva para k muestras independientes.

En este apartado se presentan dos pruebas que permiten contrastar si k >2 muestras aleatorias e independientes proceden de una misma población, es decir, si un factor que subdivide la población de origen incide de forma significativa sobre el valor central de la población. Estos contrastes son alternativas no paramétricas al análisis de la varianza cuando se incumple alguno de los supuestos básicos de dicho análisis. El único requisito para aplicar estos contrastes es que la variable esté medida al menos en una escala ordinal.

Page 46: control.docx

PRUEBA H DE KRUSKAL-WALLIS

Este contraste permite decidir si puede aceptarse la hipótesis de que k muestras independientes proceden de la misma población o de poblaciones idénticas con la misma mediana. El único supuesto necesario es que las distribuciones subyacentes de las variables sean continuas y que éstas hayan sido medidas por lo menos en una escala ordinal.

Sean n1, n2 ... nk los tamaños de cada una de las muestras y n el total de observaciones. Para el cálculo del estadístico de prueba se ordenan las n observaciones de menor a mayor y se les asignan rangos desde 1 hasta n. A continuación se obtiene la suma de los rangos correspondientes a los elementos de cada muestra, Rj y se halla el rango promedio. Si la hipótesis nula es cierta, es de esperar que el rango promedio sea aproximadamente igual para las k muestras; cuando dichos promedios sean muy diferentes es un indicio de que H0 es falsa.

El estadístico de prueba es:

Si H0 es cierta y los tamaños muestrales son todos mayores que 5, el estadístico H se distribuye aproximadamente como chi-cuadrado con k-1 grados de libertad. La aproximación es tanto mejor cuanto mayor es el número de muestras y el tamaño de las mismas.

Cuando se producen empates, es decir, cuando varias observaciones de la misma o de distintas muestras son iguales y a todas se les asigna el mismo rango, es necesario dividir el valor de H por el siguiente factor de corrección:

En esta expresión g es el número de rangos que se repiten y ti es el número de veces que se repite el rango i-ésimo. El efecto del factor de corrección es elevar ligeramente el valor de H.

PRUEBA DE LA MEDIANA

Mediante esta prueba se contrasta la hipótesis nula de que k muestras independientes de tamaños n1, n2 ... nk proceden de la misma población o de poblaciones con medianas iguales. Para este contraste se requiere que la variable sea medible por lo menos en una escala ordinal y es particularmente útil cuando por alguna razón (como, por ejemplo, por haberse establecido puntos de corte durante el proceso de obtención de los datos) se sabe que las muestras no pueden contener observaciones extremas.

Page 47: control.docx

Para hallar el valor del estadístico de prueba se ordenan las n observaciones (n1 + n2 +... +nk) de menor a mayor y se determina el valor de la mediana común, Me.. A continuación, cada una de las observaciones originales se asigna a una de dos categorías: a la categoría 1 si es superior a la mediana común o a la categoría 2 si es inferior o igual.

El número de observaciones de cada grupo asignadas a cada categoría se recoge en una tabla de contingencia como la siguiente:

El estadístico de prueba es:

Eij es la frecuencia esperada en la i-ésima fila de la j-ésima columna bajo el supuesto de que la hipótesis nula es cierta, calculada como producto de las frecuencias marginales dividido por n. Si la hipótesis nula es cierta el estadístico de prueba se distribuye aproximadamente como una chi-cuadrado con k - 1 grados de libertad. Se rechazará H0 si el valor del estadístico de prueba está en la región crítica.

Cuando aparecen frecuencias esperadas menores que 5 la aproximación de la distribución del estadístico de prueba mediante la chi-cuadrado no es buena y deberán agruparse muestras o aumentar el tamaño de las mismas para resolver el problema.

REALIZACIÓN DE LOS CONTRASTES

.Para realizar estas pruebas la secuencia es:

.Analizar

.Pruebas no paramétricas

.k muestras independientes

Muestra Superiores a Me Inferiores a Me Inferior o iguales a Me

Total n

Page 48: control.docx

En el cuadro de diálogo se seleccionan en Contrastar variables la variable que recoge las puntuaciones de los grupos. En Variable de agrupación se indica la variable que determina los grupos, es decir, la variable que actúa como factor y se indica en Definir el rango los valores enteros para el máximo y el mínimo que se correspondan con las categorías mayor y menor de la variable de agrupación. Se activa la o las pruebas que se quieren realizar en el recuadro Tipo de prueba. Por defecto únicamente está activada la prueba H de Kruskal-Wallis.

Ejemplo: Con los datos de la encuesta Enctrans.sav probar si los alumnos que utilizan habitualmente los transportes públicos (metro, bus, tren) valoran de forma significativamente distinta las características independencia (Inde) y rapidez (Rapi).

Se trata de contrastar la hipótesis nula de que la valoración asignada a la independencia y a la rapidez difieren significativamente en función del tipo de transporte público utilizado. Dado que las valoraciones de ambas características se miden en una escala ordinal y las muestras son independientes, el contraste más adecuado es la prueba H de Kruskal-Wallis.

Para realizar este contraste la secuencia es:

Estadística > Pruebas no paramétricas > k muestras independientes.

En el cuadro de diálogo se selecciona en Contrastar variables Independencia y Rapidez; en Variable de agrupación se indica el factor, es decir, la variable que induce los diferentes grupos, que en este caso es la variable Trans. Como únicamente interesa comparar la opinión de los usuarios del transporte público en el cuadro de diálogo que se abre con el botón Definir rango se indica como rango Mínimo 1 y como rango Máximo 3, ya que 1, 2 y 3 son las codificaciones asignadas a las modalidades metro, bus y tren respectivamente. Al aceptar se obtienen los siguientes resultados:

Page 49: control.docx

Por lo que se refiere a la variable Rapidez, el estadístico de prueba es 6,449 y por tanto se rechaza la hipótesis nula según la cual los tres grupos valoran igualmente esta característica. En el caso de la variable Independencia el valor del estadístico Chi-cuadrado es 0,891 y no se rechaza la hipótesis nula

Prueba para k muestras relacionadas.

Este procedimiento es útil en aquellos casos que deseemos comparar k muestras relacionadas utilizando una variable dependiente medida en una escala ordinal. El procedimiento de introducción de los datos es análogo al de la prueba "t" para muestras relacionadas, es decir, debemos introducir los resultados de cada medida en una variable distinta. En nuestro caso hemos registrado la posición en que un grupo de atletas llega al final de una carrera en tres días consecutivos.

El programa nos proporciona tres posibles estadísticos. La prueba de Friedman podríamos considerarla como una prueba análoga a la de Kruskal – Wallis para el caso de muestras relacionadas. La prueba de Kendall, por su parte es útil para verificar el grado de acuerdo entre una serie de jueces al respecto de un grupo de ítems. Finalmente la prueba Q de Cochran se aplica en aquellos casos en que operemos con variables dicotómicas. En nuestro caso vamos a ver el output que obtendríamos al aplicar la prueba de Friedman.

Page 50: control.docx

En primer lugar el output nos muestra el rango promedio que han obtenido los atletas en cada uno de los días de competición, podemos observar como media de las posiciones que han ocupado el tercer día parece ser mayor que la de los dos primeros días. Posteriormente el programa nos presenta la prueba de inferencia correspondiente:

Partiendo de este resultado podemos concluir que la posición en la que han terminado la carrera este grupo de atletas se ha ido modificando a lo largo de los tres días en los que hemos obtenido los datos.

Page 51: control.docx

III. BIBLIOGRAFIA

.http://www.virtual.unal.edu.co

.https://www.clubensayos.com/Temas-Variados/Regresion- Curvilinea/34154.html

.http://www.vitutor.com/pro/3/b_g.html (Consultado 29/09/2008). . JORGE GALBIATI RIESCO: DISEÑO DE EXPERIMENTOFACTORIALES APLICADOS A PROCESOS INDUSTRIALES

.EDICIONES DIAZ DE SANTOS, S.A: CONTROL DE CALIDAD- TEORIA Y APLICASIONES

.Dette H., Melas VB, Pepelyshev A. Optimal designs for a class of nonlinear regression models. Ann Stats 2004, 32: 2142–67

Page 52: control.docx