clases 1 conceptos, estadística descriptiva, pruebas de hipótesis

Post on 31-Dec-2015

77 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

Clases 1 Conceptos, Estadística Descriptiva, Pruebas de Hipótesis. Curso de Metodología de la Investigación Profesor Manuel Lobos González Año 2011. Tema 1: Conceptos. - PowerPoint PPT Presentation

TRANSCRIPT

Clases 1Conceptos, Estadística

Descriptiva, Pruebas de Hipótesis

Curso de Metodología de la InvestigaciónProfesor Manuel Lobos González

Año 2011

Tema 1: Conceptos

LA BASE Y PUNTO DE PARTIDA DEL CIENTIFICO ES UNA REALIDAD DETERMINADA, QUE MEDIANTE LA INVESTIGACION LE PERMITE LLEGAR A

LA CIENCIA

REALIDAD

INVESTIGACION

CIENCIA

METODO CIENTIFICO

VER EN LA

REALIDAD

LO QUE OTROS

NO HAN VISTO

PRINCIPIO DE LA INVESTIGACIÓN

REALIDADREALIDAD

CUERPOCUERPO DE CONOCIMIENTOS DE CONOCIMIENTOS

EL PROCESO DE INVESTIGACIÓN (Erika Himmel)EL PROCESO DE INVESTIGACIÓN (Erika Himmel)

REALIDADREALIDAD

HECHOSHECHOS FENÓMENOSFENÓMENOS DATOSDATOS

EXPERIENCIAEXPERIENCIA

CUERPO DE CONOCIMIENTOSCUERPO DE CONOCIMIENTOSTEORÍASTEORÍAS

MODELOSMODELOS

ANÁLISISANÁLISISDE DATOSDE DATOS

FASE IIIFASE III FASE IVFASE IV

CIÓNCIÓNEVALUA-EVALUA- COMUNICACIÓNCOMUNICACIÓNPROBLEMAPROBLEMA HIPÓTESISHIPÓTESIS

FASEFASE VV

FASEFASE IIII

DISEÑODISEÑO

FASEFASE II

INFERENCIAINFERENCIA

Plantear hipótesis

Obtenerconclusiones

Recoger datosy analizarlos

Diseñar experimento

Método científico y estadística

Definición de Estadística

Es un conjunto de teorías y métodos que han sido desarrollados para tratar la recopilación, organización, presentación, análisis, interpretación y descripciones de datos muestrales con el fin de extraer conclusiones útiles de ellos.

Tema 2: Estadígrafos Básicos

Adaptado de Curso de Bioestadística

Universidad de Málaga

Un brevísimo resumen sobre estadísticos

• Centralización o Tendencia central o promedios– Indican valores con respecto a los que los datos

parecen agruparse.• Media, mediana y moda

• Posición– Dividen un conjunto ordenado de datos en grupos

con la misma cantidad de individuos.• Cuantiles, percentiles, cuartiles, deciles, quintiles...

• Forma– Asimetría– Apuntamiento o curtosis

• Dispersión o Variabilidad– Indican la mayor o menor concentración de los

datos con respecto a las medidas de centralización.• Desviación típica, coeficiente de variación, rango,

varianza

La media como punto de equilibrio

La media aritmética[=promedio(rango)]

La media aritmética de una variable se define como la suma ponderada de los valores de la variable por sus frecuencias relativas y lo denotaremos por

y se calcula mediante las expresiones, según el caso:M

n

i

iin

i

iin

i

i

n

nc

n

nx

n

xM

111

xi representa el valor de la variable; ci representa la marca de clase.

Para TDNA TF TI

La mediana[=mediana(rango)]

La mediana de un conjunto de números ordenados en magnitud es o el valor central o la media de los dos valores centrales.

La moda[=moda(rango)]

La moda es el valor de la variable que tenga mayor frecuencia absoluta, la que más se repite, es la única medida de centralización que tiene sentido estudiar en una variable cualitativa, pues no precisa la realización de ningún cálculo.

Por su propia definición, la moda no es única, pues puede haber dos o más valores de la variable que tengan la misma frecuencia siendo esta máxima. En cuyo caso tendremos una distribución bimodal o polimodal según el caso.

La moda

Estadígrafos de Posición• Se define el cuantil de orden como un valor de la variable por debajo del cual

se encuentra una frecuencia acumulada

• Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

Los cuantiles son generalizaciones de la mediana. Los cuartiles dividen a los datos en cuatro partes iguales,los deciles en diez, los quintiles en cinco, los percentiles en cien.

Cuantil de orden α[=percentil(rango;k)]

k

rnC

X

kr

5,314

342

43

X

Q

• Cuartiles (Q): Dividen a la muestra en 4 grupos con frecuencias similares.– Primer cuartil = Percentil 25 = Cuantil 0,25– Segundo cuartil = Percentil 50 = Cuantil 0,50 = mediana– Tercer cuartil = Percentil 75 = Cuantil 0,75

• Quintiles (K): Dividen a la muestra en 5 grupos con frecuencias similares.– Primer quintil = Percentil 20 = Cuantil 0,20– Segundo quintil = Percentil 40 = Cuantil 0,40– Tercer quintil = Percentil 60 = Cuantil 0,60– Cuarto quintil = Percentil 80 = Cuantil 0,80

• Deciles (D): Dividen a la muestra en 10 grupos con frecuencias similares.– Tercer decil = Percentil 30 = Cuantil 0,30– Quinto decil = Percentil 50 = Cuantil 0,50 = mediana– Séptimo decil = Percentil 70 = Cuantil 0,70

• Percentiles (P) : Dividen a la muestra en 100 grupos con frecuencias similares.– La mediana es el percentil 50– El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda

el 85%

Medidas de variabilidadRango, Rango Intercuartílico, Desviación Media, Varianza,

Desviación Estándar y Coeficiente de Variación

Algunos datos han sido adaptados de

Pedro Juan Rodríguez Esquerdo

Departamento de Matemáticas

UPR Río Piedras

Estadígrafos deVariabilidad o dispersión

• Los estudiantes de Metodología de la Investigación obtienen diferentes calificaciones en la asignatura (variabilidad). ¿A qué puede deberse?

– Diferencias individuales en el conocimiento de la materia.

• ¿Podría haber otras razones (fuentes de variabilidad)?

• Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de conocimiento. ¿Las notas serían las mismas en todos? Seguramente No.

– Dormir poco el día de la prueba, el café estaba con somnífero...• Diferencias individuales en la habilidad para hacer un examen.

– El examen no es una medida perfecta del conocimiento.• Variabilidad por error de medida.

– En alguna pregunta difícil, se duda entre varias opciones, y al azar se elige la mala

• Variabilidad por azar, aleatoriedad.

Miden el grado de dispersión (variabilidad) de losdatos, independientemente de su causa.

• Amplitud o Rango [=max(rango)-min(rango)]

• La diferencia entre las observaciones extremas.– 2,1,4,3,8,4. El rango es 8-1=7– Es muy sensible a los valores extremos.

• Rango intercuartílico• [=CUARTIL(rango;3)-CUARTIL(rango;1)]

– Es la distancia entre el primer y tercer cuartil.• Rango intercuartílico = Q3 – Q1 = P75 - P25 = C0.75 – C0,25

– Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores.

– No es tan sensible a valores extremos.

Medidas de dispersión

25% 25%25%25%

Muestra de edades de cinco niños

• En una muestra de cinco niños se observa que éstos tienen las siguientes edades:

• 1, 1, 4, 8 y 9 .• En promedio tienen 4.6 años.• ¿Cuánta variabilidad hay en las edades de

los niños?• ¿A qué distancia quedan las edades

observadas de la media muestral 4.6 años?

Diferencias de valores observados a la media muestral

Distribucion de cinco observaciones

0

1

2

3

1 2 3 4 5 6 7 8 9 More

Edades observadas

Fre

cu

en

cia

Media muestral-3.6

-3.6

4.4

3.4-.6

Otra medida: Varianza

0

1

2

3

1 2 3 4 5 6 7 8 9 More

Area observada

Fre

cu

en

cia

4.4x4.4

3.6x3.6

3.6x3.6

3.4x3.4

.6x.6

Media Muestral

Varianza [=var(rango)]

• -3.6 + -3.6 + -.6 + 3.4 + 4.4 = 0• 3.6(3.6) + 3.6(3.6) + .6(.6) + 3.4(3.4) +

4.4(4.4) = 57.2• área promedio = 57.2 / 4 = 14.3• En general:

n

ii xx

ns

1

22 )(1

1

n

i

i

n

xxs

1

22

1

)(

Grados de libertad

• ¿Por qué calculamos la varianza dividiendo por n - 1, en lugar de dividir por n?

• Como la suma de las desviaciones es 0, la última desviación es una combinación lineal de las n - 1 desviaciones restantes.

• Por lo tanto, no estamos calculando el promedio de n números independientes (los desvíos). Solo n -1 de las desviaciones al cuadrado pueden variar libremente y por ello, promediamos la suma de los desvíos al cuadrado dividiendo por n -1.

• Al numero n -1 se lo denomina grados de libertad de la varianza o de la desviación típica.

Desviación estándar [=desvest(rango)]

2ss Así s = 3.78

Desviación estándar

S2=14.3 años2

SS=3.78 años

Tema 3: Introducción a Pruebas de

Hipótesis

• Las pruebas de hipótesis hacen inferencias respecto a los parámetros de la población, como la media.

• Las pruebas paramétricas utilizan la estadística paramétrica de muestras que provinieron de la población que se está probando.

• Para formular estas pruebas, se hacen suposiciones restrictivas sobre las poblaciones de las que se extraen las muestras, por ejemplo, que las muestras son grandes o que provienen de poblaciones normalmente distribuidas. Pero las poblaciones no siempre son normales.

Contrastes Paramétricos

• Pero las poblaciones no siempre son normales.• Se han desarrollado técnicas útiles que no hacen

suposiciones restrictivas respecto a la forma de las distribuciones de las poblaciones. Éstas se conocen como pruebas sin distribución, o pruebas no paramétricas.

Contrastes No Paramétricos

Elementos que conforman un Contraste Hipótesis

• DESDE LA HIPÓTESIS DE TRABAJO

1. RELACIÓN MATEMÁTICA

2. SE RELACIONA CON HIPÓTESIS ESTADÍSTICA _______________

3. SE ESPERA ENTONCES _____________ LA HIPÓTESIS NULA

4. LA REGIÓN DE RECHAZO ES______________ (VER HIPÓTESIS ALTERNA)

5. LA PROBABILIDAD ESPERADA ES ENTONCES (VER 3)

6. DECISIÓN SOBRE LA HIPÓTESIS NULA A PARTIR DE EVIDENCIA (SE ACEPTA O RECHAZA)

7. DECISIÓN SOBRE HIPÓTESIS DE TRABAJO (SI 3=6 SE SUSTENTA….. O NO SE SUSTENTA)

datos de la muestra

Se calcula una medidade discrepanciaValor calculado

¿se rechaza Ho?

NOSIH1

Se extraen conclusiones

Se definen:

medida de discrepancia con una distribución de probabilidad conocida

Regla de decisión(nivel de

significación )

Valor crítico o tabulado

Se comparan los valores calculado con tabulado

HIPÓTESIS DETRABAJO

HIPÓTESISESTADÍSTICAS

se Hipótesis detrabajo

1

formulan

6se

calculaReglas

decisionales

7

Prueba designificación

se decide

8

se infiere

2Hipótesis

estadísticas

se estima

3 se selecciona

El o los parámetros

4 se determina

matemático Un modelo estadístico

DIAGRAMA DE LAS ETAPAS EN LA CONTRASTACION DE LA HIPOTESIS ESTADISTICA Y SU RELACION CON LAS HIPOTESIS DE TRABAJO. (Erika Himmel)

La magnitud de los errores

se formulan

5

Identificación de hipótesis• Hipótesis nula Ho

– La que contrastamos

– Los datos pueden refutarla

– No debería ser rechazada sin una buena razón.

• Hipótesis Alternativa H1

– Niega a H0

– Los datos pueden mostrar evidencia a favor

– No debería ser aceptada sin una gran evidencia a favor.

, , , ,

Región crítica y nivel de significaciónRegión crítica• Valores ‘improbables’ si...• Es conocida antes de realizar el

experimento: resultados experimentales que refutarían H0

Nivel de significación: • Número pequeño: 1% , 5%• Fijado de antemano por el investigador• Es la probabilidad de rechazar H0

cuando es cierta

=5%

Reg. Crit.

=2.5%

Reg. Crit.

=2.5%

No rechazo H0

Contrastes: unilateral y bilateralLa posición de la región crítica depende de la hipótesis alternativa

Unilateral Unilateral

Bilateral

Contrastes: unilateral y bilateralUn ejemplo para la prueba t para una :0.05 y gl:20

Unilateral Unilateral

Bilateral

tc: 2.086

tc: 2.086

tc: 1.725

tc: 1.725

La distribución normal

La distribución de probabilidad normal y la curva normal que la acompaña tienen las siguientes características:La curva normal tiene forma de campana y una sola cima en el centro de la distribución. La media aritmética, la mediana y la moda de la distribución son iguales y se ubican en el centro. La mitad del área bajo la curva se encuentra a la derecha de este punto central y la otra mitad está a la izquierda de dicho punto.Es simétrica en torno a su promedio. Si se corta Ia curva normal de manera vertical por el valor central, las dos mitades serán como imágenes en un espejo.La curva normal desciende suavemente en ambas direcciones a partir del valor central.Es asintótica, Ia curva se acerca cada vez más al eje de X pero jamás llega a tocarlo. Es decir, las “colas” de Ia curva se extienden de manera indefinida en ambas direcciones.

Psicología Biología Educación Astronomía Economía Ciencias sociales y

administrativas

La distribución normal se usa en:

Un esfuerzo para interpretar y comparar el desempeño de un individuo en dos o más variables es difícil cuando las distribuciones de los datos tienen medias y desviaciones estándar diferentes. Este problema se puede evitar transformando los datos de modo que todas las variables tengan medias idénticas y las mismas desviaciones estándar, es decir, "estandarizando" los parámetros de las distribuciones (transformando valores brutos en valores estándar).

PUNTUACIONES ESTÁNDAR

Las distribuciones de puntuaciones estándar tienen valores para la media y la desviación estándar que son fijos, conocidos y nunca varían. Como los parámetros son siempre los mismos, las interpretaciones y comparaciones entre puntuaciones estándar se hacen más fácilmente.

PUNTUACIONES ESTÁNDAR

La puntuación estándar más elemental y útil es la z. Cuando las observaciones se expresan en unidades de desviaciones estándar de la media son calificaciones z. La distribución de calificaciones z tiene parámetros fijos:

= 0 y = 0 y = 1. = 1.

PUNTUACIONES ESTÁNDAR: PUNTAJE Z

Se define una variable

x

Z x

PUNTUACIONES ESTÁNDAR: PUNTAJE Z

Si Diego obtiene una nota de 6,2 significa poco, a menos que conozca la media del grupo y la desviación estándar. Una calificación z, sin embargo, puede interpretarse fácilmente en relación con toda la distribución, ya que sus parámetros siempre se conocen y nunca varían.

Si sabemos que la calificación z de Diego es 1.5, sabemos que calificó 1.5 desviaciones estándar arriba de la media, y que, en consecuencia, su calificación es completamente alta en relación con los otros de la distribución.

EJEMPLO DE COMPARACIÓN PUNTAJE Z

Paula obtiene las siguientes notas en las distintas asignaturas:

MATEMATICA : 5.8LENGUAJE : 6.1CIENCIAS : 5.6

En términos absolutos, Paula obtiene mejor nota en Lenguaje, luego en Matemática y finalmente en Ciencias.

Lenguaje6.1

Ciencias5.6

Matemática5.8

¿Qué sucede si además de conocer la nota, sabemos cómo se comportó todo el curso de Paula en esas asignaturas?

MATEMATICA : 5.8 y el curso tuvo una media de 5.7 y una desviación estándar de 0.5

LENGUAJE : 6.1 y el curso tuvo una media de 6.2 y una desviación estándar de 0.7

CIENCIAS : 5.6 y el curso tuvo una media de 5.0 y una desviación estándar de 1.1

EJEMPLO DE COMPARACIÓN PUNTAJE Z

EJEMPLO DE COMPARACIÓN PUNTAJE Z

Ahora podemos comparar las notas en términos de puntuaciones estándar Z, asumiendo que las medias = 0 y las desviaciones estándar = 1, utilizando la fórmula:

MATEMÁTICA : x= 5.8 ; media= 5.7 y ds= 0.5

LENGUAJE : x= 6.1 ; media= 6.2 y ds= 0.7

CIENCIAS : x= 5.6 ; media= 5.0 y ds= 1.1

Puntaje Z5.8= 0.2

Puntaje Z6.1= -0.14

Puntaje Z5.6= 0.54

x

Z x

EJEMPLO DE COMPARACIÓN PUNTAJE Z

Paula obtiene los siguientes puntajes Z en las distintas asignaturas:

MATEMATICA : 0.20LENGUAJE : -0.14CIENCIAS : 0.54

En términos de comparación de los puntajes Z, Paula obtiene mejor puntaje en Ciencias, luego en Matemática y finalmente en Lenguaje.

Lenguaje-0.14

Ciencias0.54

Matemática0.20

Las puntuación estándar más comúnmente utilizada para informar el desempeño en exámenes es la calificación de valor estándar T, que tiene una media de 50 y una desviación estándar de 10.

PUNTUACIONES ESTÁNDAR: PUNTAJE T

Se define una variable

T= 50+10z

Para convertir calificaciones z a calificaciones T, la ecuación es la siguiente:

x

T x1050

EJEMPLO DE COMPARACIÓN PUNTAJE T

Tres estudiantes obtienen los siguientes puntajes en una prueba de habilidad matemática, de un total de 100 puntos:

Mónica : 82Carmen : 53Cristina : 65

En términos absolutos, Mónica tiene el puntaje más alto y las tres se encuentran sobre los 50 puntos.

0 10 20 30 40 50 60 70 80 90 100

Carmen53

Cristina65

Mónica82

¿Qué sucede si además de conocer el puntaje de cada una, sabemos cómo se comportó todo el curso en esa prueba?

Media del curso = 60 puntosDesviación estándar del curso = 12 puntos

EJEMPLO DE COMPARACIÓN PUNTAJE Z

Ahora podemos comparar los puntajes de estas tres estudiantes en términos de puntuaciones estándar T, asumiendo que las medias = 50 y las desviaciones estándar = 10, utilizando la fórmula:

x

T x1050

EJEMPLO DE COMPARACIÓN PUNTAJE T

Mónica : x= 82 ; media= 60 y ds= 12

Carmen : x= 53 ; media= 60 y ds= 12

Cristina : x= 65 ; media= 60 y ds= 12

33.6812

60821050

82

T

16.4412

60531050

53

T

16.5412

60651050

65

T

EJEMPLO DE COMPARACIÓN PUNTAJE Z

Ahora, las tres puntuaciones quedan expresadas en puntajes estándar T:

Mónica : 68.33Carmen : 44.16Cristina : 54.16

Carmen44.16

Cristina54.16

Mónica68.33

Curva normal, Percentiles y Valores Estándar

¿¿Cómo calcular probabilidades asociadas a Cómo calcular probabilidades asociadas a una curva normal específica?una curva normal específica?

Dado que tanto como pueden asumir infinitos valores, lo que hace impracticable tabular las probabilidades para todas las posibles distribuciones normales, se utiliza la distribución normal reducida o tipificada

Se define una variable zxx = xx - -

Es una traslación y un cambio de escala de la variable original

-3 -2 -1 0 1 2 3-3 -2 -1 0 1 2 3

zz

Una regla empírica indica que en cualquier distribución normal las probabilidades delimitadas entre :

1 68 % 2 95 % 3 99 %

68%

99%

95%

Ahora podemos calcular eI valor z dada:

Ia media de Ia población, ,

la desviación estándar de ésta, ,

y una xx seleccionada.

Y establecer el área bajo la curva con la tabla apropiada o un software como Excel.

top related