estadistica

25
1. Explique qué es la población en estadística R: Es toda aquella constitución de individuos o elementos que tienen características comunes. 2. Caracterice el muestreo R: Una de las características, para que sea objeto de estudio, es que debe ser valida, es decir, representativa de la población. Ha de tener las mismas características en los caracteres estudiados. 3. Sintetice los tipos de muestreo R: Probabilístico: 4. Determine la ventaja de trabajar con muestras R: en el muestreo, si el tamaño de la muestra es mas pequeño que el de la población, se pueden extraer dos o mas muestras de la misma población. El muestreo es una herramienta de investigación científica. 5. Explique en qué consiste el muestreo estadístico R: Es aquel, en el que todo individuo tiene la misma probabilidad de ser elegido para formar parte de una muestra y todas las probables muestras tienen la posibilidad de ser elegidas. 6. Sintetice el muestreo aleatorio simple

Upload: dante-diaz

Post on 17-Mar-2016

212 views

Category:

Documents


0 download

DESCRIPTION

Preguntas frecuentes acerca de lo que es la estadistica.

TRANSCRIPT

1. Explique qué es la población en estadística

R: Es toda aquella constitución de individuos o elementos que tienen

características comunes.

2. Caracterice el muestreo

R: Una de las características, para que sea objeto de estudio, es que debe ser

valida, es decir, representativa de la población. Ha de tener las mismas

características en los caracteres estudiados.

3. Sintetice los tipos de muestreo

R: Probabilístico:

4. Determine la ventaja de trabajar con muestras

R: en el muestreo, si el tamaño de la muestra es mas pequeño que el de la

población, se pueden extraer dos o mas muestras de la misma población. El

muestreo es una herramienta de investigación científica.

5. Explique en qué consiste el muestreo estadístico

R: Es aquel, en el que todo individuo tiene la misma probabilidad de ser elegido

para formar parte de una muestra y todas las probables muestras tienen la

posibilidad de ser elegidas.

6. Sintetice el muestreo aleatorio simple

R: Es aquel en el que cada elemento de la población tiene la misma probabilidad

de ser seleccionado, para integrar la muestra, ejemplo: ambos sexos F/M

7. Explique cómo se usa la tabla de números aleatorios. Mencione tres ejemplos

R: Es un conjunto de cifras entre 0 y 9 cuyo orden no obedece ninguna regla de

formación, ellas se pueden leer individualmente o en grupos y en cualquier orden,

en columnas hacia abajo, columnas hacia arriba, en fila, diagonalmente, si se

desea formar números aleatorios en un determinado rango, basta con calcular la

proporción, otra forma de usarlo es sumando dos números tomados de alguna

posición o multiplicarlos. Para ser presentadas estas cifras se agrupan en

números de 4 dígitos, formando bloques de 5 filas y 10 columnas facilitando de

esta forma su lectura que puede iniciarse desde cualquier parte de la tabla. Una

tabla de números aleatorios es útil para seleccionar al azar los individuos de una

población conocida que deben formar parte de una muestra.

8. Caracterice la medida de tendencia central. Mencione tres ejemplos

R: Ejemplo: se encuentran en la parte central de un conjunto de datos. A) Media

aritmética, se obtiene al dividir la suma de todos los valores de una variable por la

frecuencia total, ejemplo: siguientes notas en matemáticas 4, 7, 7, 2, 5, 3, N= 6

numero total de datos:

9. Elabore un cuadro comparativo entre las distintas medidas de tendencia central

Medidas de tendencia central

Herramientas Características Formulas

Media (aritmética)

Medida que se obtiene al dividir la suma de todos los valores de una frecuencia total.

Mediana

Valor central de un conjunto de valores ordenados en la forma creciente o descendente.

En caso de que la relación de los números sea impar se utilizara la suma de los dos valores intermedios entre dos.

Moda Medida que indica cual dato tiene la mayor frecuencia en un conjunto de datos.

10. Explique las fórmulas para obtener el valor medio.

R: Media

Media, es la sumatoria de los datos entre el numero total de datos

11.Proporcione 3 ejemplos del uso del símbolo ∑Xi

R:

Expresa la sumatoria de los datos, que queremos saber, la media de las

edades. Ejemplo:

Esto quiere decir lo siguiente: el uso de la sumatoria en la media del conjunto de

números dividido entre el numero total.

12. Explique qué son las medidas de dispersión

R: Son las auxiliares que nos ayudaran a comprender que tan diferentes son los

datos de la muestra. Las medidas de dispersión son las variaciones que existen en

la muestra, tales como: el rango, desviación estándar.

13.Explique las fórmulas para calcular la desviación estándar.

R:

14.Explique el contenido del Teorema de Chebyshev

R: 1.- Nos dice que al menos de las observaciones, caen dentro de 2

desviaciones estándar de la media 2.- al menos caen dentro

de tres desviaciones estándar de la media .

Para un conjunto cualquiera de observaciones (muestra o población), la

proporción mínima de los valores que se encuentran dentro de k desviaciones

estándares desde la media es al menos 1 - 1/k2, donde k es una constante mayor

que 1.

15.Sintetice el contenido de la Regla empírica

R: Para una distribución de frecuencias simétrica de campana, aproximadamente

68% de las observaciones estará a más y menos una desviación estándar desde

la media, aproximadamente 95% de tales observaciones se encontrará a más y

menos dos desviaciones estándares de la misma; y prácticamente todas las

observaciones (99,7%) se hallarán a más y menos tres desviaciones con respecto

a la media.

16.Laboratorio: Grafique en barras y dispersión, usando EXCEL, el conjunto de datos siguiente:C calificaciones de un examen, F frecuencia de cada valor.

C 0 1 2 3 4 5 6 7 8 9 10F 1 0 1 0 1 1 3 10 3 2 3

Haga los gráficos e incluya la información necesaria en cada uno para que la presentación de cada uno de ellos sea entendible por otras personas

El eje x representa las calificaciones de los alumnos, mientras que los resultados en el eje y son los resultados obtenidos por los alumnos.

17.Las calificaciones de un examen de estadística fueron: 6, 3, 7, 8, 7, 9, 3, 4, 7, 5, 5, 6, 8, 8, 9, 8, 9, 9, 6, 7, 6.

1 Obtenga la media

2 Obtenga la moda33 4 75 75 76 76 86 86 8

89999

3 Obtenga la mediana = a 7

18.Explique las formas en que puede obtenerse la probabilidad de un evento

R: Dentro de las formas encontramos lo siguiente: regla de adición; establece que

la probabilidad de ocurrencia de cualquier evento en particular es igual a la suma

de las probabilidades individuales, si es que los eventos son mutuamente

excluyentes, es decir, que dos no pueden ocurrir al mismo tiempo.

P(A o B) = P(A) U P (B) = P(A) + P (B) si A y B son mutuamente excluyente. P(A o

B) = P(A) + P (B) − P(A y B) si A y B son no excluyentes. Siendo: P(A) =

probabilidad de ocurrencia del evento A. P (B) = probabilidad de ocurrencia del

evento B. P(A y B) = probabilidad de ocurrencia simultanea de los eventos A y B.

La regla de la multiplicación: establece que la probabilidad de ocurrencia de dos o

más eventos estadísticamente independientes es igual al producto de sus

probabilidades individuales. P(A y B) = P(A B) = P(A) P (B) si A y B son

independientes P(A y B) = P(A B) = P(A) P (B|A) si A y B son dependientes P(A y

B) = P(A B) = P (B) P (A|B) si A y B son dependientes.

La distribución nominal: probabilidad de ocurrencia de una combinación específica

de eventos independientes y mutuamente excluyentes se determina con la

distribución binomio, que es aquella donde hay solo dos posibilidades, tales como

masculino/femenino o si/no.

1. − Hay dos resultados posibles mutuamente excluyentes en cada ensayo u

observación. 2. − La serie de ensayos u observaciones constituyen eventos

independientes. 3. − La probabilidad de éxito permanece constante de ensayo a

ensayo, es decir el proceso es estacionario.

Para aplicar esta distribución al cálculo de la probabilidad de obtener un número

dado de éxitos en una serie de experimentos en un proceso de Bermnoulli, se

requieren tres valores: el número designado de éxitos (m), el número de ensayos y

observaciones (n); y la probabilidad de éxito en cada ensayo (p). Entonces la

probabilidad de que ocurran m éxitos en un experimento de n ensayos es: P (x =

m) = nCm Pm (1−P) n−m Siendo nCm el numero total de combinaciones posibles

de m elementos en un con junto de n elementos. En otras palabras P(x = m) =

m!/{m!(n−m)!}pm(1−p)n−m.

19.Sintetice el espacio muestral.

R: dentro de las teorías de probabilidades, el espacio muestral o espacio de

muestreo es denotado “E, S, Ω o U” y consiste en el conjunto de todos los posibles

resultados individuales de un experimento aleatorio, por ejemplo: si el experimento

consiste en lanzar dos monedas, el espacio de muestreo es el conjunto {(cara,

cara), (cara, cruz), (cruz, cara) y (cruz, cruz)}. Un evento o suceso es cualquier

subconjunto del espacio muestral, llamándose a los sucesos que contengan un

único elemento sucesos elementales. En el ejemplo, el suceso "sacar cara en el

primer lanzamiento", o {(cara, cara), (cara, cruz)}, estaría formado por los sucesos

elementales {(cara, cara)} y {(cara, cruz)}.

20.Explique el contenido de la Ley de los grandes números

R: la ley de los grandes números engloba diversos teoremas que describen el

comportamiento del promedio de una sucesión de variables aleatorias conforme

aumenta su número de ensayos. Estos teoremas prescriben condiciones

suficientes para garantizar que dicho promedio converge (en los sentidos

explicados abajo) al promedio de las esperanzas de las variables aleatorias

involucradas. Las distintas formulaciones de la ley de los grandes números (y sus

condiciones asociadas) especifican la convergencia de formas distintas.

Las leyes de los grandes números explican por qué el promedio de una muestra al

azar de una población de gran tamaño tenderá a estar cerca de la media de la

población completa.

Cuando las variables aleatorias tienen una varianza finita, el teorema central del

límite extiende nuestro entendimiento de la convergencia de su promedio

describiendo la distribución de diferencias estandarizadas entre la suma de

variables aleatorias y el valor esperado de esta suma: sin importar la distribución

subyacente de las variables aleatorias, esta diferencia estandarizada converge a

una variable aleatoria normal estándar.

Ley débil: La ley débil de los grandes números establece que si X1, X2, X3,... es

una sucesión infinita de variables aleatorias independientes que tienen el mismo

valor esperado μ y varianza σ2, entonces el promedio

Converge en probabilidad a μ. En otras palabras, para cualquier número positivo ε

se tiene

La ley fuerte de los grandes números establece que si X1, X2, X3,... es una

sucesión infinita de variables aleatorias independientes e idénticamente

distribuidas que cumplen E (|Xi|) < ∞   y tienen el valor esperado μ, entonces

Es decir, el promedio de las variables aleatorias converge a μ casi seguramente

(en un conjunto de probabilidad 1). Esta ley justifica la interpretación intuitiva de

que el valor esperado de una variable aleatoria como el "promedio a largo plazo al

hacer un muestreo repetitivo".

21.Caracterice la distribución de probabilidad

R: La distribución de probabilidad de una variable aleatoria es una función que

asigna a cada suceso definida sobre la variable aleatoria la probabilidad de que

dicho suceso ocurra. La distribución de probabilidad está definida sobre el

conjunto de todos los eventos rango de valores de la variable aleatoria.

Cuando la variable aleatoria toma valores en el conjunto de los números reales, la

distribución de probabilidad está completamente especificada por la función de

distribución, cuyo valor en cada real x es la probabilidad de que la variable

aleatoria sea menor o igual que x. dad una variable aleatoria todos son puntos ,

su función de distribución, es

Por simplicidad, cuando no hay lugar a confusión, suele omitirse el subíndice y

se escribe, simplemente,

22.Caracterice la distribución normal

R: O también llamada distribución de Gauss es una de las distribuciones de

probabilidad de una variable continua que con más frecuencia aparece en

fenómenos reales. La grafica de su función de densidad tiene una forma

acampanada y es simétrica respecto de un determinado parámetro. Esta curva se

conoce como campana de Gauss.

La importancia de esta distribución radica en que permite modelar numerosos

fenómenos naturales, sociales y psicológicos. Mientras que los mecanismos que

subyacen a gran parte de este tipo de fenómenos son desconocidos, por la

enorme cantidad de variables incontrolables que en ellos intervienen, el uso del

modelo normal puede justificarse asumiendo que cada observación se obtiene

como la suma de unas pocas causas independientes.

Se dice que una variable aleatoria continua X sigue una distribución normal de

parámetros μ y σ y se denota X~N(μ, σ) si su función de densidad está dada por:

donde μ ( mu) es la media y σ (sigma) es la desviación típica (σ2 es la varianza).

23.Sintetice la distribución normal estándar

R: Se llama distribución normal "estándar" a aquélla en la que sus parámetros

toman los valores μ = 0 y σ = 1. En este caso la función de densidad tiene la

siguiente expresión:

Su gráfica se muestra a la derecha y con frecuencia se usan tablas para el cálculo

de los valores de su distribución

24.Sintetice el contenido del teorema central del límite.

R: El teorema central del límite indica que en condiciones muy generales, si Sn es

la suma de n variables aleatorias independientes, entonces la función de

distribución de Sn se aproxima bien a una distribución normal. Así pues, el teorema

asegura que esto ocurre cuando la suma de estas variables aleatorias e

independientes es lo suficientemente grande.

Teorema del límite central: Sea X1, X2,..., Xn un conjunto de variables aleatorias,

independientes e idénticamente distribuidas con media μ y varianza σ2 distinta de

cero. Sea

Entonces

25.Explique en qué consiste la estimación de la media

R: El intervalo de confianza, para la media de una población, con un nivel de

confianza de 1 − α, siendo x la media de una muestra de tamaño n y σ la

desviación típica de la población, es:

El error máximo de estimación es:

Cuanto mayor sea el tamaño de la muestra, n, menor es el error.

Cuanto mayor sea el nivel de confianza, 1-α, mayor es el error.

Tamaño de la muestra

Si aumentamos el nivel de confianza, aumenta el tamaño de la muestra.

Si disminuimos el error, tenemos que aumentar el tamaño de la muestra.

26.Determine los factores de los cuales depende el intervalo de confianza para la media. Proporcione ejemplos

R: como se muestra en la pregunta anterior, los factores para el intervalo de

confianza dependen de: 1.- aumentar el nivel de confianza, implica aumentar la

muestra. 2.- disminuir el error, también aumenta el tamaño de la muestra, por lo

tanto, el factor para el intervalo de confianza depende del tamaño de la muestra.

27.explique qué es una distribución de probabilidad. Proporcione 3 ejemplos

R: La distribución de probabilidad de una variable aleatoria es una función que

asigna a cada suceso definida sobre la variable aleatoria la probabilidad de que

dicho suceso ocurra. La distribución de probabilidad está definida sobre el

conjunto de todos los eventos rango de valores de la variable aleatoria.

Cuando la variable aleatoria toma valores en el conjunto de los números reales, la

distribución de probabilidad está completamente especificada por la función de

distribución, cuyo valor en cada real x es la probabilidad de que la variable

aleatoria sea menor o igual que x. dad una variable aleatoria todos son puntos ,

su función de distribución, es

Por simplicidad, cuando no hay lugar a confusión, suele omitirse el subíndice y

se escribe, simplemente,

28.Explique qué es el nivel de significación

R: se define como la probabilidad de tomar la decisión de rechazar la hipótesis

nula cuando ésta es verdadera (decisión conocida como error de tipo I, o "falso

positivo"). La decisión se toma a menudo utilizando el valor p (o p-valor): si el valor

P es inferior al nivel de significación, entonces la hipótesis nula es rechazada.

Cuanto menor sea el valor P, más significativo será el resultado. En otros

términos, el nivel de significatividad de un contraste de hipótesis es una

probabilidad P tal que la probabilidad de tomar la decisión de rechazar la hipótesis

nula - cuando ésta es verdadera - no es mayor que P.

29.Explique qué es el nivel de confianza

R: El nivel de confianza es la probabilidad a priori de que el intervalo de

confianza a calcular contenga al verdadero valor del parámetro. Se indica por 1-α

y habitualmente se da en porcentaje (1-α) %. Hablamos de nivel de confianza y no

de probabilidad ya que una vez extraída la muestra, el intervalo de confianza

contendrá al verdadero valor del parámetro o no, lo que sabemos es que si

repitiésemos el proceso con muchas muestras podríamos afirmar que el (1-α) %

de los intervalos así construidos contendría al verdadero valor del parámetro.

Los valores que se suelen utilizar para el nivel de confianza son el 95%, 99% y

99,9%.

30.Explique qué se entiende por hipótesis nula e hipótesis alternativa

R: Hipótesis nula: es una hipótesis construida para anular o refutar, con el objetivo

de apoyar una hipótesis alternativa. Cuando se la utiliza, la hipótesis nula se

presume verdadera hasta que una evidencia estadística en la forma de una

prueba empírica de la hipótesis indique lo contrario.

Hipótesis alternativa: son posibilidades alternas, ante las hipótesis de investigación

y nula; ofrecen otra descripción o explicación distinta de las que proporcionan este

tipo de hipótesis.

Ejemplos:

1.- Un estudio hecho en un salón de clases con 30 alumnos queremos determinar el numero de aprobados y reprobados nos arroja los siguientes resultados.

Como resumirías los datos en una tabla. Hacer representación grafica.A= aprobado B= bien F= reprobado

A, a, b, f, b, b, f, a, b, a, a, a, b, f, b, f, b, b, b, a, b, f, b, f, a, b, b, f.

Tabla:

Modalidad Frecuencia absoluta Frecuencia relativa Porcentaje

A 9 9/30 30%

B 14 14/30 46%

F 7 7/30 23%

30 1 100%

La edad de personas de 15 años en adelante que están cursando la primaria en el sistema abierto:15, 20, 33, 18, 40, 50, 33, 21, 18, 44, 65, 19, 15, 21, 18, 40, 42, 57, 19, 23, 31, 30, 36, 27, 19, 25, 18, 35, 24, 19, 15, 18, 33, 64, 65, 17, 23, 31, 51, 40, 39, 44, 18, 15, 22, 21, 51, 39, 46, 36, 25, 15, 18, 23, 15, 16, 17, 18, 19, 20.Como resumiría los datos en una tabla. Hacer una grafica y calcular la media, mediana y moda.

Intervalos Frecuencia absoluta

Frecuencia relativa

Porcentaje Frecuencia absoluta

acumulada

Frecuencia relativa

acumulada 15-20 24 24/60 0.4 29 29/6021-26 10 10/60 0.16 34 34/6027-32 4 4/60 0.06 38 38/6033-38 6 6/60 0.1 44 44/6039-44 8 8/60 0.13 52 52/6045-50 2 2/60 0.03 54 54/6051-56 3 3/60 0.05 57 57/6057-62 1 1/60 0.01 58 58/6063-68 2 2/60 0.03 60 60/60

60 1 100% 1

Media = 1736/60 = 28.93

Moda = 18

Mediana = 23 31.Caracterice la hipótesis y proporcione 3 ejemplos

R: 1.- La hipótesis se caracteriza por establecer mas relaciones entre los hechos y

explicar el por que se producen. 2.- Son el planteamiento de una posible solución

al mismo problema. 3.- Es una proposición anunciada para responder

tentativamente a un problema. Por ejemplo:

Nuestro tema de investigación es; “la izquierda política en México” por

consiguiente nuestro acotamiento del tema seria “ideología política de los partidos

políticos de izquierda en México en la década de los 90´s”, entonces las hipótesis

considerables son:

1. La política de izquierda en los años 90´s no tenía fundamento político, sus

acciones se basaban en la economía global.

2. La introducción del neoliberalismo con salinas de Gortari elimino las

creencias en la política de izquierda verdadera.

3. La política de izquierda se encontraba centralizada en la lucha de clases.

32.Determine qué es el nivel de significación

R: El nivel de significación es un concepto estadístico directamente relacionado

con la verificación de la hipótesis, es decir, es la probabilidad de tomar la decisión

de rechazar la hipótesis nula cuando ésta es verdadera. En síntesis, el nivel de

significación es la probabilidad de tomar la decisión de rechazar la hipótesis nula -

cuando ésta es verdadera -.

33.Proporcione un ejemplo para que se comprenda qué es el nivel de significación 0.05

R: El nivel de significación comprende del 0,05, 0,01 y 0,1. Si un contraste de

hipótesis proporciona un valor P inferior a α, la hipótesis nula es rechazada,

siendo tal resultado denominado 'estadísticamente significativo'. Cuanto menor

sea el nivel de significatividad, más fuerte será la evidencia de que un hecho no se

debe a una mera coincidencia (al azar). En algunas situaciones es conveniente

expresar la significatividad estadística como 1 − α. En general, cuando se

interpreta una significatividad dada, se debe tomar en cuenta que, precisamente,

está siendo probada estadísticamente. Ejemplo:

Suponiendo que tenemos un producto a y uno b, y se lo damos a probar a 25

personas cada uno y 15 personas les es agradable el producto a y a 25 el

producto b. ¿Existe diferencia significativa entre los productos?

Ho (hipótesis nula) = No hay diferencia entre ambos tratamientos.

Ha (hipótesis alternativa) = Sí existe diferencia.Tratamiento N Porcentaje de respuestaA 25 15/25 = 0.60B 25 20/25 = 0.80

Si es mayor que el producto de 1.96 * el error estándar, Concluimos que la diferencia es significativa.

34.Sintetice la hipótesis nula e hipótesis alternativa. Proporcione un ejemplo de cada una

R: La hipótesis nula es construida para anular o refutar, con el objetivo de apoyar una hipótesis alternativa, se presuma verdadero hasta que exista evidencia.

Ho (hipótesis nula) = No hay diferencia entre ambos tratamientos.

Ha (hipótesis alternativa) = Sí existe diferencia.

35.Sintetice los pasos para hacer una prueba de hipótesis y describe qué se busca en cada uno de ellos.

R: La prueba de hipótesis es cualquier afirmación acerca de una población y/o sus parámetros. Consiste en contrastar dos hipótesis estadísticas que involucran la toma de decisión acerca de las hipótesis, dicha decisión consiste en rechazar o no una hipótesis en favor de la otra. Una hipótesis estadística se denota por “H” y son dos:

- Ho: hipótesis nula - e - H1: hipótesis alternativa

1-La hipótesis nula “Ho”

2-La hipótesis alternativa “H1”

3-El estadístico de prueba

4-Errores tipo I y II

5-La región de rechazo (crítica)

6-La toma de decisión

36.Explique en qué consiste el ANVAR

R: El análisis de varianza es uno de los métodos estadísticos más utilizados y más

elaborados en la investigación moderna. Se utiliza para probar hipótesis

preferentes a las medias de población más que a las varianzas de población.

37.Sintetice el uso de la tabla para F

R: La distribución F es una distribución de probabilidad continua, también

conocida como distribución F de Snedecor, donde una variable aleatoria

distribución F se construye como el siguiente cociente:

donde

U1 y U2 siguen una distribución chi-cuadrado con d1 y d2 grados de libertad

respectivamente, y

U1 y U2 son estadísticamente independientes.

38.Explique cómo se calculan los grados de libertad para el factor y para el error

R: El análisis de varianza lleva a la realización de pruebas de significación

estadística, usando la denominada distribución F

Una vez que se han calculado las sumas de cuadrados, las medias cuadráticas,

los grados de libertad y la F, se procede a elaborar una tabla que reúna la

información, denominada "Tabla de Análisis de varianza o ANOVA", que adopta la

siguiente forma:= +

Fuente de variación

Suma de cuadrados

Grados de libertad

Cuadrado medio F

Intergrupo SSFactores t - 1

Intragrupo o

ErrorSSError N - t

Total SSTotal N - 1