diccionario estadístico - · pdf filediccionario estadístico xs0217 –...
TRANSCRIPT
Diccionario
Estadístico
XS0217 – Probabilidades e Inferencia Estadística
Justin Álvarez Z. – B10358 Javier Durán C. –B12285
Prof. Milena Castro
II Semestre - 2013
Diccionario Estadístico
XS0217 – Probabilidades e Inferencia Estadística
A continuación se presenta una serie de términos fundamentales
en la ciencia estadística, con el fin de funcionar como un
diccionario que sirva de referencia para consulta de dichos
conceptos importantes.
Introducción y Conceptos Básicos
Estadística descriptiva
También conocida como estadística deductiva, se encarga de
recolectar o muestrear datos y su organización y presentación.
“Describe el mundo bajo estudio” (Badii, Castillo, Landeros J., &
Cortez, 2007). Analiza cualquier tratamiento de datos numéricos
que contenga generalizaciones y agrupa las técnicas
relacionadas con el tratamiento o procesamiento de los datos,
para caracterizar dicho conjunto e interpretarlo de manera
gráfica o analítica (Kohan, 2013).
Estadística inferencial:
O estadística inductiva, es la que se ocupa del problema de
establecer previsiones y conclusiones generales relativas a una
población a partir de los datos muestrales disponibles y del
cálculo de probabilidades (Badii, Castillo, Landeros J., & Cortez,
2007). Resulta de aplicar la probabilidad a los estadísticos
conocidos por la estadística descriptiva expresados en lenguaje
probabilístico (José Chacón, 2013).
Estadística
La estadística se trata de
verificar la validez
probabilística de los
acontecimientos en la
escala tiempo-espacio. La
palabra estadística se
deriva del latín status,
que significa estado,
posición o situación.
Engloba un conjunto de
técnicas para la
recolección, manejo,
descripción y análisis de
la información para que
los resultados obtenidos
de su aplicación tengan
un grado de
aplicabilidad específico a
un nivel probabilístico
correspondiente.
También se entiende por
estadística a la ciencia
que estudia conjuntos de
datos cualitativos y la
interpretación
matemática mediante
métodos para la
obtención de las medidas
que lo describen y para
el análisis de las
conclusiones, tomando
como referencia a la
teoría de la probabilidad
(Badii, Castillo, Landeros
J., & Cortez, 2007).
Población:
Es la cantidad total de cualquier conjunto completo de datos, objetos, individuos o resultados
que tienen alguna característica en común que se observará y analizará en un problema o
experimento. Puede referirse a actos, áreas geográficas, casos, datos, objetos, individuos,
resultados, mediciones, etc. De este conjunto de datos se buscan conclusiones para el estudio
(Villegas Alemán, Conceptos preliminares de Estadística, 2012).
Unidad estadística elemental:
O individuo. Es todo elemento que está afectado por la característica o factor que se desea
estudiar. Se refiere a cada uno de los elementos que componen la población (Conde Abellán, 2009).
Variables:
Son las características que se desean observar de los elementos de la población. Son caracteres,
cualitativos o cuantitativos, de cada individuo de la población (Badii, Castillo, Landeros J., &
Cortez, 2007). Se le llama variable a la cualidad, característica o cantidad medible de cualquier
suceso o acción que presente o experimente un cambio. Una variable aleatoria es aquella cuyos
cambios no pueden ser determinados antes de que se presenten, también se le llama variable
probabilística, cabalística o de azar. Puede ser del tipo cuantitativas, que se asocian a un valor
numérico y corresponden a aspectos que son medibles. Estas a la vez, pueden ser clasificadas en
discretas o continuas. Las variables discretas son aquellas que solamente toman valores enteros con
rango finito y las continuas aquellas que pueden tomar cualquier valor entre dos valores dados, es
decir, el rango contiene un intervalo de valores reales. Por su parte, las variables cualitativas o
categóricas son aquellas a las que se les asigna un aspecto, cualidad o características que las
distinga y que no se pueden medir. A dicha cualidad se le conoce como categoría. En este tipo de
variables, un elemento no puede estar en dos o más categorías a la vez, por lo cual son excluyentes.
Tampoco puede haber elementos de la población que no pertenezcan a alguna categoría, por lo que
son exhaustivas. A la vez, las variables cualitativas se pueden clasificar en nominales y ordinales;
siendo las nominales aquellas a las que no se les puede asignar un orden y las ordinales son
aquellas que además de clasificar a los elementos en distintas categorías también se les puede
asignar un orden u ordenarlos de acuerdo a dicha característica (Villegas Alemán, Conceptos
preliminares de Estadística, 2012).
Muestra:
Es cualquier subconjunto de la población. A menudo resulta muy difícil, e incluso imposible, el
estudio exhaustivo de una variable en una población. En ese caso, se elige una muestra para llevar
a cabo el estudio. Hay que asegurarse de que la muestra sea representativa y que el resultado que
se obtenga de ella sea significativo de toda la población (Larios Rodríguez). Los tipos más comunes
de técnicas de muestreo aleatorios son el muestreo aleatorio simple, el muestreo estratificado, el
muestreo por conglomerados y el muestreo sistemático. Si una muestra aleatoria se elige de tal
forma que todos los elementos de la población tengan la misma probabilidad de ser seleccionados,
la llamamos muestra aleatoria simple (de la Torre, 2003).
Censo:
Es el método de recolección de datos mediante el cual la información se obtiene del estudio de
todos los elementos que comoponen a la población bajo estudio. Debe incluir a todos los elementos
de la población (universalidad) y realizarse en un momento determinado (simultaneidad). Este
término se extiende a cualquier tipo de estudio independientemente de su cobertura geográfica,
número de unidades de información o frecuencia de su recolección, siempre y cuando incluya a
todas la unidades que componen la población que se investiga (Villegas Alemán, Conceptos
preliminares de Estadística, 2012).
Sesgo:
Error de muestreo en una dirección determinada. Se encuentra definido por las fallas en el
muestreo, que hacen que la selección de las muestras no sean lo suficientemente representativas.
Son errores sistemáticos, en uno sólo sentido y pueden ser de selección (cuando se utilizan
muestras y no pueden ser evaluados o medidos con un modelo matemático) o de medición. No
incluye errores de muestreo, ya que por su naturaleza aleatoria, estos sí pueden ser evaluados o
medidos con los modelos matemáticos que brinda la teoría de probabilidades (Villegas Alemán,
Conceptos preliminares de Estadística, 2012).
Error de muestreo:
Se dan cuando ocurren diferencias entre la media muestral y la media poblacional. El error
muestral se refiere a la variación natural existente entre muestras tomadas de la misma población.
El error muestral es un concepto importante que ayudará a entender mejor la naturaleza de la
estadística inferencial. Los errores que surgen al tomar las muestras no pueden clasificarse como
errores muestrales y se denominan errores no muestrales. El sesgo muestral se refiere a una
tendencia sistemática inherente a un método de muestreo que da estimaciones de un parámetro
que son, en promedio, menores (sesgo negativo), o mayores (sesgo positivo) que el parámetro real.
El sesgo muestral puede suprimirse, o minimizarse, usando la aleatorización. Cualquier medida
conlleva algún error. Si se usa la media para medir, estimar, la media poblacional μ, entonces la
media muestral conlleva algún error (de la Torre, 2003). Una media muestral x puede pensarse
como la suma de dos cantidades, la media poblacional μ y el error muestral; si e denota el error
muestral, entonces:
(1)
Fuente de datos primaria:
Datos que son creados directamente por el proveedor; es decir, son fuentes que publican o
suministran datos solamente recogidos por ellas mismas (Villegas Alemán, Conceptos preliminares
de Estadística, 2012).
Fuente de datos secundaria:
Utilizados por otro ente diferente y tomado directamente de una fuente de datos; es decir son
fuentes que toman y publican estadísticas originalmente recogidas por otros (Villegas Alemán,
Conceptos preliminares de Estadística, 2012).
Encuesta:
Constituye el término medio entre la observación y la experimentación. Sirve para describir
situaciones que pueden ser observadas y, al no poder realizar un experimento, se interroga a la
persona participante sobre ello. La encuesta es un método descriptivo con el que se pueden
detectar ideas, necesidades, preferencias, hábitos de uso, etc. Puede ser definida como una
“investigación realizada sobre una muestra de sujetos representativa de un colectivo más amplio,
utilizando procedimientos estandarizados de interrogación con el fin de obtener mediciones
cuantitativas de una gran variedad de características objetivas y subjetivas de la población” (Torres
& Salazar).
Cuestionarios:
Son formularios que rellenan los encuestados solos. Este método puede adoptarse para toda la
población o para sectores escogidos. Los cuestionarios pueden utilizarse para recopilar datos
sistemáticos habituales o poco frecuentes, y datos para estudios especializados (Food and
Agriculture Organization of the United Nations).
Entrevistas:
En las entrevistas, la información se obtiene a través de una encuesta y es registrada por
encuestadores. Las entrevistas estructuradas se llevan a cabo utilizando formularios de encuesta,
mientras que en las entrevistas abiertas se toman notas mientras se habla con los encuestados. Las
notas se estructuran (interpretan) luego para su posterior análisis. Las entrevistas abiertas, que
deben interpretarse y analizarse incluso durante la entrevista, deben realizarlas observadores y/o
encuestadores bien formados (Food and Agriculture Organization of the United Nations).
Distribuciones de Frecuencias
Distribución de frecuencias:
Es la manera de presentar las categorías de una variable. Indica cómo se distribuye la frecuencia
total entre las categorías, por lo que es el resumen más importante de la información contenida en
una variable cualitativa (Arrazola, Descripción de variables cualitativas).
- Frecuencia simple: número de veces que se repite cada clase.
- Frecuencia relativa simple: es la suma total de las frecuencias simples de clase. Cuando cada
valor de la frecuencia simple de clase se divide entre el total de casos u observaciones a este
cociente le denominamos frecuencia relativa simple. La suma de la frecuencia relativa simple
siempre será igual a la unidad.
- Frecuencia acumulada: la suma de la frecuencia simple de clase es denominada como
frecuencia acumulada. Al calcular la frecuencia acumulada en una distribución de frecuencia
acumulada de la primera clase será igual a la frecuencia simple de la misma clase. La segunda
acumulada es igual a la primera acumulada más la frecuencia simple de la segunda clase. El
valor de la última frecuencia acumulada es igual al total de datos.
- Frecuencia relativa acumulada: es el cociente que se obtiene al dividir cada frecuencia
acumulada entre el total de observaciones. También se puede definir como la suma sucesiva de
las frecuencias relativas simples (Badii, Castillo, Landeros J., & Cortez, 2007).
Histograma:
Es un conjunto de barras o rectángulos unidos uno de otro. Se utiliza para representar variables
continuas (Badii, Castillo, Landeros J., & Cortez, 2007). Existen varios tipos de histogramas:
- Unimodal simétrico: se suele dar en variables en las que hay una gran cantidad de
observaciones con valores intermedios y algunos valores en ambos extremos.
- Unimodal asimétrico a la derecha: se da en variables que tienen una gran cantidad de
observaciones pequeñas o intermedias y algunos datos grandes.
- Unimodal asimétrico a la izquierda: variables con muchas observaciones de valor alto o
intermedio.
- Bimodal simétrico: suele aparecer cuando los datos son de 2 grupos heterogéneos y conviene
estudiarlos por separado (Arrazola, Descripción de variables cuantitativas).
El histograma se puede emplear también para representar frecuencias acumuladas
(absolutas o relativas). Un ejemplo de histograma se muestra en la Figura 1.
Figura 1. Ejemplo de histograma. Fuente: (Barrera O).
Polígono de Frecuencia:
Se usa para representar los datos continuos y para indicar los puntos medios de clase en una
distribución de frecuencias (Badii, Castillo, Landeros J., & Cortez, 2007). Un polígono de
frecuencias se forma uniendo los extremos de las barras mediante segmentos. También se puede
realizar trazando los puntos que representan las frecuencias y uniéndolos mediante segmentos
(Conde Abellán, 2009). En la Figura 2 se puede observar un ejemplo de un polígono de frecuencias.
Figura 2. Ejemplo de polígono de Frecuencias. Fuente: (Cabrera González).
Ojivas:
Esta gráfica consiste en la representación de las frecuencias acumuladas de una distribución de
frecuencias. Puede construirse de dos maneras diferentes; sobre la base “menor que” o sobre la
base “mayor que”. Puede determinar el valor de la mediana de la distribución (Badii, Castillo,
Landeros J., & Cortez, 2007). La figura que se forma al unir los puntos del polígono de frecuencias
acumulativas es lo contrario del orden anunciado (si se utilizó el orden descendente en la
acumulación de los datos en el cuadro, la ojiva resulta ser ascendente) (Cabrera González). Un
ejemplo de ojiva se muestra en la Figura 3.
Figura 3. Ejemplo de Ojiva. Fuente: (Cabrera González).
Pareto:
Es un conjunto de rectángulos o barras separadas una de la otra, en razón de que se usa para
representar frecuencias de una clase. Para su construcción, se ordenan las clases de mayor a menor
frecuencia (absoluta o relativa) (Arrazola, Descripción de variables cualitativas). Un ejemplo de
diagrama de pareto se muestra en la Figura 4:
Figura 4. Ejemplo de diagrama de pareto. Fuente: (Briscoe).
Cuadro estadístico:
Se utilizan cuando los datos estadísticos se presentan a través de un conjunto de filas y de
columnas que responden a un ordenamiento lógico; es de gran peso e importancia para el uso y
para el usuario ya que constituye la forma más exacta de presentar las informaciones. Una tabla
consta de varias partes, las principales son las siguientes:
- Título: Es la parte más importante del cuadro y sirve para describir todo el contenido de éste.
- Subtítulos: Son los diferentes encabezados que se colocan en la parte superior de cada columna.
- Columna matriz: Es la columna principal del cuadro.
- Texto: El texto contiene todas las informaciones numéricas que aparecen en la tabla.
- Referencia (fuente): La fuente de los datos contenidos en la tabla indica la procedencia de
estos (Badii, Castillo, Landeros J., & Cortez, 2007).
Gráfico de barras:
Es un conjunto de rectángulos o barras separadas una de la otra, en razón de que se usa para
representar variables discretas; las barras deben ser de igual base o ancho y separadas a igual
distancia. Pueden disponerse en forma vertical y horizontal (Badii, Castillo, Landeros J., & Cortez,
2007). Se representan sobre unos ejes de coordenadas, en el eje de abscisas se colocan los valores de
la variable, y sobre el eje de ordenadas las frecuencias absolutas o relativas o acumuladas. Los
datos se representan mediante barras de una altura proporcional a la frecuencia (Conde Abellán,
2009). Se utilizan para comparar magnitudes entre varias categorías, por lo que se suelen usar
también para la mezcla de las dos utilidades anteriores. Un ejemplo de este tipo de gráficos se
muestra en la Figura 5, donde a la izquierda se muestra uno horizontal y a la derecha uno vertical o
de columnas.
Figura 5. Ejemplo de Gráfico de Barras. Fuente: (Dürsteler, 2004).
Los gráficos de barras pueden ser simples, cuando contienen solamente una serie de datos, o
compuestos, cuando contienen varias series de datos. En los gráficos compuestos, cada serie de
datos se representa mediante un conjunto de rectángulos que comparten color o textura. En cada
categoría o secuencia, los rectángulos suelen estar juntos, formando un grupo, mientras que entre
grupos se deja un espacio (Figura 5) (Dürsteler, 2004).
También existen los gráficos de barras apilados, donde cada uno de los segmentos en que está
dividida la barra pertenece a una serie de datos diferente. Muestra de qué forma una entidad total
está subdividida en partes. El gráfico 100% es un gráfico apilado en el que la altura del total cubre
todo el eje cuantitativo de manera que lo que muestran los segmentos es el porcentaje con que
contribuyen, que representa el 100% (Dürsteler, 2004).
Gráfica lineal:
Son usadas principalmente para representar datos clasificados por cantidad o tiempo; o sea, se
usan para representar series de tiempo o cronológicas (Badii, Castillo, Landeros J., & Cortez, 2007).
Son bidimensionales y las escalas se marcan sobre dos rectas, una vertical y otra horizontal que se
unen en un ángulo recto formando un sistema de coordenadas basado en parejas de distancias
sobre el eje de las abscisas y ordenadas. Los puntos de cada par ordenado se conectan de izquierda
a derecha con segmentos de línea recta para obtener una curva que muestre la evolución del
fenómeno de interés (Villegas Alemán, Gráficos Estadísticos, 2012). Un ejemplo de este gráfico se
muestra en la Figura 6.
Figura 6. Ejemplo de gráfico lineal. Fuente: (Stevens Institute of Technology, 2007).
Gráfico circular:
Gráfico bidimensional basado en un círculo que se divide en tantos sectores como categorías se
tienen. El área de cada uno de estos sectores indica la importancia de la categoría que representa. El
sector mayor se inicia exactamente en el punto más alto del círculo y luego los demás se van
colocando siguiendo el movimiento de las manecillas del reloj. La categoría de "otros" siempre se
coloca al final, sin importar su magnitud (Villegas Alemán, Gráficos Estadísticos, 2012). Un ejemplo
de este gráfico se muestra en la Figura 7.
Figura 7. Ejemplo de gráfico circular. Fuente: (Domínguez, 2012)
Diagrama de cajas:
El gráfico de caja es una representación que describe la información contenida en una muestra
basándose en cinco estadísticas: el valor máximo (máx), el tercer cuartil (Q3), la mediana (m), el
primer cuartil (Q1) y el valor mínimo (mín). La interpretación del gráfico se basa en la comparación
de las longitudes de los cuatro tramo, donde cada tramo tiene la misma cantidad de elementos, por
lo que aquellos tramos de menor longitud representan una mayor densidad de elementos
muestrales (Instituto de Estadística). Un ejemplo de este gráfico se muestra en la Figura 8.
Figura 8. Ejemplo de un gráfico de caja. Fuente: (Instituto de Estadística).
Medidas de Posición y Variabilidad:
Parámetro estadístico:
Es un número que se obtiene a partir de los datos de una distribución estadística. Los
parámetros estadísticos sirven para sintetizar la información dada por una tabla o por una gráfica
(Conde Abellán, 2009). Hay tres tipos parámetros estadísticos: de centralización, de posición y de
dispersión.
Medidas de posición:
Se utilizan para tratar de resumir, en un sólo número, la posición o localización de la
distribución de los datos. También se conocen como medidas de tendencia central. Pueden
expresarse en varias formas:
- Media aritmética (promedio): se le conoce como promedio. La media aritmética simple es el
resultado obtenido al dividir la suma de los datos entre el número total de ellos. Se calcula de la
siguiente manera:
∑
(2)
- Mediana: se define como el valor central de una serie de datos ordenados de acuerdo a su
magnitud. Si se tiene un número de datos par, existen dos valores centrales y la mediana se
calcula con el promedio de ambos.
- Moda: está relacionada con el valor más común o que ocurre más frecuentemente en un conjunto
de datos. Es el valor al cual le corresponde la mayor frecuencia. No se ve afectada por la
presencia de valores altos o bajos, pero requiere un número mínimo de observaciones para que
se manifieste claramente. En ocasiones, puede no estar definida al haber más de un valor modal
(Villegas Alemán, Medidas de Posición en Datos no Agrupados, 2012).
- Media geométrica: se define como la raíz enésima del producto de los datos. Se puede calcular
a partir de la ecuación (3):
√∏
(3)
Se usa principalmente para promediar porcentajes, índices y cifras relativas y para
determinar el incremento porcentual promedio en ventas, producción u otras actividades o
series económicas de un período a otro (Mendoza & Bautista, 2002).
- Media armónica: se define como el recíproco de la media aritmética de los recíprocos, como
se muestra en la ecuación (4):
(∑
)
(4)
Se emplea para promediar variaciones con respecto al tiempo (Mendoza & Bautista, 2002).
- Cuantilos: en muchas ocasiones es importante obtener valores que dividan el conjunto de datos
en fracciones específicas, dichas fracciones son los cuantilos. Un ejemplo de ellos es la mediana,
donde se divide el conjunto en dos partes iguales: los valores inferiores a la mediana y los
superiores. Los cuartiles son valores que dividen el conjunto en cuartas partes. También existen
los deciles, que dividen el conjunto de datos en décimas, y los percentiles, que lo dividen en
centésimas (Villegas Alemán, Cuantilos en datos no agrupados, 2012).
Medidas de variabilidad:
También conocidas como medidas de dispersión y se utilizan para determinar el grado de
acercamiento o distanciamiento de los valores de una distribución frente a su promedio de
localización, sobre la base de que entre más grande sea el grado de variación menor uniformidad
tendrán los datos y por lo tanto menor representatividad o confiabilidad del promedio de
tendencia central o localización por haber sido obtenido de datos dispersos. Si este valor es
pequeño (respecto a la unidad de medida) entonces hay una gran uniformidad entre los datos.
Cuando es cero quiere decir que todos los datos son iguales.
Hay básicamente dos tipos de medidas de dispersión: Medidas Absolutas y Medidas Relativas.
Las absolutas se caracterizan por ser números concretos, es decir, valores expresados en las mismas
unidades de la variable en estudio y que no permiten comparaciones o análisis respecto a la mayor
o menor dispersión de series expresadas en diferentes unidades. Estas medidas son: la varianza, la
desviación estándar y el rango intercuartilico.
Las medidas relativas de dispersión son valores abstractos, es decir, medidas adimensionales y
por lo tanto no expresadas en ninguna unidad específica, obviando así el inconveniente señalado
para las medidas absolutas. La principal medida es el coeficiente de variación (Mendoza &
Bautista, 2002).
- Amplitud: o recorrido; considera los valores extremos del grupo de datos y se define como la
diferencia entre el valor mayor y el menor del conjunto de datos. Se utiliza cuando se desea una
medida simple de la variabilidad.
- Desviación media: emplea la suma de los valores absolutos de las diferencias de los datos y la
divide por el número de datos para obtener una medida de dispersión promedio o por
observación. Se calcula con la ecuación (5):
∑ | |
(5)
- Desviación estándar: o desviación típica; utiliza los cuadrados de las desviaciones e indica
cuánto se alejan, en promedio, las observaciones de la media aritmética del conjunto. Es la
medida de dispersión más utilizada en estadística descriptiva y analítica, se define por medio de
la ecuación (6):
√∑ ( )
(6)
- Varianza: es el cuadrado de la desviación estándar, mostrada en la ecuación (7):
∑ ( )
(7)
Para el cálculo de la varianza se debe realizar según se esté considerando una muestra o toda
la población. Cuando se calcula la varianza en una muestra, se utiliza en el denominador n-1 en
lugar de n, ya que, de acuerdo con la teoría de la estadística, al dividir por n-1 se obtiene una
mejor estimación poblacional. Para una población se utilizan las letras griegas σ para la varianza
y μ para la media aritmética.
- Coeficiente de variación: se utiliza principalmente cuando los datos a comparar no están
dados en las mismas unidades o si la magnitud de los datos no son bastante similares. El
coeficiente de variación (CV) es un tipo de medida de dispersión relativa e indica la importancia
de la desviación estándar en relación al promedio aritmético. Si se considera una población, se
puede representar por la ecuación (8) o bien, si se representa por una muestra, se utiliza la
ecuación (9):
(8)
(9)
Al dividir la desviación estándar entre la media aritmética, se eliminan las unidades y la
inclusión del promedio en el divisor, permite corregir el efecto que tienen la magnitud de los
datos sobre la desviación estándar (Villegas Alemán, Medidas de dispersión en datos no
agrupados, 2012).
Teorema de Chebyshev y la regla típica de la normalidad:
“Para cualquier conjunto de datos (de una población o una muestra) y cualquier constante k mayor que 1,
el porcentaje de los datos que debe caer dentro de k desviaciones estándar de cualquier lado de la media es de
por lo menos
”
El teorema de Chevyshev se aplica a cualquier tipo de datos, pero sólo indica el porcentaje
mínimo de datos entre determinados límites. Para casi todos los datos, el porcentaje real de datos
que cae entre los límites es mucho mayor al especificado por el teorema de Chebyshev. Para
distribuciones normales (o de campana), se puede asegurar que cerca del 68% de los valores caen
dentro de una desviación estándar de la media, es decir, , cerca del 95% se encuentra dentro de
dos desviaciones estándar de la media ( ) y cerca del 99,7% a tres. Estos resultados se basan en
una distribución normal, la cual será explicada más adelante, y se forman parte de la regla típica de
la normalidad (Freund & Simon, 1994).
Elementos de Probabilidad:
Conceptos básicos de Probabilidad:
- Fenómenos determinísticos: son aquellos que tienen una sola manera de ocurrir y su
ocurrencia es una certeza. No hay incertidumbre acerca del resultado que ocurrirá cuando sea
repetido varias veces.
- Fenómenos aleatorios: son aquellos que tienen más de una forma de ocurrir y no se tiene la
certeza de cuál manera es la que ocurrirá en un momento determinado, pero sí se tiene una idea
acerca de todos los resultados posibles que pueden ocurrir; es decir, sus resultados están
determinados por el azar.
- Espacio muestral: es el conjunto de posibles resultados de un experimento aleatorio. Se
representa con la letra S y cada elemento de él se llama punto muestral.
- Espacio muestral discreto: sus elementos resultan de hacer conteos y son subconjuntos de los
números enteros.
- Espacio muestral continuo: sus elementos resultan de hacer mediciones y pertenecen a
intervalos en la recta real.
- Cardinalidad del espacio muestra: número de resultados posibles de un experimento.
- Evento: es cualquier subconjunto obtenido del espacio muestra, por lo que es un resultado
particular de un experimento aleatorio. Se le representa por las primeras letras del alfabeto.
- Evento nulo: es aquel que no tiene elementos y se le representa por ∅.
- Evento seguro: espacio muestral que puede ser considerado como un evento.
- Evento simple: cada uno de los posibles resultados de un experimento.
- Complemento de un evento: es la negación de un evento y corresponde al conjunto de
resultados posibles que no están considerados en un evento determinado. Se representa por y
contiene todos los elementos que no están en A, por lo que ocurre cuando A no ocurre.
- Unión de eventos: dados dos eventos A y B de un mismo espacio muestral, su unión se
representa por A∪B y es el evento que contiene los elementos que están en A, B o en ambos; es
decir, el evento ocurre si al menos uno de los dos eventos ocurre. Se denota por la ecuación (10)
y ocurre si ocurre al menos un Ai.
⋃
(10)
- Intersección de eventos: dados dos eventos A y B de un mismo espacio muestral, su
intersección se representa por A∩B y es el evento que contiene los elementos que están en A y B
al mismo tiempo, por lo que el evento ocurre cuando los eventos ocurren simultáneamente. Se
denota por la ecuación (11) y ocurre si ocurren todos los eventos Ai a la vez:
⋂
(11)
- Eventos excluyentes: son eventos que no tienen elementos en común; es decir, A∩B = ∅.
- Eventos excluyentes y exhaustivos: dos eventos son excluyentes y exhaustivos si al agrupar
los dos eventos se tiene la totalidad del espacio muestra; es decir, Ay B son dos eventos
excluyentes y exhaustivos si y sólo si A∩B = ∅ y A∪B = S.
- Probabilidad: es la cuantificación del estado de certidumbre en la ocurrencia de un fenómeno
(Acuña, 2010; Hernández Ramírez, 2010).
Probabilidad clásica:
La definición clásica de probabilidad requiere que el espacio muestra de todos los resultados
posibles sea finito y que los resultados del espacio muestra sean igualmente probables; por lo que si
A es el evento formado por n(A) resultados del espacio muestra y el número total de resultados
posibles es n(s), se tiene que (Terán):
( ) ( )
( )
(12)
Probabilidad frecuencial:
O probabilidad “a posteriori”. Se encuentra relacionada con el punto de vista de Aristóteles,
cuando dijo que “lo probable es aquello que ocurre diariamente”. Si se supone que se efectúa una
serie de n repeticiones de un experimento E, manteniendo constantes las condiciones pertinentes y,
para otro número de repeticiones, f, en las que se presenta el suceso A, de forma tal que en las
restantes n – f no se presentará, se obtendrá una serie de frecuencias relativas para n1, n2, … :
(13)
Estas frecuencias relativas diferirán poco entre sí cuando las ni sean grandes, por lo que tenderán
a acumularse en la proximidad de un valor fijo. Se puede describir matemáticamente la conducta
de las frecuencias relativas para grandes valores de n, por lo que se puede postular la existencia de
un número P(A) que es el número al cual tiende fr, es decir, la frecuencia relativa del suceso en
estudio:
( )
(14)
Este número se llamará la probabilidad del suceso A en relación con el experimento aleatorio E.
La frecuencia relativa se considera como una medida experimental de la probabilidad y se dice
puede esperar que, para grandes valores de n, la razón frecuencial observada sea
aproximadamente igual a P(A), a la probabilidad del suceso en estudio.
Por lo que se realiza una estimación del valor de una probabilidad desconocida por medio de un
estudio de la conducta de las frecuencias relativas del hecho o suceso correspondiente (Terán).
Probabilidad objetiva:
Es aquella que se determina tomando como base algún criterio experimental u objetivo ajeno al
sujeto decisor, como el cociente entre el número de casos favorables y el número de casos posibles o
el límite de una frecuencia relativa (Terán).
Probabilidad subjetiva:
Se refiere a la probabilidad de que ocurra un suceso basándose en la experiencia previa, la
opinión personal o la intuición del individuo. Se asigna un valor de probabilidad a los sucesos,
basándose en el grado de creencia de que el suceso pueda ocurrir (Terán).
Propiedades básicas de la probabilidad:
Se utilizan varias definiciones para estas propiedades:
- Espacio muestral (Ω): puede ser finito, infinito no numerable, infinito numerable, discreto o
continuo.
- Suceso imposible: suceso que nunca ocurre (∅).
- Suceso seguro: suceso que ocurre siempre (Ω).
- Suceso simple o elemental: cada uno de los elementos de Ω.
- Suceso compuesto: grupo de resultados contenidos en el espacio muestral cuyos elementos
tienen una característica común.
Para dos sucesos A y B ∈ Ω, se tienen varios axiomas de probabilidades y propiedades, algunos ya
vistos con anterioridad. Entre estos se encuentran:
- Leyes de Morgan: El suceso contrario de la unión de dos sucesos es la intersección de sus
sucesos contrarios, ecuación (15). Y el suceso contrario de la intersección de dos sucesos es la
unión de sus sucesos contrarios, ecuación (16):
∪ (16)
∪ (17)
- Definición axiomática de Kolmogorov: para un espacio muestral Ω de cierto experimento
aleatorio, la probabilidad es una función que transforma sucesos del espacio muestral en números
reales que están entre 0 y 1 en los que:
1. Cualquiera que sea el suceso A: P(A) .
2. La probabilidad total es 1: (Ω)
3. Si dos sucesos son incompatibles, la probabilidad de su unión es igual a la suma de sus
probabilidades: ∅ ( ) ( ) ( )
- Propiedades:
1. (∅)
2. La probabilidad del complementario de un suceso A es: ( ) ( )
3. La probabilidad de todo suceso A es un número entre 0 y 1: ( ) .
4. Si dos sucesos son tales que , entonces: ( ) ( ).
5. Si dos sucesos no son incompatibles, la probabilidad de su unión debe calcularse por la regla
de la adición: ( ∪ ) ( ) ( ) ( )
6. Para una partición finita Ai, con i = , …, n: ⋃ y ∅, con :
( ) (⋃
) ∑ ( )
(Huelva, 2008).
Tablas de contingencia:
Se utilizan para analizar la relación de dependencia o independencia entre dos variables
mediante su distribución conjunta. Esta tabla es una tabla de doble entrada donde en cada
casilla figura el número de casos o individuos que poseen un nivel de uno de los factores o
características analizadas y otro nivel del otro factos analizado.
Se definen por el número de atributos o variables que se analizan simultáneamente y el
número de modalidades o niveles de lo mismo. Tienen dos objetivos principales, que son:
organizar la información contenida en un experimento cuando ésta es de carácter bidimensional
(referida a dos factores) y analizar si existe alguna relación de dependencia o independencia
entre los niveles de las variables objeto de estudio (Vicéns Otero & Medina Moral , 2005).
Probabilidad marginal:
Es la probabilidad simple de un evento, pero expresada como una suma de probabilidades
conjuntas (Valdez y Alfaro, 2013). Es la probabilidad particular de una de las variables, dada
una variable aleatoria bidimensional. Se define como:
( ) ∑ ( )
(18)
Probabilidad conjunta:
Para dos eventos A y B que pertenecen al espacio muestral S, la probabilidad conjunta de A y
B es la probabilidad de que ocurran el evento A y el evento B de manera simultánea (Valdez y
Alfaro, 2013). Para una serie de n eventos, la probabilidad conjunta se describe por:
( ) ( | ) ( | ) ( )
Condición de independencia:
Un evento A es condicionalmente independiente de otro B dado un tercer evento C, si el
conocer C hace que A y B sean independientes; es decir, si se conoce C, B no tiene influencia en
A; esto se puede expresar así: ( | ) ( | ) (Morales & González, 2012).
Técnicas de conteo:
Las técnicas de conteo son usadas para enumerar eventos difíciles de cuantificar. Incluyen a
las combinaciones, permutaciones y diagramas de árbol, las cuales proporcionan la información
de todas las maneras posibles en que ocurre un evento determinado.
- Permutaciones: Es todo arreglo de elementos en donde interesa el lugar o posición que ocupa
cada uno de los elementos que constituyen dicho arreglo. La fórmula de permutaciones de r
objetos tomados de entre n objetos es:
( )
(19)
La ecuación (19) permite obtener todos aquellos arreglos en donde el orden es importante y
sólo se usen parte (r) de los n objetos con que se cuenta. No se pueden repetir objetos dentro del
arreglo, es decir, los n objetos son todos diferentes.
- Combinaciones: Es un arreglo de elementos en donde no interesa el lugar o posición que
ocupen los mismos dentro del arreglo. En una combinación interesa formar grupos y el
contenido de los mismos. La fórmula para determinar el número de combinaciones es:
( )
(20)
De donde se puede observar que:
(21)
- Particiones ordenadas: se le llama partición ordenada al hecho de repartir n objetos en
células de una cantidad de x1 objetos, x2 objetos, … y xk objetos. La fórmula que permite calcular
las particiones ordenadas es:
∏
(22)
La ecuación (22) sólo se puede usar cuando se reparten todos los objetos, no parte de ellos.
- Diagramas de árbol: un diagrama de árbol es una representación gráfica de un experimento
que consta de r pasos, donde cada uno de los pasos tiene un número finito de maneras de ser
llevado a cabo (Luna Gándara, 2007).
Esperanza matemática:
La esperanza matemática de una variable aleatoria discreta que puede tomar valores con
probabilidad ( )se define como:
( ) ∑ ( )
∈ ( ) (23)
La esperanza matemática de una variable aleatoria continua se define como:
( ) ∫ ( )
(24)
La esperanza matemática se puede interpretar como el valor medio de infinitas observaciones. Si
xi representa una observación en un individuo, se cumple:
∑
( )
(25)
También puede interpretarse como un punto de equilibro de la distribución de probabilidad.
Algunas propiedades de la esperanza matemática son:
1. ( )
2. ( ) ( )
3. ( ) ( ) ( )
4. ( ) ( )
5. Si x e y son independientes: ( ) ( ) ( )
La esperanza de una variable aleatoria representa un valor medio poblacional. No es cierto que
la probabilidad de observar resultados superiores a la esperanza sea igual a la probabilidad de
observar resultados inferiores (lo cual sucede únicamente en variables simétricas). En general, la
esperanza no es igual a la mediana de la distribución. La esperanza no es el valor más probable. En
el caso de variables aleatorias discretas, puede suceder que la esperanza no sea un valor
observable.
Se puede definir la varianza en función a la esperanza matemática, de acuerdo a la ecuación (26):
( ) ( ( )) (26)
Esta definición equivale a:
( ) ( ) ( ( )) ∑
( )
(∑ ( )
)
(27)
Por lo que la varianza puede interpretarse como un momento de la distribución de probabilidad
respecto de la esperanza: la varianza aumenta al aumentar la dispersión de la probabilidad
respecto de la esperanza (Biomatemàtica, 2006).
Teorema de Bayes:
Sea δ un espacio muestal formado por los eventos A1, A2, A3, … , An mutuamente excluyentes,
luego, ∪ ∪ ∪ ∪ (Figura 9)
Figura 9. Ilustración de un espacio muestral δ formado por una serie de eventos. Fuente: (Luna Gándara, 2007).
Si ocurre un evento B definido en δ, se observa que:
( ∪ ∪ ∪ ∪ ) ( ) ∪ ( ) ∪ ( ) ∪ ∪ ( )
Donde cada uno de los eventos Ai∩B son eventos mutuamente excluyentes, por lo que:
( ) ( ) ( ) ( ) ( )
Y como la ( ) ( ) ( | ), o sea, que la probabilidad de que ocurra el evento Ai y el
evento B es igual al teorema de la multiplicación para probabilidad condicional, luego;
( ) ( ) ( | ) ( ) ( | ) ( ) ( | ) ( ) ( | )
Si se desea calcular la probabilidad de que ocurra un evento Ai dado que B ya ocurrió, entonces;
( | ) ( )
( )
( ) ( | )
( ) ( | ) ( ) ( | ) ( ) ( | ) ( ) ( | )
Esta expresión es el teorema de Bayesm que es una simple probabilidad condicional (Luna
Gándara, 2007).
Distribuciones de Probabilidad Discretas:
Concepto general de distribución de probabilidad:
Es un modelo teórico que describe la forma en que varían los resultados de un experimento
aleatorio: da todas las probabilidades de todos los posibles resultados que podrían obtenerse
cuando se realiza un experimento aleatorio . Toda distribución de probabilidad es generada por
una variable aleatoria x, la que puede ser de dos tipos: variable aleatoria discreta y variable
aleatoria continua; ambos explicados con anterioridad. Estas variables generan dos tipos de
distribuciones de probabilidad:
- Distribución de probabilidad discreta: es generada por una variable discreta donde
( ) ; es decir, las probabilidades asociadas a cada uno de los valores que toma x deben ser
mayores o iguales a cero. Además, ∑ ( ) , es decir, la sumatoria de las probabilidades
asociadas a cada uno de los valores que toma x debe ser igual a 1.
- Distribución de probabilidad continua: es generada por una variable continua donde
( ) ; es decir, las probabilidades asociadas a cada uno de los valores que toma x deben ser
mayores o iguales a cero: la función de densidad de probabilidad debe tomar sólo valores
mayores o iguales a cero, la cual sólo puede estar definida en los cuadrantes I y II. Además,
∫ ( )
; es decir, la sumatoria de las probabilidades asociadas a cada uno de los valores
que toma x debe ser igual a 1: el área definida bajo la función de densidad de probabilidad
deberá ser de 1 (Luna Gándara, 2007).
Distribución acumulada:
Para una variable aleatoria discreta x existe la probabilidad ( ) del evento y ésta depende
del valor que tenga x, por lo que será una función de x que se llama función de distribución
acumulada de la variable aleatoria y se representa por F(x). Por lo tanto:
( ) ( ) (28)
También se cumple que:
( ) ∑ ( )
(29)
La función de distribución acumulada se utiliza para cálculos de probabilidades con
planteamientos ( ) y ( ), donde . El primero se resuelve usanto la función de
distribución acumulada y el segundo en los conceptos siguientes. Se sabe que:
( ) ( ) ( )
Despejando ( ) se tiene:
( ) ( ) ( )
Y de acuerdo a la función de distribución acumulada, se puede llegar a que:
( ) ( ) ( )
Y esta expresión se utiliza tanto para encontrar la probabilidad de un intervalo como de un valor
específico que tome la variable aleatoria (Pérez Zendejas, 2004).
Distribución Binomial:
Se caracteriza porque en los experimentos que tienen este tipo de distribución, siempre se
esperan dos tipos de resultados; denominados arbitrariamente “éxito” (que es lo que se espera que
ocurra) o “fracaso” (lo contrario del éxito). Así mismo, las probabilidades asociadas a cada uno de
estos resultados son constantes (no cambian). Además, cada uno de los ensayos o repeticiones del
experimento son independientes entre sí, manteniéndose constante el número de ensayo o
repeticiones del experimento (n). Para calcular la media y la desviación estándar de un
experimento que tenga una distribución binomial, se pueden usar las siguientes fórmulas:
- Media o valor esperado:
(30)
- Desviación estándar:
√ (31)
Donde:
n = número de ensayos o repeticiones del experimento.
P = probabilidad de éxito referente al evento del cual se desea calcular la media.
Q = complemento de P.
Su forma funcional se representa por la ecuación (32):
( )
( )
(32)
Distribución de Poisson: λ
Se caracteriza por ser una forma límite de la distribución binomial que surge cuando se observa
un evento anormal después de un número grande de repeticiones. Se puede utilizar como una
aproximación de la binomial, Bin(n, p), si el número de pruebas n es grande, pero la probabilidad
de éxito p es pequeña; una regla es que la aproximación Poisson-binomial es “buena” si y
y “muy buena” si y .
La distribución de Poisson también surge cuando un evento o suceso anormal ocurre
aleatoriamente en el espacio o el tiempo. La variable asociada es el número de ocurrencias del
evento en un intervalo o espacio continuo, por tanto, es una variable aleatoria discreta que toma
valores enteros de 0 en adelante.
El concepto de evento anormal o poco frecuente debe ser entendido en el sentido de que la
probabilidad de observar k eventos decrece rápidamente a medida que k aumenta. Para que una
variable siga una distribución de Poisson deben cumplirse varias condiciones: en un intervalo muy
pequeño, la probabilidad de que ocurra un evento es proporcional al tamaño del intervalo; la
probabilidad de que ocurran dos o más eventos en un intervalo muy pequeño es tan reducida que,
a efectos prácticos, se puede considerar nula; y el número de ocurrencias en un intervalo pequeño
no depende de lo que ocurra en cualquier otro intervalo pequeño que no se solape con aquél.
El parámetro de la distribución, λ, representa el número promedio de eventos esperados por
unidad de tiempo o de espacio, por lo que también se suele hablar de λ como “la tasa de
ocurrencia” del fenómeno que se observa.
La distribución de Poisson tiene iguales a la media y la varianza. Si la variación de los casos
observados en una población excede a la variación esperada por la Poisson, se está ante la
presencia de un problema conocido como sobredispersión (Xunta de Galicia: Consellería de
Sanidade).
La forma funcional de la distribución de Poisson está dada por la ecuación (33):
( )
(33)
Donde λ es la media y la deviación estándar es √ .
Distribuciones de Probabilidad Continuas:
La distribución normal: μ, σ
Es la distribución límite de numerosas variables aleatorias, discretas y continuas. Es generada
por una variable de tipo continuo, denominada x, tal que . La función que define esta
distribución está dada por la ecuación (34):
( )
√ ( )
(34)
Donde a es la media y σ es la desviación estándar. Al dar a la función valores de μ, σ2 y valores a
x, se obtiene la distribución en cuestión, la cual posee forma de campana (de ahí que también se
conozca como campana de Gauss). Existe un número infinito de funciones de densidad normal,
una para cada pareja de μ y σ, donde μ mide la ubicación de la distribución y σ su dispersión.
Dentro de las características de esta distribución se tiene que la misma es simétrica con respecto
a su eje vertical y asintótica con respecto a su eje horizontal. Además, el área total bajo la curva es 1.
Si se suma a μ ± σ, se observa que aproximadamente el 68,26% de los datos se encuentran bajo la
curva, si se suma a μ ± 2σ, el 95,44% de los datos estará en dichos límites, y si se suma a μ ± 3σ,
entonces el 99,74% de los datos caerá dentro de los límites. Estos números constituyen una forma
empírica de demostrar si los datos que se analizan tienen una distribución normal.
Estos valores se obtienen del cálculo de la ecuación (35) para valores de x, μ y σ conocidos.
( ) ∫
( ) (35)
Por lo general, el cálculo de esta integral no es fácil, por lo que se utiliza un valor z, como en la
ecuación (36):
(36)
Este valor se busca en una tabla donde vienen áreas asociadas a dicho z y, haciendo uso de los
valores tabulados, se determina la probabilidad requerida (Figura 10) (Luna Gándara, 2007).
Figura 10. Ejemplo de distribución normal o curva gaussiana. Fuente: (Luna Gándara, 2007).
Aproximación a la binomial por la normal:
En algunos casos, se pueden calcular probabilidades de experimentos binomiales de manera
muy aproximada con la distribución normal; por lo general, cuando y P = P(éxito) no es muy
cercana a 0 y 1, o cuando n es pequeño y P tiene un valor muy cercano a 1/2:
( ) (
) (37)
Donde:
x = variable de tipo discreto.
μ = media de la distribución binomial.
σ = desviación estándar de la distribución binomial.
Bajo las condiciones descritas con anterioridad, la gráfica de la distribución binomial es muy
parecida a la distribución normal, por lo que es adecuado calcular probabilidades con la normal en
lugar de con la binomial, de una forma más rápida. Como se están evaluando probabilidades
asociadas a una variable discreta x, con una distribución que evalúa variable s de tipo continuo, es
necesario agregar un factor de corrección del tipo x ± ½ en la expresión de z (Luna Gándara, 2007).
Prueba de Hipótesis:
Hipótesis estadística:
Así es llamada la aserción o conjetura concerniente a una o más poblaciones. Las hipótesis son
utilizadas para la toma de decisiones basadas en datos existentes que pueden llegar a una
conclusión sobre cierto sistema. La falsedad o veracidad de la hipótesis nunca es conocida con
absoluta certeza; para poder tener certeza absoluta sobre es necesario examinar a la población
completa, lo cual es poco práctico en la mayoría de las situaciones.
Debido a la poco practicidad de estudiar a toda la población de interés, un grupo de muestreo es
escogido al azar y se utiliza la información contenida en ese grupo para proveer evidencia que
apoyo o refute la hipótesis. En el caso de que la muestra sea inconsistente con la hipótesis
establecida, la hipótesis es rechazada.
El hecho de que una hipótesis sea rechazada sólo implica que existe muy poca probabilidad de
que la información observada en la muestra donde la hipótesis sea verdadera (Walpole, Myers,
Myers, & Ye, 2012).
Hipótesis nula:
Se refiere a cualquier hipótesis que se desee probar. Es denotada como . La hipótesis nula
nulifica o se opone a la hipótesis alternativa, y es a menudo el complemento lógico de (Walpole,
Myers, Myers, & Ye, 2012).
Hipótesis alternativa:
Es denotada como , y el rechazo de lleva a la aceptación de la hipótesis alternativa.
Generalmente, esta hipótesis representa la pregunta a ser respondida o la teoría a ser probada
(Walpole, Myers, Myers, & Ye, 2012).
Error de tipo I:
Este error se comete cuando se realiza el rechazo de la hipótesis nula cuando ésta es verdadera
(Walpole, Myers, Myers, & Ye, 2012).
Nivel de significancia:
Es la probabilidad de cometer un error de tipo I, es denotado por . La preselección del nivel de
significancia nace en la filosofía de que el riesgo máximo de cometer un error de tipo I debe ser
controlado, esto puede verse como el mayor error permitido a cometerse. A pesar de esto, este
acercamiento considera para estadísticos de prueba que sean cercanos a la región crítica (Walpole,
Myers, Myers, & Ye, 2012).
Error de tipo II:
Este error se comente cuando no se realiza el rechazo de la hipótesis nula cuan ésta es falsa. La
probabilidad de cometer un error de tipo II, denotada por , es imposible de computarse a menos
que se tenga una hipótesis alternativa específica (Walpole, Myers, Myers, & Ye, 2012).
Poder estadístico:
El poder estadístico de una prueba es la probabilidad de rechazar la hipótesis nula dado que
una hipótesis alternativa específica es cierta. Éste es calculado como . El poder estadístico es
una medida más sucinta de qué tan sensible es la prueba para detectar diferencias entre medias
cercanas (Walpole, Myers, Myers, & Ye, 2012).
Prueba de una cola:
se tiene cuando la prueba de cualquier hipótesis estadística donde es unilateral, como
O
(Walpole, Myers, Myers, & Ye, 2012).
Prueba de dos colas:
Se tiene cuando la prueba de cualquier hipótesis estadística donde es bilateral, como lo es en
(Walpole, Myers, Myers, & Ye, 2012)
Prueba sobre una media (varianza conocida):
El modelo está basado en un experimento con observaciones que representan una muestra
cualquiera de una distribución con media y varianza . Y se consideran las hipótesis para
una prueba de dos colas. Para esta prueba es conveniente estandarizar e involucrar formalmente
la variable aleatoria normal estándar , la cual es
√
Si ⁄ ⁄ , la hipótesis nula no se rechaza (Walpole, Myers, Myers, & Ye, 2012).
Prueba sobre dos medias:
Teniéndose dos muestras aleatorias independientes de tamaños y , con medias y y
varianzas y
, se sabe que la variable aleatoria tiene una distribución normal.
( ) ( )
√
Este modelo asume que los tamaños de ambas muestras son lo suficiente mente grandes para
que pueda sea aplicado el teorema del límite central. Si se desea que la prueba sea de una cola, se
rechaza la hipótesis nula si o si , según sea pertinente. Si es de dos colas, la hipótesis
nula es rechazada en favor de la hipótesis alternativa si ⁄ ⁄ (Walpole, Myers, Myers,
& Ye, 2012).
Prueba sobre una proporción (muestras pequeñas):
Se considera el problema de probar la hipótesis que la proporción de éxito en un experimento
binomial es igual al valor especificado, por lo que . La hipótesis alternativa es
correspondiente ya sea a una prueba de una cola o dos. La variable aleatoria apropiada en la cual el
criterio de decisión es la variable aleatoria binomial , a pesar de que puede utilizarse el estadístico
. Valores de que se alejen de la media llevarán al rechazo de la hipótesis nula.
Para cuando se tiene la hipótesis alternativa , se averigua el valor correspondiente a
( ), donde es el número de éxitos en la muestra de tamaño . Si el valor
es menor o igual a , se rechaza la hipótesis nula en favor de la hipótesis alternativa.
Similarmente, cuando , la hipótesis nula es rechazada a favor de la hipótesis alternativa si
( ) es mayor o igual a .Finalmente, cuando , la hipótesis nula
es rechazada si es menor o igual a para los casos ( ) si y
( ) si (Walpole, Myers, Myers, & Ye, 2012).
Prueba de dos proporciones:
Se utiliza para probar la hipótesis de que dos proporciones o parámetros binomiales son iguales.
Entonces, , y la hipótesis alternativa depende de si la prueba es de una o dos colas. El
estadístico en el que se basa la decisión es la variable aleatoria . Muestras independientes de
tamaños y son seleccionadas al azar de dos poblaciones binomiales y de proporciones de
éxito y . El estimador es aproximadamente normalmente distribuido, cuya media
y cuya varianza es
. Utilizando la variable normal estándar, la
región crítica se establece
( ) ( )
√
Los criterios para la aceptación y rechazo de la hipótesis nula son las mismas que la prueba
sobre una proporción (Walpole, Myers, Myers, & Ye, 2012).
Prueba de bondad de ajuste:
Se basa en qué tan buen ajuste existe entre la frecuencia de ocurrencia de observaciones en una
muestra observada y las frecuencias esperadas obtenidas de una distribución hipotética (Walpole,
Myers, Myers, & Ye, 2012).
Bibliografía
Acuña, E. (2010). Conceptos básicos de probabilidades. Departamento de ciencias matemáticas. Puerto
Rico: Universidad de Puerto Rico.
Arrazola, M. (s.f.). Descripción de variables cualitativas. Departamento de Estadística. España:
Universidad Carlos III de Madrid.
Arrazola, M. (s.f.). Descripción de variables cuantitativas. Departamento de Estadística. España:
Universidad Carlos III de Madrid.
Badii, M., Castillo, J., Landeros J., & Cortez, K. (2007). Papel de la estadística en la investigación
científica. Innovaciones de Negocios, 4(1), 107-145.
Barrera O, A. (s.f.). Histograma. Recuperado el 30 de Noviembre de 2013, de Herramientas básicas de
calidad: https://sites.google.com/site/andreabarrerao/histograma
Biomatemàtica, G. d. (6 de Noviembre de 2006). El concepto de esperanza y varianza de una variable
aleatoria. Recuperado el 6 de Diciembre de 2013, de Departament de Ciències Mèdiques
Bàsiques. Universitat de Lleida:
http://web.udl.es/Biomath/Bioestadistica/Dossiers/Temas%20especiales/Distribucions/Introduc
cion%20al%20concepto%20de%20esperanza%20y%20varianza.pdf
Briscoe, G. (s.f.). Pareto Analysis (the 80:20 rule). Recuperado el 30 de Noviembre de 2013, de Managers-
Net: http://www.managers-net.com/paretoanalysis.html
Cabrera González, F. (s.f.). Distribución de frecuencias - Proceso de tabulación de la información. Centro
Regional Universitario de San Miguelito, Departamento de Estadística Económica y Social.
Universidad de Panamá.
Conde Abellán, C. (2009). Introducción a la Estadística. Melilla.
de la Torre, L. (2003). Teoría del Muestreo. Departamento de Estadística. México: Instituto Tecnológico
de Chihuaha.
Domínguez, E. (Marzo de 2012). Estadística. Recuperado el 30 de Noviembre de 2013, de
http://estadisticaeli.blogspot.com/
Dürsteler, J. (1 de Diciembre de 2004). Gráficos de Barras. Recuperado el 30 de Noviembre de 2013, de
InfoVis.net: http://www.infovis.net/printMag.php?num=157&lang=1
Food and Agriculture Organization of the United Nations. (s.f.). Departamento de Pesca. Recuperado el
30 de Noviembre de 2013, de Métodos de Recopilación de Datos:
http://www.fao.org/docrep/005/x2465s/x2465s08.htm
Freund, J., & Simon, G. (1994). Estadística elemental. México: Prentice Hall Hispanoamericana, S.A.
Hernández Ramírez, R. (8 de Octubre de 2010). Conceptos Básicos de Probabilidad. Recuperado el 3 de
Diciembre de 2013, de Universidad de Monterrey: http://ocw.udem.edu.mx/cursos-de-
posgrado/tutorial-de-estadistica/Modulos/Modulo02/CONCEPTOS.pdf
Huelva, U. d. (2008). Teoría de la Probabilidad. Recuperado el 6 de Diciembre de 2013, de Estadística e
Introducción a la Econometría:
http://www.uhu.es/45110/Ficheros%20de%20datos/curso%202008%202009/Tema%2006.pdf
Instituto de Estadística. (s.f.). Exploración de datos: Introducción a la Estadística Descriptiva. Recuperado el
30 de Noviembre de 2013, de Universidad Católica de Valparaíso:
http://www.ucv.cl/web/estadistica/gr_grafcaja.htm
José Chacón. (2013). Una introducción a la Estadística Inferencial. Ingeniería en Industrias Agropecuarias.
Ecuador: Universidad Técnica de Manabí.
Kohan, D. (2013). Introducción a la Probabilidad y Estadística. Recuperado el 30 de Noviembre de 2013,
de Estadística Descriptiva – Análisis de Datos:
http://www.bioingenieria.edu.ar/academica/catedras/introprob/descriptiva-teo.pdf
Larios Rodríguez, I. (s.f.). Proyecto de Seguimiento a los cursos de Estadística. Recuperado el 30 de
Noviembre de 2013, de Universidad de Sonora:
http://www.estadistica.mat.uson.mx/Material/elmuestreo.pdf
Luna Gándara, R. (2007). Probabilidad y Estadística. Departamento de Ingeniería Industrial. Instituto
Tecnológico de Chihuahua.
Mendoza, H., & Bautista, G. (2002). Probabilidad y Estadística. Recuperado el 2 de Diciembre de 2013, de
Universidad Nacional de Colombia: http://www.virtual.unal.edu.co/cursos/ciencias/2001065/
Morales, E., & González, J. (23 de Enero de 2012). Probabilidad. Recuperado el 6 de Diciembre de 2013,
de Aprendizaje Computacional:
http://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/node64.html
Pérez Zendejas, E. (25 de Febrero de 2004). Definición de función de probabilidad y de distribución de una
variable aleatoria discreta. Recuperado el 6 de Diciembre de 2013, de Instituto Politécnico
Nacional:
http://www.sites.upiicsa.ipn.mx/polilibros/portal/Polilibros/P_terminados/Probabilidad/doc/U
nidad%202/2.4.htm#item0
Stevens Institute of Technology. (2007). Ejemplo de un Gráfico Lineal de Temperatura (°C) vs. Tiempo
(fecha). Recuperado el 30 de Noviembre de 2013, de Center for Innovation in Engineering and
Science Education (CIESE):
http://www.ciese.org/curriculum/weatherproj2/es/popup/graficar2.shtml
Terán, T. (s.f.). Introducción a la Probabilidad. Recuperado el 6 de Diciembre de 2013, de Laboratorio
Pedagógico: https://sites.google.com/site/623probabilidad/probabilidad-clasica-empirica-y-
subjetiva
Torres, M., & Salazar, F. (s.f.). Métodos de Recolección de Datos para una Investigación. Facultad de
Ingeniería. Guatemala: Universidad Rafael Landívar.
Valdez y Alfaro, I. P. (2013). Probabilidad y Estadística e Inferencia Estadística. División de Ciencias
Básicas - Facultad de Ingeniería. México: Universidad Autónoma de México.
Vicéns Otero , J., & Medina Moral , E. (2005). Análisis de Datos Cualitativos. Departamento de Economía
Aplicada. España: Universidad Autónoma de Madrid.
Villegas Alemán, A. (2012). Conceptos preliminares de Estadística. Nicoya, Guanacaste, Costa Rica:
Universidad Autónoma de Centroamérica (UACA).
Villegas Alemán, A. (2012). Cuantilos en datos no agrupados. Nicoya, Guanacaste, Costa Rica:
Universidad Autónoma de Centroamérica (UACA).
Villegas Alemán, A. (2012). Gráficos Estadísticos. Nicoya, Guanacaste, Costa Rica: Universidad
Autónoma de Centroamérica.
Villegas Alemán, A. (2012). Medidas de dispersión en datos no agrupados. Nicoya, Guanacaste, Costa Rica:
Universidad Autónoma de Centroamérica (UACA).
Villegas Alemán, A. (2012). Medidas de Posición en Datos no Agrupados. Nicoya, Guanacaste, Costa Rica:
Universidad Autónoma de Centroamérica (UACA).
Walpole, Myers, Myers, & Ye. (2012). Probability & Statistics for Engineers & Scientists (Novena ed.).
Estados Unidos: Prentice Hall.
Xunta de Galicia: Consellería de Sanidade. (s.f.). Distribuciones de Probabilidad. Recuperado el 6 de
Diciembre de 2013, de Servizo Galego de Saúde:
http://dxsp.sergas.es/ApliEdatos/Epidat/Ayuda/4-
Ayuda%20Distribuciones%20de%20probabilidad.pdf