diccionario estadístico - · pdf filediccionario estadístico xs0217 –...

Diccionario

Estadístico

XS0217 – Probabilidades e Inferencia Estadística

Justin Álvarez Z. – B10358 Javier Durán C. –B12285

Prof. Milena Castro

II Semestre - 2013

Diccionario Estadístico

XS0217 – Probabilidades e Inferencia Estadística

A continuación se presenta una serie de términos fundamentales

en la ciencia estadística, con el fin de funcionar como un

diccionario que sirva de referencia para consulta de dichos

conceptos importantes.

Introducción y Conceptos Básicos

Estadística descriptiva

También conocida como estadística deductiva, se encarga de

recolectar o muestrear datos y su organización y presentación.

“Describe el mundo bajo estudio” (Badii, Castillo, Landeros J., &

Cortez, 2007). Analiza cualquier tratamiento de datos numéricos

que contenga generalizaciones y agrupa las técnicas

relacionadas con el tratamiento o procesamiento de los datos,

para caracterizar dicho conjunto e interpretarlo de manera

gráfica o analítica (Kohan, 2013).

Estadística inferencial:

O estadística inductiva, es la que se ocupa del problema de

establecer previsiones y conclusiones generales relativas a una

población a partir de los datos muestrales disponibles y del

cálculo de probabilidades (Badii, Castillo, Landeros J., & Cortez,

2007). Resulta de aplicar la probabilidad a los estadísticos

conocidos por la estadística descriptiva expresados en lenguaje

probabilístico (José Chacón, 2013).

Estadística

La estadística se trata de

verificar la validez

probabilística de los

acontecimientos en la

escala tiempo-espacio. La

palabra estadística se

deriva del latín status,

que significa estado,

posición o situación.

Engloba un conjunto de

técnicas para la

recolección, manejo,

descripción y análisis de

la información para que

los resultados obtenidos

de su aplicación tengan

un grado de

aplicabilidad específico a

un nivel probabilístico

correspondiente.

También se entiende por

estadística a la ciencia

que estudia conjuntos de

datos cualitativos y la

interpretación

matemática mediante

métodos para la

obtención de las medidas

que lo describen y para

el análisis de las

conclusiones, tomando

como referencia a la

teoría de la probabilidad

(Badii, Castillo, Landeros

J., & Cortez, 2007).

Población:

Es la cantidad total de cualquier conjunto completo de datos, objetos, individuos o resultados

que tienen alguna característica en común que se observará y analizará en un problema o

experimento. Puede referirse a actos, áreas geográficas, casos, datos, objetos, individuos,

resultados, mediciones, etc. De este conjunto de datos se buscan conclusiones para el estudio

(Villegas Alemán, Conceptos preliminares de Estadística, 2012).

Unidad estadística elemental:

O individuo. Es todo elemento que está afectado por la característica o factor que se desea

estudiar. Se refiere a cada uno de los elementos que componen la población (Conde Abellán, 2009).

Variables:

Son las características que se desean observar de los elementos de la población. Son caracteres,

cualitativos o cuantitativos, de cada individuo de la población (Badii, Castillo, Landeros J., &

Cortez, 2007). Se le llama variable a la cualidad, característica o cantidad medible de cualquier

suceso o acción que presente o experimente un cambio. Una variable aleatoria es aquella cuyos

cambios no pueden ser determinados antes de que se presenten, también se le llama variable

probabilística, cabalística o de azar. Puede ser del tipo cuantitativas, que se asocian a un valor

numérico y corresponden a aspectos que son medibles. Estas a la vez, pueden ser clasificadas en

discretas o continuas. Las variables discretas son aquellas que solamente toman valores enteros con

rango finito y las continuas aquellas que pueden tomar cualquier valor entre dos valores dados, es

decir, el rango contiene un intervalo de valores reales. Por su parte, las variables cualitativas o

categóricas son aquellas a las que se les asigna un aspecto, cualidad o características que las

distinga y que no se pueden medir. A dicha cualidad se le conoce como categoría. En este tipo de

variables, un elemento no puede estar en dos o más categorías a la vez, por lo cual son excluyentes.

Tampoco puede haber elementos de la población que no pertenezcan a alguna categoría, por lo que

son exhaustivas. A la vez, las variables cualitativas se pueden clasificar en nominales y ordinales;

siendo las nominales aquellas a las que no se les puede asignar un orden y las ordinales son

aquellas que además de clasificar a los elementos en distintas categorías también se les puede

asignar un orden u ordenarlos de acuerdo a dicha característica (Villegas Alemán, Conceptos

preliminares de Estadística, 2012).

Muestra:

Es cualquier subconjunto de la población. A menudo resulta muy difícil, e incluso imposible, el

estudio exhaustivo de una variable en una población. En ese caso, se elige una muestra para llevar

a cabo el estudio. Hay que asegurarse de que la muestra sea representativa y que el resultado que

se obtenga de ella sea significativo de toda la población (Larios Rodríguez). Los tipos más comunes

de técnicas de muestreo aleatorios son el muestreo aleatorio simple, el muestreo estratificado, el

muestreo por conglomerados y el muestreo sistemático. Si una muestra aleatoria se elige de tal

forma que todos los elementos de la población tengan la misma probabilidad de ser seleccionados,

la llamamos muestra aleatoria simple (de la Torre, 2003).

Censo:

Es el método de recolección de datos mediante el cual la información se obtiene del estudio de

todos los elementos que comoponen a la población bajo estudio. Debe incluir a todos los elementos

de la población (universalidad) y realizarse en un momento determinado (simultaneidad). Este

término se extiende a cualquier tipo de estudio independientemente de su cobertura geográfica,

número de unidades de información o frecuencia de su recolección, siempre y cuando incluya a

todas la unidades que componen la población que se investiga (Villegas Alemán, Conceptos

preliminares de Estadística, 2012).

Sesgo:

Error de muestreo en una dirección determinada. Se encuentra definido por las fallas en el

muestreo, que hacen que la selección de las muestras no sean lo suficientemente representativas.

Son errores sistemáticos, en uno sólo sentido y pueden ser de selección (cuando se utilizan

muestras y no pueden ser evaluados o medidos con un modelo matemático) o de medición. No

incluye errores de muestreo, ya que por su naturaleza aleatoria, estos sí pueden ser evaluados o

medidos con los modelos matemáticos que brinda la teoría de probabilidades (Villegas Alemán,

Conceptos preliminares de Estadística, 2012).

Error de muestreo:

Se dan cuando ocurren diferencias entre la media muestral y la media poblacional. El error

muestral se refiere a la variación natural existente entre muestras tomadas de la misma población.

El error muestral es un concepto importante que ayudará a entender mejor la naturaleza de la

estadística inferencial. Los errores que surgen al tomar las muestras no pueden clasificarse como

errores muestrales y se denominan errores no muestrales. El sesgo muestral se refiere a una

tendencia sistemática inherente a un método de muestreo que da estimaciones de un parámetro

que son, en promedio, menores (sesgo negativo), o mayores (sesgo positivo) que el parámetro real.

El sesgo muestral puede suprimirse, o minimizarse, usando la aleatorización. Cualquier medida

conlleva algún error. Si se usa la media para medir, estimar, la media poblacional μ, entonces la

media muestral conlleva algún error (de la Torre, 2003). Una media muestral x puede pensarse

como la suma de dos cantidades, la media poblacional μ y el error muestral; si e denota el error

muestral, entonces:

(1)

Fuente de datos primaria:

Datos que son creados directamente por el proveedor; es decir, son fuentes que publican o

suministran datos solamente recogidos por ellas mismas (Villegas Alemán, Conceptos preliminares

de Estadística, 2012).

Fuente de datos secundaria:

Utilizados por otro ente diferente y tomado directamente de una fuente de datos; es decir son

fuentes que toman y publican estadísticas originalmente recogidas por otros (Villegas Alemán,

Conceptos preliminares de Estadística, 2012).

Encuesta:

Constituye el término medio entre la observación y la experimentación. Sirve para describir

situaciones que pueden ser observadas y, al no poder realizar un experimento, se interroga a la

persona participante sobre ello. La encuesta es un método descriptivo con el que se pueden

detectar ideas, necesidades, preferencias, hábitos de uso, etc. Puede ser definida como una

“investigación realizada sobre una muestra de sujetos representativa de un colectivo más amplio,

utilizando procedimientos estandarizados de interrogación con el fin de obtener mediciones

cuantitativas de una gran variedad de características objetivas y subjetivas de la población” (Torres

& Salazar).

Cuestionarios:

Son formularios que rellenan los encuestados solos. Este método puede adoptarse para toda la

población o para sectores escogidos. Los cuestionarios pueden utilizarse para recopilar datos

sistemáticos habituales o poco frecuentes, y datos para estudios especializados (Food and

Agriculture Organization of the United Nations).

Entrevistas:

En las entrevistas, la información se obtiene a través de una encuesta y es registrada por

encuestadores. Las entrevistas estructuradas se llevan a cabo utilizando formularios de encuesta,

mientras que en las entrevistas abiertas se toman notas mientras se habla con los encuestados. Las

notas se estructuran (interpretan) luego para su posterior análisis. Las entrevistas abiertas, que

deben interpretarse y analizarse incluso durante la entrevista, deben realizarlas observadores y/o

encuestadores bien formados (Food and Agriculture Organization of the United Nations).

Distribuciones de Frecuencias

Distribución de frecuencias:

Es la manera de presentar las categorías de una variable. Indica cómo se distribuye la frecuencia

total entre las categorías, por lo que es el resumen más importante de la información contenida en

una variable cualitativa (Arrazola, Descripción de variables cualitativas).

- Frecuencia simple: número de veces que se repite cada clase.

- Frecuencia relativa simple: es la suma total de las frecuencias simples de clase. Cuando cada

valor de la frecuencia simple de clase se divide entre el total de casos u observaciones a este

cociente le denominamos frecuencia relativa simple. La suma de la frecuencia relativa simple

siempre será igual a la unidad.

- Frecuencia acumulada: la suma de la frecuencia simple de clase es denominada como

frecuencia acumulada. Al calcular la frecuencia acumulada en una distribución de frecuencia

acumulada de la primera clase será igual a la frecuencia simple de la misma clase. La segunda

acumulada es igual a la primera acumulada más la frecuencia simple de la segunda clase. El

valor de la última frecuencia acumulada es igual al total de datos.

- Frecuencia relativa acumulada: es el cociente que se obtiene al dividir cada frecuencia

acumulada entre el total de observaciones. También se puede definir como la suma sucesiva de

las frecuencias relativas simples (Badii, Castillo, Landeros J., & Cortez, 2007).

Histograma:

Es un conjunto de barras o rectángulos unidos uno de otro. Se utiliza para representar variables

continuas (Badii, Castillo, Landeros J., & Cortez, 2007). Existen varios tipos de histogramas:

- Unimodal simétrico: se suele dar en variables en las que hay una gran cantidad de

observaciones con valores intermedios y algunos valores en ambos extremos.

- Unimodal asimétrico a la derecha: se da en variables que tienen una gran cantidad de

observaciones pequeñas o intermedias y algunos datos grandes.

- Unimodal asimétrico a la izquierda: variables con muchas observaciones de valor alto o

intermedio.

- Bimodal simétrico: suele aparecer cuando los datos son de 2 grupos heterogéneos y conviene

estudiarlos por separado (Arrazola, Descripción de variables cuantitativas).

El histograma se puede emplear también para representar frecuencias acumuladas

(absolutas o relativas). Un ejemplo de histograma se muestra en la Figura 1.

Figura 1. Ejemplo de histograma. Fuente: (Barrera O).

Polígono de Frecuencia:

Se usa para representar los datos continuos y para indicar los puntos medios de clase en una

distribución de frecuencias (Badii, Castillo, Landeros J., & Cortez, 2007). Un polígono de

frecuencias se forma uniendo los extremos de las barras mediante segmentos. También se puede

realizar trazando los puntos que representan las frecuencias y uniéndolos mediante segmentos

(Conde Abellán, 2009). En la Figura 2 se puede observar un ejemplo de un polígono de frecuencias.

Figura 2. Ejemplo de polígono de Frecuencias. Fuente: (Cabrera González).

Ojivas:

Esta gráfica consiste en la representación de las frecuencias acumuladas de una distribución de

frecuencias. Puede construirse de dos maneras diferentes; sobre la base “menor que” o sobre la

base “mayor que”. Puede determinar el valor de la mediana de la distribución (Badii, Castillo,

Landeros J., & Cortez, 2007). La figura que se forma al unir los puntos del polígono de frecuencias

acumulativas es lo contrario del orden anunciado (si se utilizó el orden descendente en la

acumulación de los datos en el cuadro, la ojiva resulta ser ascendente) (Cabrera González). Un

ejemplo de ojiva se muestra en la Figura 3.

Figura 3. Ejemplo de Ojiva. Fuente: (Cabrera González).

Pareto:

Es un conjunto de rectángulos o barras separadas una de la otra, en razón de que se usa para

representar frecuencias de una clase. Para su construcción, se ordenan las clases de mayor a menor

frecuencia (absoluta o relativa) (Arrazola, Descripción de variables cualitativas). Un ejemplo de

diagrama de pareto se muestra en la Figura 4:

Figura 4. Ejemplo de diagrama de pareto. Fuente: (Briscoe).

Cuadro estadístico:

Se utilizan cuando los datos estadísticos se presentan a través de un conjunto de filas y de

columnas que responden a un ordenamiento lógico; es de gran peso e importancia para el uso y

para el usuario ya que constituye la forma más exacta de presentar las informaciones. Una tabla

consta de varias partes, las principales son las siguientes:

- Título: Es la parte más importante del cuadro y sirve para describir todo el contenido de éste.

- Subtítulos: Son los diferentes encabezados que se colocan en la parte superior de cada columna.

- Columna matriz: Es la columna principal del cuadro.

- Texto: El texto contiene todas las informaciones numéricas que aparecen en la tabla.

- Referencia (fuente): La fuente de los datos contenidos en la tabla indica la procedencia de

estos (Badii, Castillo, Landeros J., & Cortez, 2007).

Gráfico de barras:

Es un conjunto de rectángulos o barras separadas una de la otra, en razón de que se usa para

representar variables discretas; las barras deben ser de igual base o ancho y separadas a igual

distancia. Pueden disponerse en forma vertical y horizontal (Badii, Castillo, Landeros J., & Cortez,

2007). Se representan sobre unos ejes de coordenadas, en el eje de abscisas se colocan los valores de

la variable, y sobre el eje de ordenadas las frecuencias absolutas o relativas o acumuladas. Los

datos se representan mediante barras de una altura proporcional a la frecuencia (Conde Abellán,

2009). Se utilizan para comparar magnitudes entre varias categorías, por lo que se suelen usar

también para la mezcla de las dos utilidades anteriores. Un ejemplo de este tipo de gráficos se

muestra en la Figura 5, donde a la izquierda se muestra uno horizontal y a la derecha uno vertical o

de columnas.

Figura 5. Ejemplo de Gráfico de Barras. Fuente: (Dürsteler, 2004).

Los gráficos de barras pueden ser simples, cuando contienen solamente una serie de datos, o

compuestos, cuando contienen varias series de datos. En los gráficos compuestos, cada serie de

datos se representa mediante un conjunto de rectángulos que comparten color o textura. En cada

categoría o secuencia, los rectángulos suelen estar juntos, formando un grupo, mientras que entre

grupos se deja un espacio (Figura 5) (Dürsteler, 2004).

También existen los gráficos de barras apilados, donde cada uno de los segmentos en que está

dividida la barra pertenece a una serie de datos diferente. Muestra de qué forma una entidad total

está subdividida en partes. El gráfico 100% es un gráfico apilado en el que la altura del total cubre

todo el eje cuantitativo de manera que lo que muestran los segmentos es el porcentaje con que

contribuyen, que representa el 100% (Dürsteler, 2004).

Gráfica lineal:

Son usadas principalmente para representar datos clasificados por cantidad o tiempo; o sea, se

usan para representar series de tiempo o cronológicas (Badii, Castillo, Landeros J., & Cortez, 2007).

Son bidimensionales y las escalas se marcan sobre dos rectas, una vertical y otra horizontal que se

unen en un ángulo recto formando un sistema de coordenadas basado en parejas de distancias

sobre el eje de las abscisas y ordenadas. Los puntos de cada par ordenado se conectan de izquierda

a derecha con segmentos de línea recta para obtener una curva que muestre la evolución del

fenómeno de interés (Villegas Alemán, Gráficos Estadísticos, 2012). Un ejemplo de este gráfico se

muestra en la Figura 6.

Figura 6. Ejemplo de gráfico lineal. Fuente: (Stevens Institute of Technology, 2007).

Gráfico circular:

Gráfico bidimensional basado en un círculo que se divide en tantos sectores como categorías se

tienen. El área de cada uno de estos sectores indica la importancia de la categoría que representa. El

sector mayor se inicia exactamente en el punto más alto del círculo y luego los demás se van

colocando siguiendo el movimiento de las manecillas del reloj. La categoría de "otros" siempre se

coloca al final, sin importar su magnitud (Villegas Alemán, Gráficos Estadísticos, 2012). Un ejemplo

de este gráfico se muestra en la Figura 7.

Figura 7. Ejemplo de gráfico circular. Fuente: (Domínguez, 2012)

Diagrama de cajas:

El gráfico de caja es una representación que describe la información contenida en una muestra

basándose en cinco estadísticas: el valor máximo (máx), el tercer cuartil (Q3), la mediana (m), el

primer cuartil (Q1) y el valor mínimo (mín). La interpretación del gráfico se basa en la comparación

de las longitudes de los cuatro tramo, donde cada tramo tiene la misma cantidad de elementos, por

lo que aquellos tramos de menor longitud representan una mayor densidad de elementos

muestrales (Instituto de Estadística). Un ejemplo de este gráfico se muestra en la Figura 8.

Figura 8. Ejemplo de un gráfico de caja. Fuente: (Instituto de Estadística).

Medidas de Posición y Variabilidad:

Parámetro estadístico:

Es un número que se obtiene a partir de los datos de una distribución estadística. Los

parámetros estadísticos sirven para sintetizar la información dada por una tabla o por una gráfica

(Conde Abellán, 2009). Hay tres tipos parámetros estadísticos: de centralización, de posición y de

dispersión.

Medidas de posición:

Se utilizan para tratar de resumir, en un sólo número, la posición o localización de la

distribución de los datos. También se conocen como medidas de tendencia central. Pueden

expresarse en varias formas:

- Media aritmética (promedio): se le conoce como promedio. La media aritmética simple es el

resultado obtenido al dividir la suma de los datos entre el número total de ellos. Se calcula de la

siguiente manera:

∑

(2)

- Mediana: se define como el valor central de una serie de datos ordenados de acuerdo a su

magnitud. Si se tiene un número de datos par, existen dos valores centrales y la mediana se

calcula con el promedio de ambos.

- Moda: está relacionada con el valor más común o que ocurre más frecuentemente en un conjunto

de datos. Es el valor al cual le corresponde la mayor frecuencia. No se ve afectada por la

presencia de valores altos o bajos, pero requiere un número mínimo de observaciones para que

se manifieste claramente. En ocasiones, puede no estar definida al haber más de un valor modal

(Villegas Alemán, Medidas de Posición en Datos no Agrupados, 2012).

- Media geométrica: se define como la raíz enésima del producto de los datos. Se puede calcular

a partir de la ecuación (3):

√∏

(3)

Se usa principalmente para promediar porcentajes, índices y cifras relativas y para

determinar el incremento porcentual promedio en ventas, producción u otras actividades o

series económicas de un período a otro (Mendoza & Bautista, 2002).

- Media armónica: se define como el recíproco de la media aritmética de los recíprocos, como

se muestra en la ecuación (4):

(∑

)

(4)

Se emplea para promediar variaciones con respecto al tiempo (Mendoza & Bautista, 2002).

- Cuantilos: en muchas ocasiones es importante obtener valores que dividan el conjunto de datos

en fracciones específicas, dichas fracciones son los cuantilos. Un ejemplo de ellos es la mediana,

donde se divide el conjunto en dos partes iguales: los valores inferiores a la mediana y los

superiores. Los cuartiles son valores que dividen el conjunto en cuartas partes. También existen

los deciles, que dividen el conjunto de datos en décimas, y los percentiles, que lo dividen en

centésimas (Villegas Alemán, Cuantilos en datos no agrupados, 2012).

Medidas de variabilidad:

También conocidas como medidas de dispersión y se utilizan para determinar el grado de

acercamiento o distanciamiento de los valores de una distribución frente a su promedio de

localización, sobre la base de que entre más grande sea el grado de variación menor uniformidad

tendrán los datos y por lo tanto menor representatividad o confiabilidad del promedio de

tendencia central o localización por haber sido obtenido de datos dispersos. Si este valor es

pequeño (respecto a la unidad de medida) entonces hay una gran uniformidad entre los datos.

Cuando es cero quiere decir que todos los datos son iguales.

Hay básicamente dos tipos de medidas de dispersión: Medidas Absolutas y Medidas Relativas.

Las absolutas se caracterizan por ser números concretos, es decir, valores expresados en las mismas

unidades de la variable en estudio y que no permiten comparaciones o análisis respecto a la mayor

o menor dispersión de series expresadas en diferentes unidades. Estas medidas son: la varianza, la

desviación estándar y el rango intercuartilico.

Las medidas relativas de dispersión son valores abstractos, es decir, medidas adimensionales y

por lo tanto no expresadas en ninguna unidad específica, obviando así el inconveniente señalado

para las medidas absolutas. La principal medida es el coeficiente de variación (Mendoza &

Bautista, 2002).

- Amplitud: o recorrido; considera los valores extremos del grupo de datos y se define como la

diferencia entre el valor mayor y el menor del conjunto de datos. Se utiliza cuando se desea una

medida simple de la variabilidad.

- Desviación media: emplea la suma de los valores absolutos de las diferencias de los datos y la

divide por el número de datos para obtener una medida de dispersión promedio o por

observación. Se calcula con la ecuación (5):

∑ | |

(5)

- Desviación estándar: o desviación típica; utiliza los cuadrados de las desviaciones e indica

cuánto se alejan, en promedio, las observaciones de la media aritmética del conjunto. Es la

medida de dispersión más utilizada en estadística descriptiva y analítica, se define por medio de

la ecuación (6):

√∑ ( )

(6)

- Varianza: es el cuadrado de la desviación estándar, mostrada en la ecuación (7):

∑ ( )

(7)

Para el cálculo de la varianza se debe realizar según se esté considerando una muestra o toda

la población. Cuando se calcula la varianza en una muestra, se utiliza en el denominador n-1 en

lugar de n, ya que, de acuerdo con la teoría de la estadística, al dividir por n-1 se obtiene una

mejor estimación poblacional. Para una población se utilizan las letras griegas σ para la varianza

y μ para la media aritmética.

- Coeficiente de variación: se utiliza principalmente cuando los datos a comparar no están

dados en las mismas unidades o si la magnitud de los datos no son bastante similares. El

coeficiente de variación (CV) es un tipo de medida de dispersión relativa e indica la importancia

de la desviación estándar en relación al promedio aritmético. Si se considera una población, se

puede representar por la ecuación (8) o bien, si se representa por una muestra, se utiliza la

ecuación (9):

(8)

(9)

Al dividir la desviación estándar entre la media aritmética, se eliminan las unidades y la

inclusión del promedio en el divisor, permite corregir el efecto que tienen la magnitud de los

datos sobre la desviación estándar (Villegas Alemán, Medidas de dispersión en datos no

agrupados, 2012).

Teorema de Chebyshev y la regla típica de la normalidad:

“Para cualquier conjunto de datos (de una población o una muestra) y cualquier constante k mayor que 1,

el porcentaje de los datos que debe caer dentro de k desviaciones estándar de cualquier lado de la media es de

por lo menos

”

El teorema de Chevyshev se aplica a cualquier tipo de datos, pero sólo indica el porcentaje

mínimo de datos entre determinados límites. Para casi todos los datos, el porcentaje real de datos

que cae entre los límites es mucho mayor al especificado por el teorema de Chebyshev. Para

distribuciones normales (o de campana), se puede asegurar que cerca del 68% de los valores caen

dentro de una desviación estándar de la media, es decir, , cerca del 95% se encuentra dentro de

dos desviaciones estándar de la media ( ) y cerca del 99,7% a tres. Estos resultados se basan en

una distribución normal, la cual será explicada más adelante, y se forman parte de la regla típica de

la normalidad (Freund & Simon, 1994).

Elementos de Probabilidad:

Conceptos básicos de Probabilidad:

- Fenómenos determinísticos: son aquellos que tienen una sola manera de ocurrir y su

ocurrencia es una certeza. No hay incertidumbre acerca del resultado que ocurrirá cuando sea

repetido varias veces.

- Fenómenos aleatorios: son aquellos que tienen más de una forma de ocurrir y no se tiene la

certeza de cuál manera es la que ocurrirá en un momento determinado, pero sí se tiene una idea

acerca de todos los resultados posibles que pueden ocurrir; es decir, sus resultados están

determinados por el azar.

- Espacio muestral: es el conjunto de posibles resultados de un experimento aleatorio. Se

representa con la letra S y cada elemento de él se llama punto muestral.

- Espacio muestral discreto: sus elementos resultan de hacer conteos y son subconjuntos de los

números enteros.

- Espacio muestral continuo: sus elementos resultan de hacer mediciones y pertenecen a

intervalos en la recta real.

- Cardinalidad del espacio muestra: número de resultados posibles de un experimento.

- Evento: es cualquier subconjunto obtenido del espacio muestra, por lo que es un resultado

particular de un experimento aleatorio. Se le representa por las primeras letras del alfabeto.

- Evento nulo: es aquel que no tiene elementos y se le representa por ∅.

- Evento seguro: espacio muestral que puede ser considerado como un evento.

- Evento simple: cada uno de los posibles resultados de un experimento.

- Complemento de un evento: es la negación de un evento y corresponde al conjunto de

resultados posibles que no están considerados en un evento determinado. Se representa por y

contiene todos los elementos que no están en A, por lo que ocurre cuando A no ocurre.

- Unión de eventos: dados dos eventos A y B de un mismo espacio muestral, su unión se

representa por A∪B y es el evento que contiene los elementos que están en A, B o en ambos; es

decir, el evento ocurre si al menos uno de los dos eventos ocurre. Se denota por la ecuación (10)

y ocurre si ocurre al menos un Ai.

⋃

(10)

- Intersección de eventos: dados dos eventos A y B de un mismo espacio muestral, su

intersección se representa por A∩B y es el evento que contiene los elementos que están en A y B

al mismo tiempo, por lo que el evento ocurre cuando los eventos ocurren simultáneamente. Se

denota por la ecuación (11) y ocurre si ocurren todos los eventos Ai a la vez:

⋂

(11)

- Eventos excluyentes: son eventos que no tienen elementos en común; es decir, A∩B = ∅.

- Eventos excluyentes y exhaustivos: dos eventos son excluyentes y exhaustivos si al agrupar

los dos eventos se tiene la totalidad del espacio muestra; es decir, Ay B son dos eventos

excluyentes y exhaustivos si y sólo si A∩B = ∅ y A∪B = S.

- Probabilidad: es la cuantificación del estado de certidumbre en la ocurrencia de un fenómeno

(Acuña, 2010; Hernández Ramírez, 2010).

Probabilidad clásica:

La definición clásica de probabilidad requiere que el espacio muestra de todos los resultados

posibles sea finito y que los resultados del espacio muestra sean igualmente probables; por lo que si

A es el evento formado por n(A) resultados del espacio muestra y el número total de resultados

posibles es n(s), se tiene que (Terán):

( ) ( )

( )

(12)

Probabilidad frecuencial:

O probabilidad “a posteriori”. Se encuentra relacionada con el punto de vista de Aristóteles,

cuando dijo que “lo probable es aquello que ocurre diariamente”. Si se supone que se efectúa una

serie de n repeticiones de un experimento E, manteniendo constantes las condiciones pertinentes y,

para otro número de repeticiones, f, en las que se presenta el suceso A, de forma tal que en las

restantes n – f no se presentará, se obtendrá una serie de frecuencias relativas para n1, n2, … :

(13)

Estas frecuencias relativas diferirán poco entre sí cuando las ni sean grandes, por lo que tenderán

a acumularse en la proximidad de un valor fijo. Se puede describir matemáticamente la conducta

de las frecuencias relativas para grandes valores de n, por lo que se puede postular la existencia de

un número P(A) que es el número al cual tiende fr, es decir, la frecuencia relativa del suceso en

estudio:

( )

(14)

Este número se llamará la probabilidad del suceso A en relación con el experimento aleatorio E.

La frecuencia relativa se considera como una medida experimental de la probabilidad y se dice

puede esperar que, para grandes valores de n, la razón frecuencial observada sea

aproximadamente igual a P(A), a la probabilidad del suceso en estudio.

Por lo que se realiza una estimación del valor de una probabilidad desconocida por medio de un

estudio de la conducta de las frecuencias relativas del hecho o suceso correspondiente (Terán).

Probabilidad objetiva:

Es aquella que se determina tomando como base algún criterio experimental u objetivo ajeno al

sujeto decisor, como el cociente entre el número de casos favorables y el número de casos posibles o

el límite de una frecuencia relativa (Terán).

Probabilidad subjetiva:

Se refiere a la probabilidad de que ocurra un suceso basándose en la experiencia previa, la

opinión personal o la intuición del individuo. Se asigna un valor de probabilidad a los sucesos,

basándose en el grado de creencia de que el suceso pueda ocurrir (Terán).

Propiedades básicas de la probabilidad:

Se utilizan varias definiciones para estas propiedades:

- Espacio muestral (Ω): puede ser finito, infinito no numerable, infinito numerable, discreto o

continuo.

- Suceso imposible: suceso que nunca ocurre (∅).

- Suceso seguro: suceso que ocurre siempre (Ω).

- Suceso simple o elemental: cada uno de los elementos de Ω.

- Suceso compuesto: grupo de resultados contenidos en el espacio muestral cuyos elementos

tienen una característica común.

Para dos sucesos A y B ∈ Ω, se tienen varios axiomas de probabilidades y propiedades, algunos ya

vistos con anterioridad. Entre estos se encuentran:

- Leyes de Morgan: El suceso contrario de la unión de dos sucesos es la intersección de sus

sucesos contrarios, ecuación (15). Y el suceso contrario de la intersección de dos sucesos es la

unión de sus sucesos contrarios, ecuación (16):

∪ (16)

∪ (17)

- Definición axiomática de Kolmogorov: para un espacio muestral Ω de cierto experimento

aleatorio, la probabilidad es una función que transforma sucesos del espacio muestral en números

reales que están entre 0 y 1 en los que:

1. Cualquiera que sea el suceso A: P(A) .

2. La probabilidad total es 1: (Ω)

3. Si dos sucesos son incompatibles, la probabilidad de su unión es igual a la suma de sus

probabilidades: ∅ ( ) ( ) ( )

- Propiedades:

1. (∅)

2. La probabilidad del complementario de un suceso A es: ( ) ( )

3. La probabilidad de todo suceso A es un número entre 0 y 1: ( ) .

4. Si dos sucesos son tales que , entonces: ( ) ( ).

5. Si dos sucesos no son incompatibles, la probabilidad de su unión debe calcularse por la regla

de la adición: ( ∪ ) ( ) ( ) ( )

6. Para una partición finita Ai, con i = , …, n: ⋃ y ∅, con :

( ) (⋃

) ∑ ( )

(Huelva, 2008).

Tablas de contingencia:

Se utilizan para analizar la relación de dependencia o independencia entre dos variables

mediante su distribución conjunta. Esta tabla es una tabla de doble entrada donde en cada

casilla figura el número de casos o individuos que poseen un nivel de uno de los factores o

características analizadas y otro nivel del otro factos analizado.

Se definen por el número de atributos o variables que se analizan simultáneamente y el

número de modalidades o niveles de lo mismo. Tienen dos objetivos principales, que son:

organizar la información contenida en un experimento cuando ésta es de carácter bidimensional

(referida a dos factores) y analizar si existe alguna relación de dependencia o independencia

entre los niveles de las variables objeto de estudio (Vicéns Otero & Medina Moral , 2005).

Probabilidad marginal:

Es la probabilidad simple de un evento, pero expresada como una suma de probabilidades

conjuntas (Valdez y Alfaro, 2013). Es la probabilidad particular de una de las variables, dada

una variable aleatoria bidimensional. Se define como:

( ) ∑ ( )

(18)

Probabilidad conjunta:

Para dos eventos A y B que pertenecen al espacio muestral S, la probabilidad conjunta de A y

B es la probabilidad de que ocurran el evento A y el evento B de manera simultánea (Valdez y

Alfaro, 2013). Para una serie de n eventos, la probabilidad conjunta se describe por:

( ) ( | ) ( | ) ( )

Condición de independencia:

Un evento A es condicionalmente independiente de otro B dado un tercer evento C, si el

conocer C hace que A y B sean independientes; es decir, si se conoce C, B no tiene influencia en

A; esto se puede expresar así: ( | ) ( | ) (Morales & González, 2012).

Técnicas de conteo:

Las técnicas de conteo son usadas para enumerar eventos difíciles de cuantificar. Incluyen a

las combinaciones, permutaciones y diagramas de árbol, las cuales proporcionan la información

de todas las maneras posibles en que ocurre un evento determinado.

- Permutaciones: Es todo arreglo de elementos en donde interesa el lugar o posición que ocupa

cada uno de los elementos que constituyen dicho arreglo. La fórmula de permutaciones de r

objetos tomados de entre n objetos es:

( )

(19)

La ecuación (19) permite obtener todos aquellos arreglos en donde el orden es importante y

sólo se usen parte (r) de los n objetos con que se cuenta. No se pueden repetir objetos dentro del

arreglo, es decir, los n objetos son todos diferentes.

- Combinaciones: Es un arreglo de elementos en donde no interesa el lugar o posición que

ocupen los mismos dentro del arreglo. En una combinación interesa formar grupos y el

contenido de los mismos. La fórmula para determinar el número de combinaciones es:

( )

(20)

De donde se puede observar que:

(21)

- Particiones ordenadas: se le llama partición ordenada al hecho de repartir n objetos en

células de una cantidad de x1 objetos, x2 objetos, … y xk objetos. La fórmula que permite calcular

las particiones ordenadas es:

∏

(22)

La ecuación (22) sólo se puede usar cuando se reparten todos los objetos, no parte de ellos.

- Diagramas de árbol: un diagrama de árbol es una representación gráfica de un experimento

que consta de r pasos, donde cada uno de los pasos tiene un número finito de maneras de ser

llevado a cabo (Luna Gándara, 2007).

Esperanza matemática:

La esperanza matemática de una variable aleatoria discreta que puede tomar valores con

probabilidad ( )se define como:

( ) ∑ ( )

∈ ( ) (23)

La esperanza matemática de una variable aleatoria continua se define como:

( ) ∫ ( )

(24)

La esperanza matemática se puede interpretar como el valor medio de infinitas observaciones. Si

xi representa una observación en un individuo, se cumple:

∑

( )

(25)

También puede interpretarse como un punto de equilibro de la distribución de probabilidad.

Algunas propiedades de la esperanza matemática son:

1. ( )

2. ( ) ( )

3. ( ) ( ) ( )

4. ( ) ( )

5. Si x e y son independientes: ( ) ( ) ( )

La esperanza de una variable aleatoria representa un valor medio poblacional. No es cierto que

la probabilidad de observar resultados superiores a la esperanza sea igual a la probabilidad de

observar resultados inferiores (lo cual sucede únicamente en variables simétricas). En general, la

esperanza no es igual a la mediana de la distribución. La esperanza no es el valor más probable. En

el caso de variables aleatorias discretas, puede suceder que la esperanza no sea un valor

observable.

Se puede definir la varianza en función a la esperanza matemática, de acuerdo a la ecuación (26):

( ) ( ( )) (26)

Esta definición equivale a:

( ) ( ) ( ( )) ∑

( )

(∑ ( )

)

(27)

Por lo que la varianza puede interpretarse como un momento de la distribución de probabilidad

respecto de la esperanza: la varianza aumenta al aumentar la dispersión de la probabilidad

respecto de la esperanza (Biomatemàtica, 2006).

Teorema de Bayes:

Sea δ un espacio muestal formado por los eventos A1, A2, A3, … , An mutuamente excluyentes,

luego, ∪ ∪ ∪ ∪ (Figura 9)

Figura 9. Ilustración de un espacio muestral δ formado por una serie de eventos. Fuente: (Luna Gándara, 2007).

Si ocurre un evento B definido en δ, se observa que:

( ∪ ∪ ∪ ∪ ) ( ) ∪ ( ) ∪ ( ) ∪ ∪ ( )

Donde cada uno de los eventos Ai∩B son eventos mutuamente excluyentes, por lo que:

( ) ( ) ( ) ( ) ( )

Y como la ( ) ( ) ( | ), o sea, que la probabilidad de que ocurra el evento Ai y el

evento B es igual al teorema de la multiplicación para probabilidad condicional, luego;

( ) ( ) ( | ) ( ) ( | ) ( ) ( | ) ( ) ( | )

Si se desea calcular la probabilidad de que ocurra un evento Ai dado que B ya ocurrió, entonces;

( | ) ( )

( )

( ) ( | )

( ) ( | ) ( ) ( | ) ( ) ( | ) ( ) ( | )

Esta expresión es el teorema de Bayesm que es una simple probabilidad condicional (Luna

Gándara, 2007).

Distribuciones de Probabilidad Discretas:

Concepto general de distribución de probabilidad:

Es un modelo teórico que describe la forma en que varían los resultados de un experimento

aleatorio: da todas las probabilidades de todos los posibles resultados que podrían obtenerse

cuando se realiza un experimento aleatorio . Toda distribución de probabilidad es generada por

una variable aleatoria x, la que puede ser de dos tipos: variable aleatoria discreta y variable

aleatoria continua; ambos explicados con anterioridad. Estas variables generan dos tipos de

distribuciones de probabilidad:

- Distribución de probabilidad discreta: es generada por una variable discreta donde

( ) ; es decir, las probabilidades asociadas a cada uno de los valores que toma x deben ser

mayores o iguales a cero. Además, ∑ ( ) , es decir, la sumatoria de las probabilidades

asociadas a cada uno de los valores que toma x debe ser igual a 1.

- Distribución de probabilidad continua: es generada por una variable continua donde

( ) ; es decir, las probabilidades asociadas a cada uno de los valores que toma x deben ser

mayores o iguales a cero: la función de densidad de probabilidad debe tomar sólo valores

mayores o iguales a cero, la cual sólo puede estar definida en los cuadrantes I y II. Además,

∫ ( )

; es decir, la sumatoria de las probabilidades asociadas a cada uno de los valores

que toma x debe ser igual a 1: el área definida bajo la función de densidad de probabilidad

deberá ser de 1 (Luna Gándara, 2007).

Distribución acumulada:

Para una variable aleatoria discreta x existe la probabilidad ( ) del evento y ésta depende

del valor que tenga x, por lo que será una función de x que se llama función de distribución

acumulada de la variable aleatoria y se representa por F(x). Por lo tanto:

( ) ( ) (28)

También se cumple que:

( ) ∑ ( )

(29)

La función de distribución acumulada se utiliza para cálculos de probabilidades con

planteamientos ( ) y ( ), donde . El primero se resuelve usanto la función de

distribución acumulada y el segundo en los conceptos siguientes. Se sabe que:

( ) ( ) ( )

Despejando ( ) se tiene:

( ) ( ) ( )

Y de acuerdo a la función de distribución acumulada, se puede llegar a que:

( ) ( ) ( )

Y esta expresión se utiliza tanto para encontrar la probabilidad de un intervalo como de un valor

específico que tome la variable aleatoria (Pérez Zendejas, 2004).

Distribución Binomial:

Se caracteriza porque en los experimentos que tienen este tipo de distribución, siempre se

esperan dos tipos de resultados; denominados arbitrariamente “éxito” (que es lo que se espera que

ocurra) o “fracaso” (lo contrario del éxito). Así mismo, las probabilidades asociadas a cada uno de

estos resultados son constantes (no cambian). Además, cada uno de los ensayos o repeticiones del

experimento son independientes entre sí, manteniéndose constante el número de ensayo o

repeticiones del experimento (n). Para calcular la media y la desviación estándar de un

experimento que tenga una distribución binomial, se pueden usar las siguientes fórmulas:

- Media o valor esperado:

(30)

- Desviación estándar:

√ (31)

Donde:

n = número de ensayos o repeticiones del experimento.

P = probabilidad de éxito referente al evento del cual se desea calcular la media.

Q = complemento de P.

Su forma funcional se representa por la ecuación (32):

( )

( )

(32)

Distribución de Poisson: λ

Se caracteriza por ser una forma límite de la distribución binomial que surge cuando se observa

un evento anormal después de un número grande de repeticiones. Se puede utilizar como una

aproximación de la binomial, Bin(n, p), si el número de pruebas n es grande, pero la probabilidad

de éxito p es pequeña; una regla es que la aproximación Poisson-binomial es “buena” si y

y “muy buena” si y .

La distribución de Poisson también surge cuando un evento o suceso anormal ocurre

aleatoriamente en el espacio o el tiempo. La variable asociada es el número de ocurrencias del

evento en un intervalo o espacio continuo, por tanto, es una variable aleatoria discreta que toma

valores enteros de 0 en adelante.

El concepto de evento anormal o poco frecuente debe ser entendido en el sentido de que la

probabilidad de observar k eventos decrece rápidamente a medida que k aumenta. Para que una

variable siga una distribución de Poisson deben cumplirse varias condiciones: en un intervalo muy

pequeño, la probabilidad de que ocurra un evento es proporcional al tamaño del intervalo; la

probabilidad de que ocurran dos o más eventos en un intervalo muy pequeño es tan reducida que,

a efectos prácticos, se puede considerar nula; y el número de ocurrencias en un intervalo pequeño

no depende de lo que ocurra en cualquier otro intervalo pequeño que no se solape con aquél.

El parámetro de la distribución, λ, representa el número promedio de eventos esperados por

unidad de tiempo o de espacio, por lo que también se suele hablar de λ como “la tasa de

ocurrencia” del fenómeno que se observa.

La distribución de Poisson tiene iguales a la media y la varianza. Si la variación de los casos

observados en una población excede a la variación esperada por la Poisson, se está ante la

presencia de un problema conocido como sobredispersión (Xunta de Galicia: Consellería de

Sanidade).

La forma funcional de la distribución de Poisson está dada por la ecuación (33):

( )

(33)

Donde λ es la media y la deviación estándar es √ .

Distribuciones de Probabilidad Continuas:

La distribución normal: μ, σ

Es la distribución límite de numerosas variables aleatorias, discretas y continuas. Es generada

por una variable de tipo continuo, denominada x, tal que . La función que define esta

distribución está dada por la ecuación (34):

( )

√ ( )

(34)

Donde a es la media y σ es la desviación estándar. Al dar a la función valores de μ, σ2 y valores a

x, se obtiene la distribución en cuestión, la cual posee forma de campana (de ahí que también se

conozca como campana de Gauss). Existe un número infinito de funciones de densidad normal,

una para cada pareja de μ y σ, donde μ mide la ubicación de la distribución y σ su dispersión.

Dentro de las características de esta distribución se tiene que la misma es simétrica con respecto

a su eje vertical y asintótica con respecto a su eje horizontal. Además, el área total bajo la curva es 1.

Si se suma a μ ± σ, se observa que aproximadamente el 68,26% de los datos se encuentran bajo la

curva, si se suma a μ ± 2σ, el 95,44% de los datos estará en dichos límites, y si se suma a μ ± 3σ,

entonces el 99,74% de los datos caerá dentro de los límites. Estos números constituyen una forma

empírica de demostrar si los datos que se analizan tienen una distribución normal.

Estos valores se obtienen del cálculo de la ecuación (35) para valores de x, μ y σ conocidos.

( ) ∫

( ) (35)

Por lo general, el cálculo de esta integral no es fácil, por lo que se utiliza un valor z, como en la

ecuación (36):

(36)

Este valor se busca en una tabla donde vienen áreas asociadas a dicho z y, haciendo uso de los

valores tabulados, se determina la probabilidad requerida (Figura 10) (Luna Gándara, 2007).

Figura 10. Ejemplo de distribución normal o curva gaussiana. Fuente: (Luna Gándara, 2007).

Aproximación a la binomial por la normal:

En algunos casos, se pueden calcular probabilidades de experimentos binomiales de manera

muy aproximada con la distribución normal; por lo general, cuando y P = P(éxito) no es muy

cercana a 0 y 1, o cuando n es pequeño y P tiene un valor muy cercano a 1/2:

( ) (

) (37)

Donde:

x = variable de tipo discreto.

μ = media de la distribución binomial.

σ = desviación estándar de la distribución binomial.

Bajo las condiciones descritas con anterioridad, la gráfica de la distribución binomial es muy

parecida a la distribución normal, por lo que es adecuado calcular probabilidades con la normal en

lugar de con la binomial, de una forma más rápida. Como se están evaluando probabilidades

asociadas a una variable discreta x, con una distribución que evalúa variable s de tipo continuo, es

necesario agregar un factor de corrección del tipo x ± ½ en la expresión de z (Luna Gándara, 2007).

Prueba de Hipótesis:

Hipótesis estadística:

Así es llamada la aserción o conjetura concerniente a una o más poblaciones. Las hipótesis son

utilizadas para la toma de decisiones basadas en datos existentes que pueden llegar a una

conclusión sobre cierto sistema. La falsedad o veracidad de la hipótesis nunca es conocida con

absoluta certeza; para poder tener certeza absoluta sobre es necesario examinar a la población

completa, lo cual es poco práctico en la mayoría de las situaciones.

Debido a la poco practicidad de estudiar a toda la población de interés, un grupo de muestreo es

escogido al azar y se utiliza la información contenida en ese grupo para proveer evidencia que

apoyo o refute la hipótesis. En el caso de que la muestra sea inconsistente con la hipótesis

establecida, la hipótesis es rechazada.

El hecho de que una hipótesis sea rechazada sólo implica que existe muy poca probabilidad de

que la información observada en la muestra donde la hipótesis sea verdadera (Walpole, Myers,

Myers, & Ye, 2012).

Hipótesis nula:

Se refiere a cualquier hipótesis que se desee probar. Es denotada como . La hipótesis nula

nulifica o se opone a la hipótesis alternativa, y es a menudo el complemento lógico de (Walpole,

Myers, Myers, & Ye, 2012).

Hipótesis alternativa:

Es denotada como , y el rechazo de lleva a la aceptación de la hipótesis alternativa.

Generalmente, esta hipótesis representa la pregunta a ser respondida o la teoría a ser probada

(Walpole, Myers, Myers, & Ye, 2012).

Error de tipo I:

Este error se comete cuando se realiza el rechazo de la hipótesis nula cuando ésta es verdadera


Nivel de significancia:

Es la probabilidad de cometer un error de tipo I, es denotado por . La preselección del nivel de

significancia nace en la filosofía de que el riesgo máximo de cometer un error de tipo I debe ser

controlado, esto puede verse como el mayor error permitido a cometerse. A pesar de esto, este

acercamiento considera para estadísticos de prueba que sean cercanos a la región crítica (Walpole,


Error de tipo II:

Este error se comente cuando no se realiza el rechazo de la hipótesis nula cuan ésta es falsa. La

probabilidad de cometer un error de tipo II, denotada por , es imposible de computarse a menos

que se tenga una hipótesis alternativa específica (Walpole, Myers, Myers, & Ye, 2012).

Poder estadístico:

El poder estadístico de una prueba es la probabilidad de rechazar la hipótesis nula dado que

una hipótesis alternativa específica es cierta. Éste es calculado como . El poder estadístico es

una medida más sucinta de qué tan sensible es la prueba para detectar diferencias entre medias

cercanas (Walpole, Myers, Myers, & Ye, 2012).

Prueba de una cola:

se tiene cuando la prueba de cualquier hipótesis estadística donde es unilateral, como

O


Prueba de dos colas:

Se tiene cuando la prueba de cualquier hipótesis estadística donde es bilateral, como lo es en

(Walpole, Myers, Myers, & Ye, 2012)

Prueba sobre una media (varianza conocida):

El modelo está basado en un experimento con observaciones que representan una muestra

cualquiera de una distribución con media y varianza . Y se consideran las hipótesis para

una prueba de dos colas. Para esta prueba es conveniente estandarizar e involucrar formalmente

la variable aleatoria normal estándar , la cual es

√

Si ⁄ ⁄ , la hipótesis nula no se rechaza (Walpole, Myers, Myers, & Ye, 2012).

Prueba sobre dos medias:

Teniéndose dos muestras aleatorias independientes de tamaños y , con medias y y

varianzas y

, se sabe que la variable aleatoria tiene una distribución normal.

( ) ( )

√

Este modelo asume que los tamaños de ambas muestras son lo suficiente mente grandes para

que pueda sea aplicado el teorema del límite central. Si se desea que la prueba sea de una cola, se

rechaza la hipótesis nula si o si , según sea pertinente. Si es de dos colas, la hipótesis

nula es rechazada en favor de la hipótesis alternativa si ⁄ ⁄ (Walpole, Myers, Myers,

& Ye, 2012).

Prueba sobre una proporción (muestras pequeñas):

Se considera el problema de probar la hipótesis que la proporción de éxito en un experimento

binomial es igual al valor especificado, por lo que . La hipótesis alternativa es

correspondiente ya sea a una prueba de una cola o dos. La variable aleatoria apropiada en la cual el

criterio de decisión es la variable aleatoria binomial , a pesar de que puede utilizarse el estadístico

. Valores de que se alejen de la media llevarán al rechazo de la hipótesis nula.

Para cuando se tiene la hipótesis alternativa , se averigua el valor correspondiente a

( ), donde es el número de éxitos en la muestra de tamaño . Si el valor

es menor o igual a , se rechaza la hipótesis nula en favor de la hipótesis alternativa.

Similarmente, cuando , la hipótesis nula es rechazada a favor de la hipótesis alternativa si

( ) es mayor o igual a .Finalmente, cuando , la hipótesis nula

es rechazada si es menor o igual a para los casos ( ) si y

( ) si (Walpole, Myers, Myers, & Ye, 2012).

Prueba de dos proporciones:

Se utiliza para probar la hipótesis de que dos proporciones o parámetros binomiales son iguales.

Entonces, , y la hipótesis alternativa depende de si la prueba es de una o dos colas. El

estadístico en el que se basa la decisión es la variable aleatoria . Muestras independientes de

tamaños y son seleccionadas al azar de dos poblaciones binomiales y de proporciones de

éxito y . El estimador es aproximadamente normalmente distribuido, cuya media

y cuya varianza es

. Utilizando la variable normal estándar, la

región crítica se establece

( ) ( )

√

Los criterios para la aceptación y rechazo de la hipótesis nula son las mismas que la prueba

sobre una proporción (Walpole, Myers, Myers, & Ye, 2012).

Prueba de bondad de ajuste:

Se basa en qué tan buen ajuste existe entre la frecuencia de ocurrencia de observaciones en una

muestra observada y las frecuencias esperadas obtenidas de una distribución hipotética (Walpole,


Bibliografía

Acuña, E. (2010). Conceptos básicos de probabilidades. Departamento de ciencias matemáticas. Puerto

Rico: Universidad de Puerto Rico.

Arrazola, M. (s.f.). Descripción de variables cualitativas. Departamento de Estadística. España:

Universidad Carlos III de Madrid.

Arrazola, M. (s.f.). Descripción de variables cuantitativas. Departamento de Estadística. España:

Universidad Carlos III de Madrid.

Badii, M., Castillo, J., Landeros J., & Cortez, K. (2007). Papel de la estadística en la investigación

científica. Innovaciones de Negocios, 4(1), 107-145.

Barrera O, A. (s.f.). Histograma. Recuperado el 30 de Noviembre de 2013, de Herramientas básicas de

calidad: https://sites.google.com/site/andreabarrerao/histograma

Biomatemàtica, G. d. (6 de Noviembre de 2006). El concepto de esperanza y varianza de una variable

aleatoria. Recuperado el 6 de Diciembre de 2013, de Departament de Ciències Mèdiques

Bàsiques. Universitat de Lleida:

http://web.udl.es/Biomath/Bioestadistica/Dossiers/Temas%20especiales/Distribucions/Introduc

cion%20al%20concepto%20de%20esperanza%20y%20varianza.pdf

Briscoe, G. (s.f.). Pareto Analysis (the 80:20 rule). Recuperado el 30 de Noviembre de 2013, de Managers-

Net: http://www.managers-net.com/paretoanalysis.html

Cabrera González, F. (s.f.). Distribución de frecuencias - Proceso de tabulación de la información. Centro

Regional Universitario de San Miguelito, Departamento de Estadística Económica y Social.

Universidad de Panamá.

Conde Abellán, C. (2009). Introducción a la Estadística. Melilla.

de la Torre, L. (2003). Teoría del Muestreo. Departamento de Estadística. México: Instituto Tecnológico

de Chihuaha.

Domínguez, E. (Marzo de 2012). Estadística. Recuperado el 30 de Noviembre de 2013, de

http://estadisticaeli.blogspot.com/

Dürsteler, J. (1 de Diciembre de 2004). Gráficos de Barras. Recuperado el 30 de Noviembre de 2013, de

InfoVis.net: http://www.infovis.net/printMag.php?num=157&lang=1

Food and Agriculture Organization of the United Nations. (s.f.). Departamento de Pesca. Recuperado el

30 de Noviembre de 2013, de Métodos de Recopilación de Datos:

http://www.fao.org/docrep/005/x2465s/x2465s08.htm

Freund, J., & Simon, G. (1994). Estadística elemental. México: Prentice Hall Hispanoamericana, S.A.

Hernández Ramírez, R. (8 de Octubre de 2010). Conceptos Básicos de Probabilidad. Recuperado el 3 de

Diciembre de 2013, de Universidad de Monterrey: http://ocw.udem.edu.mx/cursos-de-

posgrado/tutorial-de-estadistica/Modulos/Modulo02/CONCEPTOS.pdf

Huelva, U. d. (2008). Teoría de la Probabilidad. Recuperado el 6 de Diciembre de 2013, de Estadística e

Introducción a la Econometría:

http://www.uhu.es/45110/Ficheros%20de%20datos/curso%202008%202009/Tema%2006.pdf

Instituto de Estadística. (s.f.). Exploración de datos: Introducción a la Estadística Descriptiva. Recuperado el

30 de Noviembre de 2013, de Universidad Católica de Valparaíso:

http://www.ucv.cl/web/estadistica/gr_grafcaja.htm

José Chacón. (2013). Una introducción a la Estadística Inferencial. Ingeniería en Industrias Agropecuarias.

Ecuador: Universidad Técnica de Manabí.

Kohan, D. (2013). Introducción a la Probabilidad y Estadística. Recuperado el 30 de Noviembre de 2013,

de Estadística Descriptiva – Análisis de Datos:

http://www.bioingenieria.edu.ar/academica/catedras/introprob/descriptiva-teo.pdf

Larios Rodríguez, I. (s.f.). Proyecto de Seguimiento a los cursos de Estadística. Recuperado el 30 de

Noviembre de 2013, de Universidad de Sonora:

http://www.estadistica.mat.uson.mx/Material/elmuestreo.pdf

Luna Gándara, R. (2007). Probabilidad y Estadística. Departamento de Ingeniería Industrial. Instituto

Tecnológico de Chihuahua.

Mendoza, H., & Bautista, G. (2002). Probabilidad y Estadística. Recuperado el 2 de Diciembre de 2013, de

Universidad Nacional de Colombia: http://www.virtual.unal.edu.co/cursos/ciencias/2001065/

Morales, E., & González, J. (23 de Enero de 2012). Probabilidad. Recuperado el 6 de Diciembre de 2013,

de Aprendizaje Computacional:

http://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/node64.html

Pérez Zendejas, E. (25 de Febrero de 2004). Definición de función de probabilidad y de distribución de una

variable aleatoria discreta. Recuperado el 6 de Diciembre de 2013, de Instituto Politécnico

Nacional:

http://www.sites.upiicsa.ipn.mx/polilibros/portal/Polilibros/P_terminados/Probabilidad/doc/U

nidad%202/2.4.htm#item0

Stevens Institute of Technology. (2007). Ejemplo de un Gráfico Lineal de Temperatura (°C) vs. Tiempo

(fecha). Recuperado el 30 de Noviembre de 2013, de Center for Innovation in Engineering and

Science Education (CIESE):

http://www.ciese.org/curriculum/weatherproj2/es/popup/graficar2.shtml

Terán, T. (s.f.). Introducción a la Probabilidad. Recuperado el 6 de Diciembre de 2013, de Laboratorio

Pedagógico: https://sites.google.com/site/623probabilidad/probabilidad-clasica-empirica-y-

subjetiva

Torres, M., & Salazar, F. (s.f.). Métodos de Recolección de Datos para una Investigación. Facultad de

Ingeniería. Guatemala: Universidad Rafael Landívar.

Valdez y Alfaro, I. P. (2013). Probabilidad y Estadística e Inferencia Estadística. División de Ciencias

Básicas - Facultad de Ingeniería. México: Universidad Autónoma de México.

Vicéns Otero , J., & Medina Moral , E. (2005). Análisis de Datos Cualitativos. Departamento de Economía

Aplicada. España: Universidad Autónoma de Madrid.

Villegas Alemán, A. (2012). Conceptos preliminares de Estadística. Nicoya, Guanacaste, Costa Rica:

Universidad Autónoma de Centroamérica (UACA).

Villegas Alemán, A. (2012). Cuantilos en datos no agrupados. Nicoya, Guanacaste, Costa Rica:


Villegas Alemán, A. (2012). Gráficos Estadísticos. Nicoya, Guanacaste, Costa Rica: Universidad

Autónoma de Centroamérica.

Villegas Alemán, A. (2012). Medidas de dispersión en datos no agrupados. Nicoya, Guanacaste, Costa Rica:


Villegas Alemán, A. (2012). Medidas de Posición en Datos no Agrupados. Nicoya, Guanacaste, Costa Rica:


Walpole, Myers, Myers, & Ye. (2012). Probability & Statistics for Engineers & Scientists (Novena ed.).

Estados Unidos: Prentice Hall.

Xunta de Galicia: Consellería de Sanidade. (s.f.). Distribuciones de Probabilidad. Recuperado el 6 de

Diciembre de 2013, de Servizo Galego de Saúde:

http://dxsp.sergas.es/ApliEdatos/Epidat/Ayuda/4-

Ayuda%20Distribuciones%20de%20probabilidad.pdf

diccionario estadístico - · pdf filediccionario estadístico xs0217 –...

Documents