08 estadistica 1 con excel v08 (rev mar 08)

112
UNIVERSIDAD DE VALPARAÍSO - FACULTAD DE CIENCIAS DEPARTAMENTO DE ESTADÍSTICA ESTADÍSTICA 1 ESTADÍSTICA DESCRIPTIVA PROF. ALBERTO CARO MARTÍN V08 VALPARAÍSO, MARZO DE 2008

Upload: nathan-soto

Post on 25-Nov-2015

53 views

Category:

Documents


8 download

TRANSCRIPT

  • UNIVERSIDAD DE VALPARASO - FACULTAD DE CIENCIAS

    DEPARTAMENTO DE ESTADSTICA

    ESTADSTICA 1 ESTADSTICA DESCRIPTIVA

    PROF. ALBERTO CARO MARTN

    V08

    VALPARASO, MARZO DE 2008

  • PRESENTACIN

    El material que se presenta a continuacin corresponde a los contenidos de Estadstica Descriptiva. En esta versin se ha incorporado el empleo de Excel para la presentacin de los temas, con la intencin que los estudiantes puedan emplear esta herramienta en su trabajo acadmico y no slo en la asignatura de Estadstica. Tambin se presentan ejemplos de aplicacin de las estadsticas bsicas en temas asociados a Evaluacin y Medicin, por medio de ejemplos de anlisis descriptivo de notas de alumnos, confiabilidad y estandarizacin. Si bien el enfoque central es descriptivo, en la medida que es posible, se incorpora el anlisis inferencial empleando grficos y tablas apropiadas. La finalidad de estos temas es incorporar el lenguaje inferencial y permitir que el alumno vislumbre la potencialidad des esta forma de anlisis, que se estudia en profundidad, ms adelante. Se espera ir complementando los ejercicios y agregando las soluciones de los mismos, para que sirvan de gua a los estudiantes que intentan su solucin. Valparaso, marzo de 2008.

  • INDICE

    1. La Estadstica 1.1. Definicin 1 1.2. Estadstica descriptiva e Inferencia 1 1.3. Estadstica y Mtodo Cientfico 1 1.4. Tipos de estudios 2 1.5. Seleccin de muestras aleatorias 3 2. Organizacin y Resumen de la Informacin 2.1. Variables y datos 4 2.2. Tabulacin de datos cualitativos o categricos 6 2.3. Tabulacin de datos cuantitativos discretos 7 2.4. Tabulacin de datos cuantitativos continuos 9 2.5. Grficos de frecuencias de datos continuos 11 2.6. Uso de Excel: funciones y Procedimiento Anlisis de datos 16 2.7. Uso de Excel para tabular datos 19 2.8. Uso de Excel para graficar datos 22 2.9. Ejercicios 31 3. Estadsticas de Posicin 3.1. Tipos de estadsticas de resumen 34 3.2. Media Aritmtica 35 3.3. Fractilas 38 3.4. Mediana 38 3.5. Grfico de "Caja" o "Cajn con Bigotes" 40 3.6. Percentiles y Puntos Centiles 41 3.7. Moda 43 3.8. Centro del Recorrido 44 3.9. Comparacin de la Media Aritmtica, la Mediana y la Moda 44 3.10 Ubicacin de Estadsticas de Posicin en Grficos 44 3.11. Ejercicios 45 4. Estadsticas de Dispersin 4.1. Varianza 47 4.2. Desviacin Estndar 49 4.3. Recorrido y Recorrido Intercuartlico 50 4.4. Coeficiente de Variacin 50 4.5. Error tpico (o de Muestreo) y Error de Estimacin 51 4.6. Grficos 51 4.7. Estadsticas de Resumen con Excel 53 4.8. Ejercicios 55 5. Estadsticas de Simetra y Apuntamiento 5.1. Momentos respecto a la Media. Definicin y Clculo 56 5.2. Caractersticas de Distribuciones Simtricas y Asimtricas 57 5.3. Anlisis Grfico de la Simetra 57 5.4. Coeficientes de Simetra 58 5.5. Tablas del Coeficiente de Simetra de Pearson 59 5.6. Estadsticas de Apuntamiento (Curtosis) 60 5.7. Coeficiente de Apuntamiento de Pearson (B2) y Tablas 60 5.8. Observaciones sobre Simetra y Apuntamiento 61

    5.9. Coeficientes de Simetra y Apuntamiento con Excel 61 5.10. Ejercicios 62

  • 5. Uso de las Estadsticas de Resumen 5.1. Ejemplo de Anlisis Descriptivo usando Excel 64 5.2 Ejercicio sobre Anlisis Descriptivo 72 5.3 Coeficiente de Confiabilidad 73 5.4. Ejercicios sobre Confiabilidad 75 5.5. Estandarizacin de Variables 76 5.6. Escalas Derivadas 78 5.7. Puntajes Estandarizados y Percentiles 78 5.8. Ejercicios sobre Estandarizacin 80 6. Correlacin 6.1. Datos Bivariantes y Relacin de Variables 81 6.2. La asociacin entre Variables 81 6.3. Coeficiente de Correlacin de Pearson 81 6.4. Propiedades del Coeficiente de Pearson 82 6.5. Clculo del Coeficiente de Correlacin de Pearson 82 6.6. Ejercicios 84 6.7. Significacin del Coeficiente de Correlacin 85 6.8. Otros Coeficientes Asociados con el de Pearson 86 6.9. Correlacin y Confiabilidad 88 6.10. Ejercicios 89 7. Regresin Lineal 7.1 Relaciones entre Variables 91 7.2 Modelo de Regresin Lineal 92 7.3. Estimacin de la Funcin de Regresin 92 7.4. Uso de Excel para estimar Recta de Regresin (de ajuste) 93 7.5. Uso de datos originales para estimar Recta de Regresin 93 7.6. Estimacin de valores con la Recta de Regresin 94 7.7. Grfico de Regresin usando Excel 95 7.8. Ejercicios 99 8. Tasas e ndices 8.1 Definicin de Tasa 100 8.2. Definicin de ndice Simple (de base fija) 101 8.3. Definicin de Serie Indexada 101 8.4. Ejercicios 102 9. BIBLIOGRAFA 103 APNDICES Apndice 1: Formulario 104

    Apndice 2: Tablas de Coeficientes de Simetra y Apuntamiento 105 Apndice 3: Tabla de Valores crticos del Coeficiente de Correlacin de Pearson 106

    Apndice 4: Valores de la Funcin de Distribucin Normal Estndar 107 Apndice 5: Valores de la Funcin de Distribucin F 108

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 1

    1. LA ESTADISTICA 1.1. DEFINICIN

    La palabra "estadstica" se ha asociado a listados de nmeros, grficos, oficinas recolectoras de informacin de tipo demogrfico (nacimientos, defunciones, etc.). Se afirma que el trmino deriva de "estado" y esa caracterizacin recuerda la funcin del estado como recolectora de informacin. Hay noticias de recuentos de este tipo desde el 2.000 A.C. en China y desde 1.200 A.C. entre los incas. Sin embargo, en la actualidad la Estadstica es una disciplina cientfica, que se clasifica como una rama de la Matemtica Aplicada.

    La Estadstica tiene como objeto el estudio de los fenmenos aleatorios, esto es, aquellos en que la

    ocurrencia de algn evento no puede ser predicho con certeza. Esta ocurre porque las conclusiones: a) Son inciertas pues se basan en datos incompletos (uso de muestras). b) Estn afectas a variabilidad, pues se han empleado observaciones repetidas de un suceso, como

    ocurre en la investigacin cuando se usan sujetos de las mismas o similares caractersticas (sexo, edad, peso, estatura, CI etc.) a los cuales se les aplica un test, o se les somete a algn estmulo especial.

    Una definicin de Estadstica indica que es "un cuerpo de conceptos y mtodos usados para recolectar

    e interpretar datos referentes a un rea particular de investigacin y extraer conclusiones en situaciones en que la incertidumbre y la variacin estn presentes". Otra definicin escueta indica que es "la ciencia que transforma los datos en informacin".

    Por su objetivo, la Estadstica encuentra aplicacin en todos los campos en que se realizan mediciones,

    esto es, todas las reas asociadas con la investigacin cientfica o tecnolgica como en la Psicologa, Biologa Marina, Educacin, Medicina, Economa, Sociologa, Meteorologa, Ingeniera, Bibliotecologa etc. Adems, las aplicaciones estadsticas en ciertas disciplinas han generado reas nuevas como: Psicometra, Econometra, Biometra, etc.. 1.2. ESTADSTICA DESCRIPTIVA E INFERENCIA

    Los datos brutos generalmente no permiten obtener conclusiones. Ellos deben procesarse mediante las

    tcnicas que suministra la ESTADISTICA DESCRIPTIVA para organizarlos y presentarlos en tablas y grficos y obtener informacin relevante y resumida mediante algunos valores o "estadsticas" representativos.

    Cuando los datos corresponden slo a una parte (son una "muestra") de un colectivo mayor que

    interesa estudiar (o "poblacin") se necesita la INFERENCIA, la cual se apoya en la teora de las PROBABILIDADES para obtener conclusiones sobre la "poblacin". 1.3. ESTADSTICA Y MTODO CIENTFICO

    Se afirma que la Estadstica es el soporte del mtodo cientfico, el cual caracteriza la ciencia y la

    tecnologa. En el mtodo cientfico pueden reconocerse diversas etapas. Una simplificacin de las mismas y del aporte de la Estadstica sera:

    a) Planteamiento del problema: Es ms responsabilidad del investigador. b) Formulacin de hiptesis. Hay aportes en el planteamiento de hiptesis estadsticas c) Obtencin de la informacin: La Estadstica suministra mtodos apropiados. c) Anlisis de los datos: Es responsabilidad de la Estadstica. d) Obtencin de conclusiones: Hay aportes tanto de la Estadstica como del investigador.

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 2

    R E A S D E L A E S T A D S T I C A

    D a t o s

    O R G A N I Z A C I N Y R E S U M E N ( E s t a d s t ic a D e s c r ip t iv a )

    - T a b la s - G r f ic o s - M e d id a s d e R e s u m e n

    I n t e r p r e t a c i n

    L o s d a to s s o n to d a la p o b la c i n

    o s lo u n a m u e s t r a d e s ta ?

    P O B L A C I N C o n c lu s io n e s r e f e r e n t e s a lo s

    P a r m e t r o s P o b la c io n a le s : M e d ia P o b la c io n a l : D e s v . E s t n d a r P o b la c io n a l

    2 : V a r ia n z a P o b la c io n a l

    C e n s o

    M U E S T R A - P r o b a b i l id a d e s -I n f e r e n c ia

    E s t im a d o r e s m u e s t r a le s X : M e d ia m u e s t r a l

    S : D e s v . E s t n d a r S 2 : V a r ia n z a m u e s t r a l

    M u e s t r e o

    1.4. TIPOS DE ESTUDIOS Existen diferentes formas de clasificar los estudios cientficos, los que requieren diversos mtodos para el anlisis de la informacin que generan. Entre ellos se encuentran los siguientes:

    a) Estudio Descriptivo. Es aquel cuyos datos provienen de toda una poblacin de inters (censo) y su objetivos es el describir el conjunto. Ej. Censo de Poblacin; Gasto semanal en transporte (tercera semana de marzo) de los alumnos del curso de Estadstica.

    b) Estudio Inferencial. Es aquel en que interesa obtener conclusiones sobre una poblacin

    empleando una muestra aleatoria de la misma. Las encuestas (polticas, opinin, marketing, audiencias, telefnicas, etc.) corresponden a esta clasificacin. Ej. Gasto semanal en transporte (en tercera semana de marzo) de los alumnos de la carrera usando como muestra a los alumnos de asignatura de Estadstica.

    c) Estudio Transversal. Es aquel que se realiza en un momento especfico y que planificadamente no

    se pretende replicar (o repetir) en el tiempo. El mencionado antes sobre estudio del gasto semanal en transporte de los alumnos de Estadstica o de la carrera.

    d) Estudio Longitudinal. Es aquel estudio que se realiza planificadamente en diferentes instantes de

    tiempo, generalmente para hacer comparaciones o evaluaciones temporales del fenmeno bajo anlisis. Hacer el estudio sobre gasto semanal en transporte durante la tercera semana de marzo, en los 5 aos a partir del actual.

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 3

    1.5. SELECCIN DE MUESTRAS ALEATORIAS En los estudios inferenciales o Encuestas es necesario seleccionar muestras aleatorias de la poblacin. Para que una muestra sea aleatoria debe cumplir con algunos requisitos. La forma ms simple corresponde al caso en que cada unidad de la poblacin tiene la misma opcin de ser seleccionada (muestreo aleatorio simple). Para realizar la seleccin se debe emplear algn procedimiento que garantice lo anterior, como por ejemplo tmbolas o nmeros aleatorios. La tmbola significa representar todos los elementos de la poblacin (por ejemplo con nmeros o nombres escritos en papelitos) los que se mezclan y de los cuales se extraen algunos que sern los elementos que integraran la muestra. Esto es til con poblaciones pequeas. Si la poblacin es grande es preferible el empleo de nmeros aleatorios, los que consisten en listados de nmeros que no se repiten cclicamente o no siguen algn patrn. Se pueden obtener en Tablas o se pueden generar con la calculadora, con la tecla RAN# Al pulsar la tecla RAN# de la calculadora, la pantalla presenta nmeros de tres dgitos decimales como los siguientes: 0,023 0,245 0,123 0,637 0,456 0,079 0,237 0,562 etc. Para el empleo, se consideran los dgitos de la parte decimal, decidindose por el empleo de uno, dos o tres (o ms) segn el tamao de la poblacin. Si la poblacin tiene 10 elementos se emplea 1 dgito aleatorio. Si la poblacin tiene 100 elementos se emplearn dos dgitos aleatorios. SI la poblacin tiene 1.000 elementos se emplearan tres dgitos aleatorios, etc. Ejemplo: Del listado siguiente se desea seleccionar una muestra aleatoria de tres integrantes

    1. Juan 2. Teresa 3. Mara 4. Tito 5. Antonio 6. Araceli 7. Carla

    8. Martina 9. Enrique 10. Manuel 11. Edgardo 12. Csar 13. Elisa

    Si se decide emplear los dos primeros dgitos de los nmeros aleatorios anteriores, entonces los nmeros que se emplearan son:

    02 Elige a persona N2: Teresa 24 No sirve 12 Elige a persona N12: Csar 63 No sirve 45 No sirve 07 Elige a persona N7: Carla 23 No sirve 56 No sirve

    Por lo tanto, la muestra aleatoria seleccionada estar integrada por Teresa, Csar y Carla.

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 4

    2. ORGANIZACIN Y RESUMEN DE LA INFORMACIN

    La organizacin de los datos comprende la tabulacin (obtencin de la distribucin de frecuencias emprica de los datos) y graficacin de los mismos. Algunas finalidades de este proceso son:

    a) Evidenciar la variable estudiada e identificar su forma. b) Analizar, controlar y mostrar las capacidades de los procesos de los que derivan sus datos. c) Ayudar a determinar las estadsticas de resumen respectivas. d) Ayudar a especificar la distribucin terica que se puede ajustar a la distribucin emprica de los

    datos.

    Las tabulacin facilita la comprensin intuitiva de la forma de una distribucin as como del estado de un proceso. Hay que prestar atencin a la interpretacin de las distribuciones, formulndose preguntas como::

    a) Hay algunos huecos (espacios que faltan), o subidas y bajadas repentinas en la distribucin? b) Hay algunos puntos aislados fuera del cuerpo principal de la distribucin? c) Son aceptables los valores mximo y mnimo de la distribucin? d) La distribucin se aprecia simtrica o no? e) La distribucin es muy chata o muy apuntada? f) Est el promedio de la distribucin en una posicin adecuada? g) Cmo es la dispersin de la distribucin respecto al promedio?

    Despus de realizar la organizacin de los datos, se realiza el resumen que tiene dos propsitos: por

    una parte, obtener una expresin numrica (estadsticas de resumen) de las caractersticas ms importantes de una distribucin de datos, para facilitar la comparacin de esas caractersticas entre diversas distribuciones. Por otra parte, posibilitar que se puedan reproducir las caractersticas grficas de una distribucin a partir de la interpretacin de las estadsticas de resumen calculadas.

    Las estadsticas de resumen se pueden clasificar en: de posicin, de dispersin, de simetra y de apuntamiento.

    Tanto la organizacin como el resumen de la informacin se pueden facilitar mediante el empleo del

    software estadstico. Excel tambin permite realizar estas operaciones. En las pginas siguientes se describe el empleo de Excel con ese objetivo. 2.1. VARIABLES Y DATOS

    Una variable estadstica es cualquier caracterstica o atributo que es deseable conocer acerca de las

    unidades de anlisis (u.a.) y que se espera que vare de una unidad de anlisis a otra. Un dato estadstico es la medicin, observacin o conteo de una variable estadstica sobre la unidad

    de anlisis. Las variables pueden clasificarse segn diversos criterios.

    2.1.1. Segn la Naturaleza VARIABLE CUALITATIVA o CATEGRICA: Se expresan como caractersticas de las unidades de

    anlisis. Se subdividen en: a) Variables nominales: Es aquella cuyos valores posibles definen categoras o clases excluyentes. Ej.: Sexo, carrera a la que pertenece un estudiante de la universidad b) Variables ordinales: Las categoras pueden ordenarse respecto a algn criterio. Ej.: respuesta a una pregunta de un cuestionario con alternativas de acuerdo, indiferente, en desacuerdo. Jerarquas administrativas (Gerente, Director, empleado), militares, religiosas.

    VARIABLE CUANTITATIVA o NUMRICA: Es aquella cuyos valores posibles se expresan por

    nmeros. Se clasifican en: a) Variable discreta: Es aquella cuyos valores posibles son un conjunto finito o infinito numerable. Ej.: nmero de hermanos, nmero de respuestas correctas en un test, nmero de zapato.

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 5

    b) Variable continua: Es aquella que puede tomar todos los valores en un intervalo de nmeros reales. Ej.: peso de estudiantes, tiempo empleado en realizar una prueba.

    2.1.2. Segn Escala de Medicin

    ESCALA DE ATRIBUTOS: se expresan como caractersticas de las unidades de anlisis. Se subdividen

    en nominales y ordinales, y corresponden a las mismas clasificaciones de las variables cualitativas o categricas antes mencionadas.

    ESCALA DE VARIABLES: Se expresan en forma numrica. Se subdividen en: a) Escala de intervalos: Son variables que tienen un cero relativo. permiten comparaciones vlidas por diferencias. Ej. Temperatura, inteligencia, liderazgo. b) Escala de razn: Son variables que tiene un cero absoluto. permiten comparaciones vlidas tambin por cuociente. Ej. nmero de hermanos, peso, estatura, ingresos.

    2.1.3. Segn el Orden de Ocurrencia Segn interese o no el orden en que ocurren y se registran las observaciones, se distinguen: SERIES TEMPORALES: Interesa el orden en que se registran los valores de la variable (ej. Asistencia

    a clases y fecha; Produccin nacional de cobre y ao) SERIES ATEMPORALES: No interesa el orden de ocurrencia de los valores de la variable (ej. Peso de

    los alumnos del curso, estatura de los alumnos, nmero de hermanos de los alumnos del curso, etc.).

    2.1.4. Segn el Nmero de Variables A su vez, los datos pueden clasificarse segn el nmero de variables de inters que se

    consideran en las unidades de anlisis o de observacin: UNIVARIANTES: Interesa una sola variable. Ej.: peso, estatura, sexo, puntaje en la PAA de los

    alumnos universitarios, regin de la que provienen los mismos. BIVARIANTES: Interesan dos variables. Ej.: peso y estatura de estudiantes, sexo y puntaje

    PAA, promedio notas E. Media y puntaje PAA. Otros ejemplos: produccin de cobre en Chile y ao, total importaciones del pas y ao, IPC y mes).

    MULTIVARIANTES: Interesan ms de dos variables. Ej.: peso, estatura y sexo de estudiantes;

    puntaje en PAA, promedio notas de E. Media, tipo de establecimiento de egreso y sexo. 2.1.5. Ejercicios 1. Seale ejemplos de valores y clasifique las siguientes variables segn Naturaleza y segn Nivel de

    Medicin. Se indica la poblacin asociada como referencia:

    a. Personas: Profesin o actividad que desarrolla b. Estudiantes universitarios: Regin en que reside habitualmente c. Administrativos: Nmero de cursos de capacitacin realizados en los ltimos 5 aos d. Estudiantes universitarios: Nivel de inters en los estudios e. Administrativos. Tiempo que se demora la atencin de un trmite f. Dueas de casa: Marca de detergente para lavar ropa preferido g. Dueas de casa: Opinin sobre calidad del detergente marca XXX h. Alcaldes y concejales: Nivel de liderazgo medido por un test i. Valparaso: Temperatura diaria mxima registrada en los ltimos 3 aos j. Valparaso: Tonelaje anual movilizado por el puerto en los ltimos 10 aos k. Valparaso: Nmero de patentes de automviles vendidas en los ltimos 10 aos l. Estudiantes universitarios: Gasto semanal en transportarse a la universidad m. Estudiantes universitarios varones: Nmero de camisa

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 6

    2. Clasifique las variables anteriores segn orden de ocurrencia, atendiendo a la forma en que se obtuvieron

    sus datos. 3. Empleando las variables anteriores, u otras, seale ejemplos de datos bivariantes y multivariantes. 4. Seale ejemplos, relacionados con su especialidad, de variables nominales, ordinales, discretas y

    continuas; de escala de intervalos y de razn; de series temporales y atemporales. 5. Para obtener los datos asociados con las variables del ejercicio 1, indique el tipo de estudio que seria

    necesario realizar considerando las clasificaciones excluyentes: Descriptivo o Inferencial y Transversal o Longitudinal.

    2.2. TABULACIN DE DATOS CUALITATIVOS O CATEGRICOS

    La tabulacin de estos datos consiste en determinar el nmero de veces que se repite cada categora (frecuencias absolutas). El peso de cada categora se expresado como porcentaje del total de datos. Los grficos apropiados para representar las frecuencias son los de barra, sectores circulares. Ejemplo En una investigacin, a un grupo de 20 alumnos universitarios se les solicita que sealen su grado de acuerdo con la aseveracin Me gusta la carrera que estoy estudiando en que las respuestas son MA (Muy de acuerdo); A (De acuerdo); I (Indiferente); D (En desacuerdo); MD (Muy en desacuerdo). Los resultados son:

    A MA D I MA A MD MA MA A MA A I MA A A MA I D MA La tabulacin de los datos se presenta a continuacin:

    ALUMNOS SEGN RESPUESTA A PREGUNTA Me gusta la carrera que estoy estudiando

    RESPUESTAS (Variable)

    N ALUMNOS Frec. Absoluta (fi)

    PORCENTAJE (%)

    Muy de Acuerdo 8 40,0 De Acuerdo 6 30,0 Indiferente 3 15,0 En Desacuerdo 2 10,0 Muy en Desacuerdo 1 5,0 TOTAL 20 100,0

    Los grficos de Barras y de Sectores Circulares (o de Torta), elaborados en Excel, se presentan a

    continuacin:

    Grfico de barras

    ALUMNOS SEGN RESPUESTAS A "Me gusta la carrera que estoy estudiando"

    0 2 4 6 8 10

    Muy de Acuer.

    De Acuerdo

    Indiferente

    En Desacuerd.

    Muy en Desac.

    Alumnos

    Grfico de Sectores Circulares (Torta)

    ALUMNOS SEGN RESPUESTAS A"Me gusta la carrera que estoy estudiando"

    Muy de AcuerdoDe AcuerdoIndiferenteEn DesacuerdoMuy en Desacuerdo

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 7

    Como interpretacin de los resultados anteriores se podra afirmar que los estudiantes, del grupo estudiado, manifiestan agrado con la carrera que estn estudiando. Esto puede concluirse al comparar los porcentajes de alumnos que sealan acuerdo con la aseveracin (70%) respecto a los que indican desacuerdos (15,0%). Si los Indiferentes, por el hecho de no manifestar desacuerdo explcito, se agregan a los acuerdos se tiene que el 85,0% estara de acuerdo con la carrera que estudia y slo el 15,0% manifiesta algn grado de desacuerdo.

    Preguntas: a. En qu circunstancias la la investigacin del ejemplo sera de tipo descriptivo? b. En qu caso sera inferencial?. c. Segn la descripcin, corresponde a una investigacin transversal o longitudinal?. Justifique.

    2.3. TABULACIN DE DATOS CUANTITATIVOS DISCRETOS

    Sea una variable X entre cuyos "n" valores slo hay "m" distintos, los que se representan como X1, X2,...,Xm . Los valores diferentes se repiten respectivamente f1, f2,..., fm veces. Las repeticiones fi se denominan "frecuencias absolutas". A partir de stas se definen las siguientes frecuencias:

    "Frecuencia relativa i-sima" al cuociente hi= fi/n (i= 1, 2,...,m). "Porcentajes i-simo" de repeticiones a ci = 100.hi "Frecuencia absoluta acumulada i-sima" a la suma Fi = f1 + f2 ++ fi "Frecuencia relativa acumulada i-sima" a la suma Hi = h1 + h2 +...+hi = Fi /n "Porcentaje acumulado i-simo" a Ci = 100.Hi =(100.Fi )/n

    Ejemplo.

    En una investigacin sobre caractersticas sociales de los estudiantes universitarios interesaba medir la variable X: "nmero de hermanos". Con este objeto, se consult sobre el particular a los 25 alumnos de un curso, obtenindose las siguientes respuestas:

    2 0 1 0 0 1 1 1 4 1 3 2 2 1 1 2 0 3 1 4 2 3 2 6 2 Se observa que m=6 pues slo hay 6 valores diferentes de la variable, que son: 0; 1; 2; 3; 4 y 6.

    Adems n=25 (nmero de observaciones). La tabla de frecuencias es la siguiente:

    ALUMNOS SEGN NMERO DE HERMANOS

    NMERO HERMANOS

    NMERO ALUMNOS

    % NMERO ALUMNOS

    %

    (Variable) Frec. Absol. Porcent. Frec. Absol. Acumulada

    Porcent. Acumul.

    Frec. Relativa

    Frec.Relat. Acumulada

    (Xi) (fi) (ci) (Fi) (Ci) (hi) (Hi) 0 4 16 4 16 0,16 0,16 1 8 32 12 48 0,32 0,48 2 7 28 19 76 0,28 0,76 3 3 12 22 88 0,12 0,88 4 2 8 24 96 0,08 0,96 6 1 4 25 100 0,04 1,00

    TOTAL 25 100 1,00

    Como ejemplos de interpretacin de las frecuencias, se puede decir que: f3 = 7 (tercer valor de las frecuencias absolutas). Significa que hay 7 alumnos que tienen 2 hermanos

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 8

    c3 = 28% (tercer valor de los porcentajes). Significa que 28% de los alumnos que tienen 2 hermanos F3 = 19 (tercer valor de las frecuencias absolutas acumuladas). Significa que hay 19

    alumnos que tienen 2 o menos hermanos C3 = 76% (tercer valor de los porcentajes acumulados). Significa que hay 76% de alumnos

    que tienen 2 o menos hermanos. Las frecuencias relativas as como las relativas acumuladas se expresan como tantos por uno

    y por ello se prefiere usar los porcentajes, que suministran la misma informacin y son de ms fcil lectura e interpretacin. Sirven para estimar probabilidades y se emplearn ms adelante.

    Por ltimo, es importante sealar que en un informe u otra presentacin de datos,

    corrientemente slo interesa presentar la tabla con las columnas de variable, frecuencias absolutas y porcentajes, las que contienen la informacin bsica y son valores simples de interpretar.

    Los grficos especficos que se emplean para presentar este tipo de datos son el Histograma

    (para frecuencias simples) y la Ojiva (para frecuencias acumuladas). Estos grficos se presentarn en el punto siguiente. Tambin puede emplearse el grfico de sectores. Histograma Ojiva

    N Alumnos10

    8

    6

    4

    2

    0 1 2 3 4 5 6N Hermanos

    Alumnos segn nmero de hermanos

    N Alumnos25

    20

    15

    10

    5

    0 1 2 3 4 5 6N Hermanos

    Alumnos segn nmero de hermanos

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 9

    2.4. TABULACIN DE DATOS CUANTITATIVOS CONTINUOS

    Las variables continuas se caracterizan por presentar una diversidad de valores diferentes. Por ello, la tabulacin se realiza definiendo intervalos de valores de la variable y contar el nmero de observaciones que estn contenidas en dichos intervalos. Esta forma de tabular datos se empelar para variables que son de naturaleza continua as como para variables discretas que tengan muchos valores distintos (p.ej. puntajes en un test de 120 tems, cada uno de los cuales tiene respuesta correcta o incorrecta, siendo el puntaje el nmero de respuestas correctas) 2.4.1. Diagrama de Tallo y Hoja Este diagrama permite un anlisis exploratorio de los datos para conocer la estructura de los mismos as como algunas caractersticas de agrupacin, que pueden emplearse para decidir como tabularlos. El diagrama consiste en la expresin de los datos tomando las cifras comunes de los mismos (que sern los tallos) y escribiendo las cifras diferentes en forma ms compacta (hojas). El proceso para realizar el diagrama se presenta a continuacin, mediante un ejemplo. Ejemplo

    Como parte de una investigacin sobre estudiantes de Educ. Media se obtuvo las estaturas (en cm) de

    un grupo de 40 de ellos, que se emplearan para desarrollar los ejemplos siguientes: . 138 164 150 132 144 125 149 157 146 158 140 147 136 148 152 144 168 126 138 178 163

    116 154 165 146 173 142 147 135 153 140 135 161 145 135 142 150 156 145 128. Considerando como tallos los dos dgitos iniciales (11, 12,..) se pueden arreglar los datos como sigue:

    11 6 12 5 6 8 13 8 2 8 5 5 6 5 14 4 9 6 6 2 2 5 0 7 7 8 0 4 5 15 0 7 8 4 0 6 3 2 16 4 3 5 1 8 17 8 3

    Ordenando los datos dentro de cada fila de la hoja se obtiene el diagrama final:

    11 6 12 5 6 8 13 2 5 5 5 6 8 8 14 0 0 2 2 4 4 5 5 6 6 7 7 8 9 15 0 0 2 3 4 6 7 8 16 1 3 4 5 8 17 3 8

    Esta simple ordenacin de datos permite observar la concentracin de los mismos en el intervalo de 140 cm a 149 cm, as como la distribucin, relativamente simtrica, de los mismos en torno al intervalo sealado. Este diagrama es entregado por el software estadstico, como SPSS y otros, el que aporta ms informacin grfica con el diagrama.

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 10

    2.4.2. Tabulacin empleando Intervalos de Igual Amplitud

    Para representar a los intervalos, se define la variable Xi denominada "marca de clase del intervalo i-simo", la cual corresponde al punto medio del intervalo.

    Se define como "frecuencia absoluta del intervalo i-simo" al nmero de observaciones contenidas en

    el intervalo. Se representa como fi. Se emplean las definiciones dadas anteriormente para "frecuencias relativas", "porcentajes" y tambin

    para las frecuencias acumuladas (absolutas , relativas y porcentajes). a. Clculo de Amplitud Comn de Intervalos

    El proceso de definir la amplitud comn de los intervalos que se usarn consiste en: 1. Determinar el NUMERO DE INTERVALOS que se utilizar (denotado como "m").

    2. Determinar el RECORRIDO = Xmax - Xmin ; definido como la diferencia entre el valor mayor

    (Xmax) y el menor (Xmin) de los valores de los datos analizados. 3. Determinar la AMPLITUD comn "a" de los intervalos con: a = (Xmax - Xmin )/m 4. Ajustar el valor obtenido para "C", de ser necesario, para utilizar un valor cmodo e

    interpretable. En este caso, si se modifica el recorrido de los datos, debe cuidarse de contener al recorrido original.

    5. Definir los lmites de los intervalos que se emplearn. 6. Definir el criterio que se utilizar para clasificar a aquellas observaciones que coinciden con los

    extremos de los intervalos e indicarlo en la tabla que se realiza. Por ej. si extremos de intervalos son:116 - 125; 125 - 134; etc. a) Si se decide asignar 125 al segundo intervalo, la indicacin puede ser: 116-124,9; 125 -

    133,9; etc. Tambin: 116 - 124; 125 - 133; etc. si los datos son enteros. b) Si se decide asignar 125 al primer intervalo, la indicacin puede ser: 116 - 125; 125,1 -

    134; etc. Tambin: 116 - 125; 126 - 134; etc. si los datos son enteros. Ejemplo (Variable Continua) Empleando los datos de estaturas de 40 estudiantes de Educ. Media, del ejemplo anterior. En consideracin a la diversidad de valores, se tabularn en 7 intervalos de igual amplitud. Se observa que Xmax= 178 cm y que Xmin= 116 cm. La amplitud C, siendo m=7 entonces se tiene que C = (178 116)/7 = 62/7 Luego C= 8,875.. cm. Para facilitar la definicin de los intervalos, se aproxima C=9 cm. Para esto es necesario tener un Recorrido de 63 cm, por lo cual se emplear Xmax=179 cm manteniendo el valor de Xmin= 116 cm pues (179-116=63). Por lo tanto, los intervalos tendrn como extremos:

    116-125; 125-134; 134-143; 143-152; 152-161; 161-170; y 170-179. Para evitar la ambigedad en la definicin de los intervalos, se adoptar el criterio de clasificar las observaciones que coinciden con el extremo superior del intervalo en dicho intervalo. La tabla de frecuencias terminada se presenta en pgina siguiente:

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 11

    ALUMNOS SEGN ESTATURAS ESTATURAS (cm) MARCA

    DE CLASE

    NMERO ALUMNOS

    % NMERO ALUMNOS

    %

    (Variable) (Variable) Frec. Absol. Porcent.Frec. Absol. Acumulada

    Porcent. Acumul.

    Frec. Relativa

    Frec.Relat. Acumulada

    Linf - Lsup (Xi) (fi) (ci) (Fi) (Ci) (hi) (Hi) 116,0 - 125,0 120,5 2 5,0 2 5,0 0,050 0,050 125,1 - 134,0 129,5 3 7,5 5 12,5 0,075 0,125 134,1 - 143,0 138,5 10 25,0 15 37,5 0,250 0,375 143,1 - 152,0 147,5 13 32,5 28 70,0 0,325 0,700 152,1 - 161,0 156,5 6 15,0 34 85,0 0,150 0,850 161,1 - 170,0 165,5 4 10,0 38 95,0 0,100 0,950 170,1 - 179,0 174,5 2 5,0 40 100,0 0,050 1,000

    TOTAL 40 100,0 1,000 b. Interpretacin del significado de las frecuencias.

    La interpretacin de los resultados de la tabla es semejante a lo indicado para variable discreta. Como ejemplo se presenta la interpretacin para las frecuencias del tercer intervalo (134 a 143 cm):

    f3 = 10 (tercer valor de las frecuencias absolutas). Significa que hay 10 alumnos que tienen estaturas entre 134 y 143 cm. c3 = 25% (tercer valor de los porcentajes). Significa que 25% de los alumnos que tienen estaturas entre 134 y 143 cm. F3 = 15 (tercer valor de las frecuencias absolutas acumuladas). Significa que hay 15

    alumnos que tienen estaturas de 134 cm o menos (o entre 116 cm y 134 cm). C3 = 37,5% (tercer valor de los porcentajes acumulados). Significa que hay 37,5% de

    alumnos que tienen estaturas de 134 cm o menos (o entre 116 cm y 134 cm. 2.4.3. Intervalos de Diferente Amplitud

    En este caso, la amplitud de los intervalos es arbitraria pero se deben tener las mismas precauciones

    con la definicin de los extremos de los intervalos indicados antes. Las frecuencias se definen, calculan y grafican en forma anloga al caso de intervalos de igual amplitud. 2.5. GRFICOS DE LAS FRECUENCIAS DE DATOS CONTINUOS

    Los grficos utilizados son: histograma, polgono de frecuencias (para frecuencias simples) y la ojiva

    (para frecuencias acumuladas). En todos los grficos, el eje de las abscisas (eje X) se emplea para representar la variable y el eje de las ordenadas (eje Y) se emplea para representar las frecuencias (simples o acumuladas). 2.5.1. Histograma

    El HISTOGRAMA consiste en la representacin de las frecuencias simples mediante reas de rectngulos. Se debe definir un rea unitaria (correspondiente a la frecuencia unitaria), la que debe aplicarse tantas veces como sea la frecuencia que se desea representar.

    INTERVALOS DE IGUAL AMPLITUD. En este caso, el rea unitaria corresponde al rectngulo de base

    igual a la amplitud comn del intervalo y de altura igual a la frecuencia unitaria. La representacin de diferentes frecuencias se realiza variando la altura de los rectngulos de acuerdo a la frecuencia representada.

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 12

    Ejemplo de Histograma de Frecuencias Absolutas (Datos de estaturas)

    N ALUMNOS15

    12

    9

    6

    3

    0116 125 134 143 152 161 170 179

    ESTATURA (cm) 2.5.2. Polgono de frecuencias

    El Polgono de Frecuencias consiste en la representacin de frecuencias simples (absolutas, porcentajes o relativas) mediante una poligonal obtenida al unir los puntos definidos por los pares:

    (Marca de clase; Frecuencia del intervalo).

    Se completa la poligonal considerando intervalos adicionales al comienzo y al final de la distribucin con

    frecuencias cero. Esto permite hacer equivalentes el rea encerrada por la poligonal con aquella encerrada por el Histograma respectivo

    En el ejemplo siguiente, sobre estaturas de 40 estudiantes, se aprecia la concentracin de los datos en

    torno a la marca de clase 147,5 y la simetra de la distribucin respecto a ese valor.

    Ejemplo de Polgono de Frecuencias absolutas

    ESTATURAS DE ALUMNOS

    0

    4

    8

    12

    16

    111,5 120,5 129,5 138,5 147,5 156,5 165,5 174,5 183,5

    Estatura (cm)

    Alu

    mno

    s

    .

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 13

    2.5.3. Ojiva Se emplea para representar frecuencias acumuladas. Consiste en la poligonal obtenida al unir los

    puntos definidos, en cada intervalo, por:

    (Extremo superiordel intervalo, Frecuencia acumulada del intervalo) Se completa la poligonal uniendo el extremo inferior del primer intervalo al grfico anterior.

    En el ejemplo siguiente, sobre estaturas de 40 estudiantes, se aprecia el aumento gradual de las frecuencias acumuladas a medida que aumenta la estatura, lo que es caracterstico de las distribuciones simtricas.

    Ejemplo de Ojiva de Frecuencias Absolutas Acumuladas

    ESTATURAS DE ALUMNOS

    0

    10

    20

    30

    40

    107 116 125 134 143 152 161 170 179

    Estatura (cm)

    Alum

    nos

    2.5.4. Grficos para Intervalos de Diferente Amplitud

    Para graficar el Histograma es conveniente definir un rea de graficacin unitaria, como un rectngulo unitario cuya base es una fraccin comn de las amplitudes de los intervalos y cuya altura corresponde a la frecuencia unitaria. La altura de los otros rectngulos para representar las otras frecuencias puede determinarse por la relacin:

    Frecuencia del IntervaloALTURA DEL RECTANGULO = N Amplitudes Unitarias del Intervalo

    Ejemplo:

    Los datos siguientes corresponden a pesos de 40 personas, tabulados en intervalos de amplitudes arbitrarias como se aprecia en la tabla:

    PESO N PERSONAS50,0 - 60,0 6 60,1 - 70,0 8 70,1 - 80,0 12 80,1 - 100,0 8 100,1 - 130,0 6

    En el grfico del Histograma se emple un rectngulo unitario de 10 k. de base y 1 persona de alto Se

    aprecia que los rectngulos que representan frecuencias iguales tienen reas iguales, como ocurre en los intervalos de 50 a 60 k y de 100 a 130 k, que tienen frecuencia 6, pero la altura del rectngulo del intervalo de

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 14

    100 a 130 es la tercera parte del primero. Algo similar ocurre con los intervalos de 60 a 70 k y de 80 a 100 k que tienen frecuencia 8, en que se represent el segundo con un rectngulo cuya altura es la mitad del primero.

    En el Polgono de Frecuencias se emple una base de 10 k con el objeto de compensar reas. Por ello los puntos empleados para realizar el grfico empleando (Marca de clase, Frecuencia absoluta) son:

    (45;0), (55;6), (65;8), (75;12), (85;4), (95;4), (105;3), (115;3), (125;3), (135;0).

    El primer y el ltimo punto emplean intervalos ficticios, noque no estn en la tabla y sirven para cerrar el

    grfico por ello tienen frecuencia 0.

    N PERSONAS

    15

    12

    9

    6

    3

    050 60 70 80 90 100 110 120 130

    PESO (K)

    Histograma

    N PERSONAS

    15

    12

    9

    6

    3

    040 50 60 70 80 90 100 110 120 130 140

    PESO (K)

    Polgono de Frecuencias 2.5.5. Empleo de la Ojiva para determinar Mediana y Cuartiles Se puede emplear la Ojiva para estimar algunos valores de la variable caractersticos y representativos de la distribucin de la misma, como Mediana, Cuartiles y Percentiles.

    La MEDIANA es el valor de la variable tal que, dicho valor o menos, tienen el 50% de los datos. Para estimarlo mediante la Ojiva, se calcula el 50% de las frecuencias (0,5n) y se ubica dicho punto en el eje que representa frecuencias (eje Y o de abscisas). Por dicho punto, se traza una paralela al eje X (que representa la variable) hasta cortar la Ojiva. Desde dicha interseccin, se traza una paralela al eje Y (abscisas) hasta cortar el eje X (variable). El punto definido en el eje de la variable corresponde a la Mediana. En el ejemplo siguiente, sobre estaturas de los 40 alumnos, se aprecia que el 50% de los datos, o sea, 0,5n=(0,5)(40)=20 alumnos. La estimacin de la Mediana (Me) corresponde a 146,5 cm. El PRIMER CUARTIL es el valor de la variable tal que, dicho valor o menos, tiene el 25% de los datos. El TERCER CUARTIL es el valor de la variable tal que, dicho valor o menos, tiene el 75% de los datos. Para estimarlos se procede en forma anloga a lo indicado para la Mediana. En el grfico se presentan las estimaciones, que corresponden a 138,5 cm y 155 cm respectivamente. En forma anloga, se pueden estimar valores de la variable asociados con porcentajes de la distribucin, denominados PERCENTILES. Por ejemplo, la Mediana corresponde al Percentil 50.

    Tambin, es posible estimar la frecuencia acumulada asociada con un valor de la variable. En el grfico (flecha ancha, en verde) se aprecia que con 165 cm de estatura o menos hay 36 alumnos. Como 36 alumnos corresponden al 90% del total de los 40 alumnos, la estatura 165 cm se denomina el PERCENTIL 90 (denotndose como P(0,90)).

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 15

    ESTATURAS DE ALUMNOS

    0

    5

    10

    15

    20

    25

    30

    35

    40

    45

    107 116 125 134 143 152 161 170 179

    Me=146,5Q1=138,5

    Q3=155

    o,5n=

    0,25n=

    0,75n=

    Estatura cm

    Alumnos

    165

    36

    2.5.6 Ejercicios Usando el grfico anterior estime lo siguiente:

    a) Percentil 10, percentil 30, percentil 70 y percentil 90 b) El percentil asociado con estaturas 132 cm, con 138 cm, con 172 cm c) Estime el intervalo de estaturas entre el percentil 90 y el percentil 10; entre el percentil 70 y el

    percentil 30. d) Estime el nmero de alumnos entre 132 cm y 172 cm

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 16

    2.6. USO DE EXCEL: FUNCIONES Y PROCEDIMIENTO ANLISIS DE DATOS Para realizar la tabulacin y graficacin de datos, esto es la organizacin de los datos, se pueden utilizar diferentes funciones que tiene Excel implementadas, empleando alguna de las formas siguientes: a) Escribiendo textos de funciones estadsticas

    b) Insertando las funciones estadsticas b) Empleando Herramientas para Anlisis

    Antes de escribir o insertar una funcin se requiere tener escritos, en una pgina de Excel, el conjunto de datos que se desea analizar, pues las funciones emplean direcciones. Adems, el resultado aparecer en el lugar en que se encuentra ubicado el cursor al momento de insertar o escribir la funcin. 2.6.1. Escribir Funciones Estadsticas

    Consiste en escribir el texto del comando respectivo (en mayscula o minsculas), algunos de los cuales se sealan a continuacin, empezando por el signo =. Es necesario indicar la direccin donde se encuentran los datos o escribir los datos. El resultado Excel lo escribe en la casilla donde se ubica el cursor. En Ayuda se pueden ver los textos de comandos en caso de duda.

    En el ejemplo siguiente se aplica la funcin PROMEDIO para obtener la Media Aritmtica o Promedio

    de un conjunto de datos:

    En los ejemplos de comandos siguientes, con "nmero" o con "matriz" se indica un valor numrico

    (Ej:64) o un rango donde se encuentran los datos, Ej. c2:c26. Observe que las direcciones que requiere Excel slo corresponden a aquella de los datos y se excluye el nombre de las variables. a. Nmero de valores

    =CONTAR(ref1; ref2; ) Cuenta la cantidad de nmeros en direccin indicada =CONTARA(ref1; ref2; ) Cuenta el nmero de casillas ocupadas en direccin indicada b. Suma de valores =SUMA(nmero1; nmero2; ) Suna los valores de la referencia c. Mnimo y mximo =MIN(nmero1; nmero2; ) =MAX(nmero1; nmero2; ...) d. Media Aritmtica =PROMEDIO(nmero1; nmero2;...) e. Desviacion Estndar =DESVEST(nmerol; nmero2; ... ) Desv. Est. Muestra =DESVESTP(nmerol; nmero2;...) Desv. Est. Poblacional f. Varianza =VAR(nmerol; nmero2; ... ) Varianza muestra =VARP(nmerol; nmero2; ... ) Varianza poblacional g. Mediana =MEDIANA(nmerol; nrnero2;...)

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 17

    h. Moda =MODA(nmerol; nmero2;...) i. Cuartiles =CUARTIL(matriz; cuartil) Matriz: rango de datos Cuartil: 0 = valor mnimo 1 = primer cuartil percentil 25 2 = Mediana, segundo cuartil, percentil 50 3 = tercer cuartil, percentil 75 4 = valor mximo j. Percentiles =PERCENTIL(matriz; k) Matriz: rango de datos

    k = valor decimal entre 0 y 1 Por ej. k=0,25 para Percentil 25

    k. Correlacin lineal

    =COEF.DE.CORREL(matriz 1; matriz 2) matriz 1 y matriz 2 son rangos numricos que deben contener el mismo nmero de valores

    2.6.2. Insertar Funciones Estadsticas Para insertar la funcin, se selecciona el men Insertar y dentro de este Funcin

    Se presenta el men siguiente. En Seleccionar una Categora hay opciones de tipos de funciones. En el ejemplo se seleccion Estadsticas, dentro de l se destac el PROMEDIO, ya usada antes.

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 18

    Al pulsar ACEPTAR se presenta el men para calcular el promedio. Se debe ingresar la (o las) direccin de los datos que se analizan. En el ejemplo B3:B7. Se aprecia que el valor del promedio se presenta en este men (5,16). En la Barra de Frmulas se presenta el texto de la funcin, tal como se us antes.

    Al pulsar Aceptar se obtiene el resultado del promedio en la casilla donde se encuentra el cursor. 2.6.3. Procedimiento Anlisis de Datos a. Activacin

    La Herramienta Anlisis de Datos posibilita el empleo de diversos procedimientos estadstico en Excel de forma ms eficiente que empleando los comandos respectivos.

    Debe verificarse que la opcin est activa, desplegando el men Herramientas. Si aparece Anlisis de

    Datos, como se aprecia en el grfico siguiente, ello indica que esta activa.

    En caso que no aparezca Anlisis de Datos, se debe activar. Para ello, en el men de Herramientas, debe seleccionarse el men de Complementos. Dentro de las opciones que ofrece ste, debe activarse el Anlisis de Datos para lo cual se marca la alternativa respectiva, tal como se aprecia a continuacin. Segn la versin de Excel, este puede requerir el disco de Office para cargar dicho complemento.

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 19

    b. Empleo de Funciones Para Anlisis Si en Herramientas se selecciona Anlisis de Datos se presenta un conjunto de Funciones para Anlisis disponibles, como se aprecia a continuacin:

    En general, los mens de las Funciones para Anlisis tienen algunos elementos en comn. Se distinguen dos partes, la superior generalmente presenta las Opciones de entrada donde se pide ingresar el o los rangos donde se ubican los datos, si se usan rtulos, etc. La parte inferior presenta las Opciones de salida donde ubicar los resultados: rango (si es en la misma hoja activa), en una hoja nueva o en un libro nuevo. Hay otras opciones segn la funcin En lo que se sigue, se encontraran ejemplos del empleo de esta herramienta. 2.7. USO DE EXCEL PARA TABULAR DATOS A continuacin se presenta el empleo de Excel para desarrollar algunos de los procedimientos presentados antes. 2.7.1. Uso de la funcin FRECUENCIA para Tabular datos discretos o continuos Para tabular un conjunto de datos con Excel se puede emplear la funcin FRECUENCIA o la funcin para anlisis HISTOGRAMA

    Para tabular deben determinarse los intervalos que se usarn. En el ejemplo (el mismo del Apunte) se tabulan 40 estaturas (en cm) de estudiante.

    En primer lugar se definen los intervalos que se emplearn, como se ilustra a continuacin. Se usar

    una amplitud de 9 cm, definindose los intervalos a partir del valor mnimo, 115 cm. Para usar la funcin FRECUENCIA se requiere escribir los extremos de los intervalos en una columna,

    como se aprecia en ejemplo, entre A16 y A22. A continuacin se selecciona (ennegrece) un conjunto de casillas equivalente al de extremos escritos (esto se realiz entre B16 y B22). Luego se escribe funcin, sealndose donde se encuentran los datos (A6:G11) y los extermos de intervalos (A16:A22). Luego, se deben pulsar teclas: MAYSCULA+CONTROL+ENTER

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 20

    El resultado es el siguiente, a partir del cual se pueden completar con porcentajes y frecuencias acumuladas, segn se requiera.

    2.7.2. Uso de la Funcin HISTOGRAMA para Tabular datos discretos o continuos Como se aprecia en la figura siguiente, previamente se han definido los extremos de los intervalos. Se escriben estos extremos en una columna. Se selecciona Anlisis de Datos del men de Herramientas. Dentro de ste, se selecciona la funcin HISTOGRAMA. Se completan los campos solicitados por el men, indicndose el rango donde se encuentran los datos (A6:G11) y donde est la definicin de los intervalos incluyendo su rtulo (A15:A22). Tambin se seala donde se escribirn los resultados (C15). Se activa Rtulos en men de Histograma para identificar los resultados.

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 21

    El proceso anterior se ilustra a continuacin.

    La tabla se completa con Marcas de Clase y otras frecuencias

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 22

    2.8. USO DE EXCEL PARA GRAFICAR DATOS 2.8.1. Graficacin del Polgono de Frecuencias a.. Diseo del Borrador del Grfico

    Para realizar grficos en Excel es conveniente preparar una tabla con los datos que se usarn, a partir de la tabla de Frecuencias.

    El Polgono de Frecuencias es un grfico que emplea el rea encerrada para representar un conjunto

    de datos Para graficar el Polgono de Frecuencias se emplean las Marcas de Clase y frecuencias simples (en el

    ejemplo, la frecuencia absoluta). Como se aprecia en el ejemplo, se agregan dos Marcas de Clase con frecuencia 0, para cerrar el grfico.

    Antes de seleccionar la opcin de grfico que se usar, se marcan los datos incluyendo rtulos, aunque ello no influye en el resultado.

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 23

    Se emplea el Asistente para Grficos del men. Entre los tipos de grficos, se selecciona XY (Dispersin), y entre los subtipos, se elige la ltima, como se aprecia en grfico siguiente:

    El resto del proceso se ilustra con los grficos que siguen. El paso 2 permite seleccionar los datos:

    El Paso 3 permite poner ttulos a ejes. Tambin permite eliminar la leyendaal seleccionar pestaa respectiva. El Paso 4 permite ubicar el grfico en una hoja nueva. Tambin se puede optar por insertarlo en la hoja de los datos, aunque esta opcin no es muy verstil para mejorar la apariencia del grfico (ttulos, fondos etc.) como se hace a continuacin.

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 24

    b. Diseo del Grfico Definitivo Una vez ubicado el grfico en una hoja, se puede realizar el grfico definitivo mejorando la apariencia y presentacin del borrador. En general, al poner el cursor en cualquier sector del grfico (rea de trazado o rea del grfico) o elemento (ejes, ttulos) etc. se puede modificar dicho sector o elemento.

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 25

    Para mejorar la presentacin del Eje de valores X se ubica el cursor sobre algn valor del Eje. Se hace doble clic con el mouse y se presenta el men que se presenta a continuacin, en que se seleccion la pestaa Escala, la que muestra los valores que Excel emple para el borrador del grfico, los que se pueden modificar para mejorar la presentacin, como se aprecia en grfico siguiente.

    Ah se aprecia que se cambiaron los valores para ajustarlos a las valores de marcas de clase, dejando

    espacio antes del primer valor y luego del ltimo de las marcas de clase efectivas. Por ello el mnimo se asigna el valor 102,5 que corresponde a 111,5-9; al mximo se le asigna el valor 192,5 que corresponde a 183,5+9. Como unidad mayor se usa 9, que es el valor de la amplitud de los intervalos y como unidad menor se usa 1.

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 26

    Los efectos de estos cambios se aprecian en grfico siguiente:

    Para cambiar los fondos del grfico se modificaron las reas de Trazado (rea interior al polgono) y rea de Grfico (rea exterior a los ejes), usando texturas como se aprecian en figuras siguientes:

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 27

    Para modificar el aspecto de la lnea de la poligonal se ubica cursor en ella y se ingresa al men respectivo, para cambiar el grosor de lnea y su color.

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 28

    c. Impresin del Grfico Definitivo El diseo del grfico terminado es conveniente adecuarlo a la pgina para su impresin, pues si no ocupar una hoja completa. En el men Archivo empleando las opciones de Configurar Pgina se pueden asignar mrgenes adecuados para lograr una presentacin impresa conveniente. En las figuras siguientes se indican las modificaciones realizadas con ese objetivo.

    El resultado final, para imprimir se presenta en la figura de pgina siguiente.

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 29

    2.8.2. Graficacin de la Ojiva a. Diseo del Borrador del Grfico

    La Ojiva se emplea para representar frecuencias acumuladas. Se usan los extremos de los intervalos y las frecuencias acumuladas respectivas. Tambin se agregan dos intervalos falsos para completar el grfico. En el ejemplo se emplean las frecuencias absolutas acumuladas. La tabla con los datos que se usarn, a partir de la tabla de Frecuencias, es la que sigue:

    En general, el procedimiento es el mismo indicado para el Polgono de Frecuencias. Los cambios importantes son en la definicin del eje X, para lo que se emplean los valores siguientes para que en el grfico se aprecien los extremos de los intervalos.

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 30

    La apariencia de la Ojiva resultante, para imprimirla, es la siguiente:

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 31

    2.9. EJERCICIOS EJERCICIOS DE PRUEBAS A. Para responder, marque alternativa V (verdadero) o F (Falso) que estime adecuada. (Se indica con X alternativa correcta) Para los siguientes datos sobre puntajes en un test (en puntos):

    72 81 34 41 51 62 73 84 86 75 63 53 43 43 53 55 64 65 57 69 57 33 41 50 61 32 40 50 61 70 63 42 51 42

    1. El diagrama de tallo y hoja (ordenado)de los datos anteriores tiene una fila 7 | 0 2 3 5 VX F

    2. El recorrido original de los datos es de 32 cm a 86 cm V FX

    3. Para tabular en siete intervalos de igual amplitud, los intervalos 4 y 5 podran Tener como extremos: 55,4 - 63,2 ; 63,2 71,0 VX F

    4. Para tabular en 8 intervalos se podra usar una amplitud de 6,8 VX F

    B. Los ejercicios siguientes no se relacionan entre s ni tampoco con ejercicios anteriores, su objetivo es la comprensin de la terminologa y asociada con las frecuencias.

    5. Una distribucin de frecuencias puede tener los valores siguientes H4 = 0,35 ; H5 = 0,25 ; n=80 V Fx

    6. Una distribucin de frecuencias puede tener los valores siguientes h2 = 0,40 ; n = 60 ; f1 = 15 VX F

    8. La ojiva puede realizarse con datos discretos VX F 9. El histograma se realiza empleando frecuencias y valores de los extremos de los intervalos. VX F

    10. El grfico de sectores circulares (torta) sirve para graficar frecuencias simples VX F

    C. La tabla siguiente corresponde a ingresos en miles de pesos (M$) de un grupo de personas

    INGRESOS (M$)

    PERSONAS

    200,0 250 7 12. En la tabla anterior el quinto % es 25 VX F

    250,1 300 8 300,1 350 10 13. En la tabla anterior F4 tiene el valor de 37 VX F

    350,1 400 12 400,1 450 30 14. La cuarta marca de clase es 375 M$ VX F

    450,1 500 25 500,1 550 18 550,1 600 10

    15. Se puede afirmar que aproximadamente 31% de las personas tiene ingresos de $400.000 o menos

    VX F

    EJERCICIOS PARA DESARROLLAR 1. Los datos siguientes corresponden a las respuestas a la pregunta "La Estadstica es muy importante en

    la formacin de los profesionales universitarios" formulada a un grupo de estudiantes universitarios. Las respuestas son en MA (Muy de acuerdo), A (De acuerdo), I (Indiferente), D (En desacuerdo), MD (Muy en descuerdo) y N (No responde).

    a. Identifique el tipo de variable. Tabule las respuestas, calcule % y grafique. b. Cmo pueden interpretarse los resultados respecto al acuerdo o no del grupo con la aseveracin? MA A A MA MA I D MD A MA I A A MA I I MD D A MD I A A MA D MD MA A MA D N

    MA A A D MD D I I N MA MA A A MA D MD D A D D A D A D D A A MA MD MD I I MD MA MA A A A N I N A A I N A D MD A

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 32

    2. Los siguientes son los resultados (en puntos) obtenidos por escolares en una prueba: 143 178 156 152 176 186 187 169 158 179 201 195 205 220 210 205 183 210 177 170 167 202 210 178 140 190 208 198 215 177 164 175 190 227 183 160 180 150 185 172 187 165 205 220 219 197 185 210 192 209 205 207 220 227 180 253 219 210 195 195 230 195 184 210 195 214 198 240 178 229 245 196 235 190 241 196 236 183 199 250 a. Tabule en 10 intervalos de igual amplitud los 80 datos. Calcule frecuencias simples y

    acumuladas. b. Los primeros 50 datos corresponden a escolares de 14 aos y los ltimos 30 datos a escolares

    de 16 aos. Tabule cada conjunto de datos empleando los mismos intervalos definidos en (a). Calcule frecuencias simples y acumuladas.

    c. Compare los resultados por edad empleando grficos. Estime Mediana y Cuarteles. Realice una apreciacin sobre las distribuciones: cual tiene valores mayores, cual es ms simtrica etc.

    3. En un estudio sobre el tiempo empleado en efectuar una tarea por 45 trabajadores se registraron los

    resultados siguientes (en segundos): 12,4 13,1 12,0 11,6 11,0 12,5 11,9 10,7 11,2 11,3 11,0 11,4 10,9 9,6 12,0 11,5 11,0 11,5 10,9 10,7 10,9 12,6 12,5 12,8 12,9 13,2 9,8 10,6 12,1 12,4 12,1 13,0 11,8 10,9 11,2 12,5 9,9 9,6 11,7 12,2 10,3 11,2 11,7 10,9 11,5 a. Realice el diagrama de tallo y hoja. Tabule los datos en 8 intervalos de igual amplitud. b. Grafique histograma, polgono de frecuencias y ojiva. En los grficos ubique grficamente

    Mediana, Cuartiles y percentil 60.e interprete su significado.

    5. Los puntajes obtenidos por un grupo de estudiantes en un test fueron tabulados en la tabla siguiente, con 4 intervalos de igual amplitud. Calcule los valores de intervalos y frecuencias faltantes indicadas con letras desde A hasta T.

    PUNTAJES (Intervalos)

    Xi (Marca de Clase)

    fi (Estudiantes)

    ci (%) (Porcentaje)

    Fi (Estudiantes)

    Ci (%) (Porcentaje)

    225 - A G J L 16 R B - C H 20 M O 45,0 D - E 350 K 42,5 P S

    F - 425 I 10 N Q T 5. Determine para cada uno de los conjuntos de los valores siguientes si son posibles de ser obtenidos o

    no en una tabla de frecuencias. Justifique su respuesta. Cada conjunto es independiente de los otros a. H4 = 0,30 ; n = 10 ; f3 = 31

    b. h1 = 4 ; h3 = 12 ; H4 = 15 c. h2 = 0,40 ; n = 50 ; f1= 20 d. h1 + h2 + h3 + h4 = 1 ; f6= 3 ; H5 = 1 e. H4 = 0,20 ; H5 = 0,12 ; h5 = -0,08

    6. La tabla siguiente corresponde a la distribucin de pesos (en k) de un grupo de personas.

    Pesos (k) N Personas 40,1 - 50,0 50,1 - 60,0 60,1 - 70,0 70,1 - 80,0 80,1 - 90,0

    90,1 - 100,0 100,1 - 110,0

    10 13 35 38 16 15 9

    Total 136

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 33

    Mediante interpolaciones o mediante algn grfico de frecuencias, estime lo siguiente: a. Personas que pesan menos de 52 k. b. Personas que pesan ms de 64,5 k. c. Personas que pesan entre 46 y 64 k. d. El peso que tiene el 25% de los ms delgados del grupo (Primer cuartil). e. El peso que tiene el 10% de los ms gordos del grupo (Percentil 90). f. Si Jorge pesa 63,4 k determine cual es su posicin relativa en el grupo. g. Realice una nueva tabulacin de los datos, empleando slo 5 intervalos de igual amplitud (14 k),

    cuyos lmites sean : 40 a 54; 54 a 68; 68 a 82; 82 a 96 y 96 a 110.

    7. La tabla siguiente presenta la distribucin de los puntajes de un grupo de 50 personas, en los

    intervalos de diferente amplitud que se indican. Grfique el histograma, el polgono de frecuencias y la ojiva de los datos. (Recuerde los principios que se deben emplear para graficar los datos).

    Puntajes N Personas 50,0 - 60,0 5 60,1 - 70,0 8 70,1 - 90,0 12 90,1 - 110,0 10 110,1 - 140,0 15

    Total 50 8. Una distribucin simtrica se caracteriza por presentar frecuencias de valores iguales respecto al centro

    de la distribucin (que sera el eje de simetra). Reconstruya la distribucin simtrica de 5 intervalos si se sabe que (siendo Xi marcas de clase): X1= 10 X5= 90 f1= 4 f3= 20 f2 - f5= 2

    9. Una empresa desea modificar su sistema de compensaciones econmicas, reemplazando los

    incentivos basados en antigedad por incentivos basados en productividad. Los incentivos actuales segn la antigedad en la empresa, y que son acumulables, son: 1) Al cumplir 5 aos: asignacin mensual de un 10% del sueldo base. 2) Al cumplir 10 aos: financiamiento de estudios superiores. 3) Al cumplir 20 aos: asignacin de casa (pago de arriendo) 4) Al cumplir 25 aos: bono anual equivalente a 2 sueldos mensuales. 5) Al cumplir 30 aos: vacaciones pagadas por la empresa.

    El Departamento de Recursos Humanos debe realizar un estudio para medir el impacto del cambio. Las antigedades de los trabajadores (en aos) son las siguientes:

    22 3 12 35 3 9 6 11 19 2 31 27 29 18 6 11 7 29 31 37 14 18 8 23 19 26 31 33 28 18 9 11 13 17 12 22 16 27 30 25 24 14 19 31 35 15 9 17 21 21 33 5 8 17 12 34 28 23 27 30 19 14 7 21 21 20 14 13 11 32 19 20 7 18 26 20 12 22 34 30 25 31 15 2 1

    Tabule los datos en intervalos apropiados para responder lo siguiente (justifique su respuesta): a) Cuntos trabajadores no han obtenido actualmente algn beneficio por antigedad? b) Qu porcentaje de trabajadores perdera el beneficio de las vacaciones pagadas? c) Qu porcentaje de trabajadores perdera el beneficio de asignacin de casa? d) Cuntas personas perderan el beneficio del bono anual? e) Cuntas personas perderan algn beneficio y a qu % del total corresponden?

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 34

    3. ESTADSTICAS DE POSICIN

    3.1. TIPOS DE ESTADSTICAS DE RESUMEN El resumen de la informacin tiene dos propsitos: por una parte, obtener una expresin numrica (estadsticas de resumen) de las caractersticas importantes de una distribucin de datos, para facilitar la comparacin de esas caractersticas entre diversas distribuciones. Por otra parte, posibilitar que se puedan reproducir las caractersticas grficas de una distribucin a partir de la interpretacin de las estadsticas de resumen calculadas. A continuacin se presentan las estadsticas de resumen de los datos del ejemplo que se ha utilizado en tabulacin, sobre Estaturas de 40 estudiantes, realizado con Excel y con SPSS. Ms adelante, se trata con detalle cada una de las estadsticas de resumen ms relevantes.

    Las estadsticas de resumen se pueden clasificar como: de posicin, de dispersin, de simetra y de apuntamiento.

    Las estadsticas de posicin (o de tendencia central) sirven para caracterizar una distribucin determinando valores representativos del conjunto de datos. Pertenecen a este grupo la Media Aritmtica y la Moda. La Mediana, los Cuartiles y los Percentiles si bien pertenecen a este grupo se les denomina estadsticas de orden por la forma en que se definen. Menos usadas son la Media Geomtrica y la Media Armnica.

    En su rol de representantes de los datos, las estadsticas de posicin tienen algunas propiedades

    generales, que son: 1. Se expresan en la misma unidad de la variable, pues son valores posibles de sta. 2. Su valor se encuentra entre el mnimo y el mximo de los datos (el recorrido de stos).

    Estas dos propiedades generales se aprecian, como ejemplo, en el resumen de la pgina siguiente donde se ha ubicado la Media Aritmtica y Mediana de los datos, como puntos del eje X , donde se presenta la variable Estatura.

    Las estadsticas de dispersin caracterizan una distribucin respecto a la variabilidad que presentan los datos respecto a alguna estadstica de posicin. Como ejemplos estn la Varianza y la Desviacin Estndar (asociadas con la media aritmtica), el Recorrido y el Recorrido Intercuartlico.

    Las estadsticas de simetra sirven para caracterizar la simetra de una distribucin respecto a un eje

    imaginario. Como ejemplos estn el coeficiente de Borden y el coeficiente de Pearson. Las estadsticas de apuntamiento sirven para comparar el grado de elevacin de la distribucin, esto

    es, si es ms alta o ms aplastada que la "distribucin normal" asociada (ver histograma de ejemplo). Un representante es el Coeficiente de Pearson.

    Estadsticas de resumen con Excel

    E S T A T U R A S

    M e d ia 1 4 6 ,7 8E rro r t p ic o 2 ,1 1M e d ia n a 1 4 6 ,0 0M o d a 1 3 5 ,0 0D e sv ia c i n e s t n d a r 1 3 ,3 4V a ria n z a d e la m u e stra 1 7 7 ,9 2C u rto s is 0 ,1 0C o e f ic ie n te d e a s im e tra 0 ,1 6R a n g o 6 2M n im o 1 1 6M x im o 1 7 8S u m a 5 8 7 1C u e n ta 4 0M a y o r (1 ) 1 7 8M e n o r(1 ) 1 1 6N iv e l d e c o n f ia n z a (9 5 ,0 % ) 4 ,2 7

    Estadsticas de resumen con SPSS

    40178,00116,00146,78146,00135,00125,05138,00155,50172,75

    62,0013,34

    2,11177,92

    RecuentoMximoMnimoMediaMedianaModaPercentil 5Percentil 25Percentil 75Percentil 95RangoDesviacin tp.Error tpico de la mediaVarianza

    ESTATURAS

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 35

    3.2. MEDIA ARITMTICA

    3.2.1. Definicin Sea una variable X cuyos valores son X1, X2, X3,...,Xn. Se define como Media Aritmtica a:

    M(X)= X =1

    1 ni

    iX

    n = = 1 2 3 Suma de los DatosNumero de Datos nX X X Xn+ + + + =

    Para datos agrupados:

    M(X)= X =1

    1 ni i

    iX f

    n = =

    1

    n

    i iiX h

    = con Xi=Marca de clase; fi= Frecuencia absoluta ; hi= Frecuencia relativa

    La variable debe ser al menos de nivel de intervalo.

    3.2.2. Ejemplos Ejemplo 1.

    El nmero de hermanos de 6 alumnos son: 0, 2, 3, 1, 4, 1 La Media Aritmtica es : M(X)=X =(0+2+3+1+4+1)/6 = 11/6 = 1,83 hermanos Aunque la variable no admite valores fraccionarios, si los admite la Media Aritmtica. La interpretacin

    del resultado indica que su cada alumno tuviera 1,83 hermanos, entre todos renen tambin los 11 hermanos. (La Media Aritmtica es una medida que compensa los aportes, de modo que los valores altos

    reparten a los valores bajos para equilibrar los aportes de cada uno a la suma total).

    Ejemplo 2. Empleando la tabulacin de las estaturas, realizada anteriormente:

    ALUMNOS SEGN ESTATURAS

    ESTATURAS

    (cm) MARCA DE

    CLASE NMERO

    ALUMNOS FREC.

    RELATIVA

    Linf - Lsup (Xi) (fi) Xi fi (hi) Xi hi 116,0 - 125,0 120,5 2 241,0 0,050 6,03

    125,1 - 134,0 129,5 3 388,5 0,075 9,71

    134,1 - 143,0 138,5 10 1.385,0 0,250 34,63

    143,1 - 152,0 147,5 13 1.917,5 0,325 47,94

    152,1 - 161,0 156,5 6 939,0 0,150 23,48

    161,1 - 170,0 165,5 4 662,0 0,100 16,55

    170,1 - 179,0 174,5 2 349,0 0,050 8,73

    TOTAL 40 5.882,0 1,000 147,07

    M(X) = X = 1

    1 ni i

    iX f

    n = = (5.882)/40 = 147,05 = 147,1 cm

    M(X) = X = 1

    n

    i iiX h

    = = 147,07 = 147,1 cm

    Por lo tanto, la estatura media del grupo es 147,1 cm. Esto es (en teora) si cada alumno tuviera esa estatura, entre los 40 reuniran el mismo total de 5.882 cm que es la suma de todas las estaturas originales.

    Ejemplo 3. Compruebe los resultados de los ejemplos anteriores empleando su calculadora.

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 36

    3.2.3. Propiedades de la Media Aritmtica La Media Aritmtica tiene algunas propiedades interesantes, que pueden facilitar el clculo de la misma, o comprobar los resultados obtenidos.

    Prop. 1. La media aritmtica de una constante es igual a la constante: M(c)=c

    Esta propiedad seala que si todos los valores de los datos son iguales, la M.A. tambin tendr ese

    mismo valor. Por ejemplo, si un alumno tiene notas: 5, 5, 5, 5 la M.A. ser 5.

    Prop. 2. La media aritmtica de una suma de variables es igual a la suma de las medias aritmticas de

    las variables: M(X+Y) = M(X) + M(Y) Esta propiedad indica que si existe una variable tal que cada valor es la suma (o diferencia) de otros

    dos, la M.A. de la primera se puede obtener como suma (diferencia) de las M.A. de las partes de ese total. Por ejemplo, se tiene informacin de las horas extras trabajadas por dos secciones de una empresa (X

    e Y), durante cuatro semanas. El total de horas extras trabajadas en la empresa, durante ese perodo, es (T=X+Y):

    Semana Horas extras

    seccin X Horas extras

    seccin Y Horas extras

    totales T=X+Y 1 30 40 70 2 20 10 30 3 80 20 100 4 50 10 60

    Total 180 80 260 M.Aritmtica X =180/4=45 h Y =80/4=20 h T =260/4=65 h

    Prop. 3. La media aritmtica de una variable ms una constante es igual a la constante ms la media

    aritmtica de la variable: M(X + c)= M(X) + c Esta propiedad seala que si a cada valor de una variable se le suma (resta) una cantidad constante, entonces la M.A. de los valores modificados ser igual a la M.A. de los valores originales ms (menos) la constante. Por ejemplo, un grupo de personas tiene actualmente las edades que se indican (variable X). Dentro de 5 aos, cada uno tendr su edad actual ms 5 aos (variable Y=X+5). las M.A. resultantes se presentan en la tabla siguiente: Por lo tanto, Y =134/5=26,8 aos = X +5

    Persona Edad Actual X

    Edad en 5 aos ms Y=X+5

    Matas 10 15 Andrea 26 31 Eduardo 28 33 Alejandra 20 25 Claudia 25 30 Total 109 134

    M.Aritmtica X =109/5=21,8 aos Y =134/5=26,8 aos

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 37

    Prop. 4. La Media Aritmtica de una variable por una constante es igual a la constante por la Media Aritmtica de la variable: M(c i X)= c i M(X)

    Esta propiedad seala lo que ocurre con la M.A. de un conjunto de valores si cada uno es multiplicado (dividido) por un valor constante. Como resultado se tiene que la M.A. de los datos originales resulta multiplicado (dividido) por la misma constante. Como ejemplo, consideremos los sueldos de un grupo de personas, los cuales son reajustados en el 10%. Por ejemplo, un sueldo de $100.000 aumentar en 10% (esto es $10.000) siendo el nuevo sueldo de $110.000.- esto es equivalente a multiplicar el sueldo original por el factor 1,1 (base 1 ms 10% o en decimal 0,1). En el ejemplo, (100.000)(1,1)=110.000

    SUELDOS DE 5 PERSONAS (EN M$)

    Persona Sueldo actual (M$) X

    Reajuste0,1 i X

    Sueldo Reajustado Y=(1,1) i X

    Matas 100 10,0 110,0 Andrea 280 28,0 308,0

    Eduardo 328 32,8 360,8 Alejandra 420 42,0 462,0 Claudia 325 32,5 357,5 Total 1.453 145,3 1.598,3

    M.Aritmtica X =1453/5=290,6(M$) Y =1598,3/5=319,66 (M$) Se aprecia que, Y =1598,3/5=319,66 (M$) = (1,1) i 290,6 = 1,1 i X Prop. 5. (Transformacin Lineal). Si la variable X sufre una transformacin lineal, entonces la media

    aritmtica de la variable transformada es: M(a i X+b)=a i M(X)+b

    En el ejemplo anterior, consideremos los sueldos de un grupo de personas, los cuales son reajustados en el 10% y adems tienen una bonificacin de $15.000. Por ejemplo, un sueldo de $100.000 aumentar en 10% (esto es $10.000) siendo el sueldo reajustado de $110.000.- Si se agrega la bonificacin, el sueldo final ser $125.000.-Esto es equivalente a multiplicar el sueldo original por el factor a=1,1 y al resultado agregarle b=15.000.-

    SUELDOS DE 5 PERSONAS (EN M$) Persona Sueldo actual (M$)

    X Sueldo Reajustado

    (1,1) i X (M$) Sueldo Reajustado ms bonificacin

    Y=(1,1) i X + 15 (M$) Matas 100 110,0 125,0 Andrea 280 308,0 323,0

    Eduardo 328 360,8 375,8 Alejandra 420 462,0 477,0 Claudia 325 357,5 372,5 Total 1.453 1.598,3 1.673,3

    M.Aritmtica X =290,6(M$) 319,66 (M$) Y =1673,3/5=334,66 (M$) Se aprecia que, Y =1673,5/5=334,66 (M$) = [(1,1) i 290,6 +15]= (1,1 i X +15) Prop. 6. (Media Ponderada). Si se tienen "k" muestras de tamaos n1, n2,...,nk y cuyas medias aritmticas

    son, respectivamente, 1 2, ,..., kX X X entonces la media aritmtica del total de observaciones es:

    1 1 2 21 2 ...

    k kk

    n X n X n Xn n nX+ + ++ + +=

    Esta propiedad permite calcular la M.A. de un conjunto de observaciones conociendo la informacin de

    grupos que componen dicho conjunto. Como ejemplo, si se tiene informacin de los resultados de la aplicacin de un mismo test de

    conocimientos de Estadstica a tres cursos A, B y C como se muestras a continuacin. Interesa conocer la M.A. de los tres cursos en conjunto.

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 38

    CURSO N Alumnos: ni Media Aritm.: iX Productos: i in X A 35 82 2.870 B 23 65 1.495 C 42 78 3.276

    TOTAL 100 7.641 X =7641/100=76,41 ptos

    La M.A. del conjunto de 100 alumnos es 76,41 puntos.

    Prop. 7. La suma de todos los desvos (diferencias) de los valores de la variable respecto de la media aritmtica es cero :

    1( ) 0

    n

    iiX X

    = =

    Esta es una importante propiedad de la M.A. motivada por el sentido distributivo que se indic para la M.A., motivo por el cual se producen diferencias positivas y negativas entre los valores de la variable y la M.A. los que se anulan.

    En el ejemplo sobre sueldos de 5 personas, se aprecia lo siguiente:

    SUELDOS DE 5 PERSONAS (EN M$)

    Persona Sueldo (M$) X

    Desvos iX X

    Desvos iX X

    Matas 100 100-290,6 -190,6 Andrea 280 280-290,6 -10,6

    Eduardo 328 328-290,6 37,4 Alejandra 420 420-290,6 129,4 Claudia 325 325-290,6 34,4 Total 1.453 0

    M.Aritmtica X =1453/5=290,6(M$) 1( ) 0

    n

    iiX X

    = =

    3.3. FRACTILAS

    Sea X una variable cuyos n valores se ordenan de modo que X1

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 39

    3.4.2. Determinacin en Datos no Tabulados

    Ordenando los datos de menor a mayor, la Mediana corresponde al valor que ocupa el lugar central.

    Si hay un nmero impar de datos, la Mediana es el que ocupa el lugar central. Por ejemplo: si los datos

    son las edades siguientes (en aos): 2, 3, 5, 8, 3, 6, 9, 1, 9. Luego de ordenados se tienen los valores: 1, 2, 3, 3, 5, 6, 8, 9, 9. Por lo tanto, la Mediana corresponde al valor central, o sea Me=5 aos.

    Si hay un nmero par de datos, la Mediana se define como la media aritmtica de los dos valores centrales. Ejemplo:

    Para las edades siguientes (en aos) 2 3 5 8 3 6 9 1 9 8, determinar la Mediana. Luego de ordenados se tienen los valores 1 2 3 3 5 6 8 8 9 9 ; luego la Mediana es la media aritmtica de los valores centrales 5 y 6, esto es Me=(5+6)/2 = 5,5 aos.

    3.4.3. Determinacin Empleando Ojiva Siendo la Mediana el valor de la variable asociado a la Frecuencia Absoluta Acumulada igual a n/2 ( o a

    la Frecuencia Relativa Acumulada de 0,5 50%), para determinarla, en el eje Y, se ubica la Frecuencia Absoluta Acumulada de n/2. Por eses punto, se traza una paralela al eje X hasta intersecar la ojiva. Por el punto de interseccin se traza una paralela al eje Y hasta intersecar el eje X. Este ltimo punto define el valor de la Mediana (ver grfico de Ojiva, en tabulacin)

    3.4.4. Determinacin con Datos Tabulados (TABLA DE FRECUENCIAS)

    Se trata de interpolar el valor de la variable correspondiente a Fi=0,5n ( Hi=0,5) . El procedimiento es

    el siguiente, empleando la tabla de frecuencias: a) Ubicar el primer intervalo cuya frecuencia absoluta acumulada jF es igual o mayor a (0,5n).

    Dicho intervalo se denominar "Intervalo de la Mediana" y se denota como "intervalo j-simo" b) Sea: infL = Lmite inferior del intervalo de la Mediana

    jC = Amplitud del intervalo de la Mediana; jn = Frecuencia absoluta del intervalo de la Mediana;

    1jF = Frec. absoluta acumulada del intervalo anterior al de la Mediana. c) La Mediana se determina como:

    1(0,5 )inf

    j j

    j

    C n FfMe L

    = + d) En forma anloga, se pueden emplear frecuencias relativas acumuladas o % acum.

    Ejemplo:

    Para los datos sobre estaturas de 40 alumnos, la determinacin de la Mediana se realiza as: a) Siendo n/2 = 40/2 = 20 alumnos, se ubica en la columna de Frec. Abs. Acumuladas el primer valor

    que supera a 20, resultando ser 28. Por lo tanto, el cuarto intervalo (j=4) de 143 cm a 152 cm es el Intervalo de la Mediana.

    b) Valorizando los distintos elementos que contiene la expresin de la Mediana, se tiene que: cj = 9 cm ( =152 -143); Linf = 143 cm ; fj = 13 ; Fj-1 = 15

    c) El valor de la Mediana es:

    = + = + = + =1( 0 ,5 )in f 9 (2 0 1 5 )e 1 4 3 1 4 3 3, 4 1 4 6, 41 3j j

    j

    C n FfM L cm

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 40

    ALUMNOS SEGN ESTATURAS

    ESTATURAS (cm) N ALUMNOS N ALUMNOS Linf - Lsup :Variable) fi:Frec. Absol. Fi :Frec. Absol. acum..

    116,0 - 125,0 2 2 125,1 - 134,0 3 5 134,1 - 143,0 10 15 = Fj-1

    Linf =143,1 - 152,0 13 = fj 28 = Fj Intervalo (j) de la Mediana152,1 - 161,0 6 34 161,1 - 170,0 4 38 170,1 - 179,0 2 40

    TOTAL 40 = n 3.4.5. Determinacin Mediante Interpolacin (OPCION LR DE CALCULADORA)

    Se trata de interpolar en el "intervalo de la Mediana" como se defini antes. El procedimiento es: a) Seleccione opcin LR (Regresin Lineal) en calculadora y limpie las memorias. b) Determinar "intervalo de la Mediana", esto es, el primer intervalo cuya frecuencia absoluta

    acumulada jF es igual o mayor a (0,5n). En el ejemplo de estaturas de 40 alumnos es el intervalo 143 a 152 cm.

    c) Ingrese puntos (Linf; Fj-1) y (Lsup; Fj) del intervalo de la Mediana.

    En el ejemplo anterior, ingresar (143; 15) y (152; 28) d) Ingresar valor de Y (frecuencia acumulada) tal que Y=(0,5n) y obtener el valor de la variable

    estimado ( X ). Este valor es la estimacin de la Mediana (Me). En el ejemplo, ingresar Y= 20 se obtiene que X = 146,4 cm = Mediana 3.5. GRFICO DE "CAJA" O "CAJN CON BIGOTES" (box and whisker plot)

    40N =

    ESTATURAS DE ALUMNOS

    ESTATURA

    190

    180

    170

    160

    150

    140

    130

    120

    110

    Para graficar la Mediana y los Cuartiles de una distribucin se emplea el grfico de "Caja" (creado por J.Tukey). Consiste en un rectngulo cuyos extremos representan los cuartiles y en cuyo interior se representa la Mediana, como un trazo que divide el cajn. Se dibujan trazos perpendiculares en cada extremo de la caja para representar el recorrido de los datos. Existen diversas variantes.

    Este grfico de la distribucin, permite apreciar

    estadsticas de posicin (Mediana, en la lnea que divide el cajn, y extremos que son los Cuartiles), simetra (segn si mitades del cajn son iguales o no) y dispersin (segn la extensin del cajn, que es el recorrido intercuartlico).

    El grfico del ejemplo anterior est realizado con SPSS. Otros software estadsticos tambin pueden

    realizarlo. Con EXCEL puede realizarse una aproximacin, empleando los Grficos de Cotizaciones, segunda opcin. Ah se presenta esta alternativa. Requiere cuatro valores en el orden siguiente: Primer Cuartil (Apertura), Mximo de los Datos (Mximo), Mnimo de los Datos (Mnimo) y Primer Cuartil (Cierre). En parntesis se indica el nombre asignado por EXCEL para identificar esos valores. No aparece la lnea de la Mediana.

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 41

    3.6. PERCENTILES Y PUNTOS CENTILES (P())

    3.6.1. Definicin Los percentiles son fractilas en las cuales las frecuencias relativas acumuladas se expresan en

    centsimos desde 0,01 a 0,99 Por comodidad, los percentiles se expresan en porcentajes. Se denota como " ( )P " y se denomina

    "Percentil (100)" o "Punto centil (100)" a aquel valor de la variable cuyo porcentaje acumulado de frecuencias es (100)% (siendo 0

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 42

    b) Valorizando los distintos elementos que contiene la expresin del percentil, se tiene que: cj = 9 cm ( =143 -134); Linf = 134 cm ; fj = 13 ; Fj-1 = 15

    c) El valor del Primer Cuartil es:

    = + = + = + =1(0,25 )in f 9(10 5 )(0, 25 ) 134 134 4,5 138,510j j

    j

    C n FfP L cm

    3.6.4. Determinacin Mediante Interpolacin (OPCION LR DE CALCULADORA)

    Se trata de interpolar en el "intervalo del Percentil " como se defini antes. El procedimiento es: a) Seleccione opcin LR (Regresin Lineal) en calculadora y limpie las memorias. b) Determinar "intervalo del Percentil ", esto es, el primer intervalo cuya frecuencia absoluta

    acumulada jF es igual o mayor a (n). En el ejemplo de estaturas de 40 alumnos, el Intervalo del Percentil 25 es el intervalo 134 a 143 cm.

    c) Ingrese puntos (Linf; Fj-1) y (Lsup; Fj) del intervalo de la Mediana.

    En el ejemplo anterior, ingresar (134; 5) y (143; 15) d) Ingresar valor de Y (frecuencia acumulada) tal que Y=(0,5n) y obtener el valor de la variable

    estimado ( X ). Este valor es la estimacin de la Mediana (Me). En el ejemplo, ingresar Y= 10 se obtiene X = 138,5 cm = Percentil 25 = P(0,25) 3.6.5. Percentil asociado con un valor de la variable A partir de la expresin anterior para estimar el valor de la variable que corresponde a un percentil, se puede estimar el porcentaje de datos a los que supera un determinado valor de la variable, (denominado X), esto corresponde al percentil asociado con dicho valor de la variable Para realizar la estimacin, se definen los elementos del intervalo al que pertenece el valor de la variable X (como se hizo para la Mediana), en la expresin anterior se reemplaza P() por X y se despeja n en la expresin anterior, para finalmente despejar . El resultado es:

    inf( )1

    1 jj

    f X Lj cFn

    = + Ejemplo En los datos de estaturas de los 40 estudiantes, determinar cual es el percentil asociado con la estatura X= 162 cm La estatura X=162 pertenece al intervalo 161-170. Por lo tanto los valores de los trminos de la frmula, obtenidos de la tabla de frecuencias de las estaturas, son: N=40; Linf= 161 ; Cj=9 ; fj= 4; Fj-1=34 . Reemplazando en expresin anterior se obtiene:

    [ ] = + = + = = 4(162 161) 4(1)1 1 1

    40 9 40 9 4034 34 34,44 0,86

    Por lo tanto, la estatura 162 cm corresponde al Percentil 86. La interpretacin del resultado natrior es as: un aluno con una estatura de 162 cm supera, en estatura,

    al 86% del grupo o sea a 35 alumnos app. (40*0,86=34,4 =35 alumnos). Cmo podra comprobarse la calidad de esta estimacin?. Esto es, en que medida esta prediccin es correcta o precisa.

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 43

    3.7. MODA (Mo) 3.7.1. Definicin

    La Moda es el valor de la variable que ms se repite (corresponde a un "mximo relativo" de la

    distribucin). Se requiere que la variable sea al menos de nivel nominal.

    3.7.2. Estimacin

    Si los datos no estn tabulados la Moda correspondera al valor de la variable con mayor frecuencia relativa. Sin embargo, puede no tener sentido su determinacin en estos casos, especialmente si hay pocas repeticiones de los valores de la variable.

    Si los datos estn tabulados, puede estimarse la Moda como la marca de clase del intervalo que tiene la

    mayor frecuencia (absoluta o relativa). En el ejemplo, correspondera a Mo = 147,5 cm. Existen frmulas para estimar la Moda que consideran las frecuencias del intervalo que tiene la mayor

    frecuencia absoluta (o relativa o %), la que se denomina jf . Tambin se considera la frecuencia absoluta del intervalo anterior 1jf y del siguiente 1jf+ al de mayor frecuencia. Una frmula para estimar la Moda es:

    +

    + = +1

    1 1

    ( )inf ( ) ( )

    j j j

    j j j j

    C f ff f f fMo L ;otra es:

    +

    + += + 1

    1 1

    ( )inf ( ) ( )

    j j

    j j

    C ff fMo L

    Ejemplo: En el ejercicio sobre estaturas de 40 alumnos

    +

    +

    = + = + = + = + = + +1

    1 1

    ( )in f ( ) ( )

    9 (13 10 ) 27143 143 143 2,7 145,7(13 10 ) (13 6 ) 3 7

    j j j

    j j j j

    C f ff f f fM o L cm

    +

    + += + = + = + = + =

    +1

    1 1

    ( )in f ( ) ( )

    9(6 ) 54143 143 143 3,37 146, 46 10 16

    j j

    j j

    C ff fM o L cm

    ALUMNOS SEGN ESTATURAS

    ESTATURAS (cm) Marca de clase N ALUMNOS Linf - Lsup :Variable fi :Frec. Absol. 116,0 - 125,0 120,5 2 125,1 - 134,0 129,5 3 134,1 - 143,0 138,5 10= fj-1

    Linf =143,1 - 152,0 147,5 13 = fj Intervalo (j) con frecuencia mayor 152,1 - 161,0 156,5 6= fj+1 161,1 - 170,0 165,5 4 170,1 - 179,0 174,5 2

    TOTAL 40 = n 3.7.3. Observacin

    Una distribucin puede tener ms de una Moda relativa, caracterizada por intervalos con frecuencias

    mayores a las de los intervalos anterior y siguiente. En el ejemplo siguiente se aprecian 4 Modas.

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 44

    3.8. CENTRO DEL RECORRIDO

    3.8.1. Definicin Es el valor correspondiente a la media aritmtica entre la observacin mayor y menor de una variable:

    CR= ( XMAX + XMIN)/2

    3.9. COMPARACIN DE LA MEDIA ARITMTICA, LA MEDIANA Y LA MODA

    Las siguientes son algunas caractersticas de la Media Aritmtica, la Mediana y la Moda:

    a) La Media aritmtica es apropiada para variables de nivel intervalar al menos, la Mediana para nivel ordinal y la Moda para cualquier nivel.

    b) La Media Aritmtica es afectada por los valores extremos de los datos. c) La Mediana puede ser determinada si se desconocen algunos datos (por ejemplo, los extremos),

    siempre que se conozca la ubicacin relativa que tendran. d) Si la distribucin de la variable es simtrica coinciden las tres estadsticas. e) Si la distribucin es asimtrica positiva (cola derecha ms larga) entonces Mo

  • Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 45

    Moda es posible asociarla con el punto en que la figura tiene su frecuencia mxima (mayor apuntamiento en la figura).

    ESTATURAS DE 40 ALUMNOS (EN CM)

    0

    2

    4

    6

    8

    10

    12

    14

    102,5 111,5 120,5 129,5 138,5 147,5 156,5 165,5 174,5 183,5 192,5

    ALU

    MN

    OS

    ESTATURA (CM)

    Media Arit:. 146,8Mediana: 146,0

    Moda: 145,7

    En la Ojiva se puede ubicar fcilmente la Mediana, Cuartiles o Percentiles en el eje de la variable dado que estas estadsticas estn asociadas con fracciones especficas de frecuencias acumuladas: 50% para la Mediana; 25% y 75% para Cuartiles, etc. Ver el punto 2.5.5 Empleo de la Ojiva para determinar Mediana y Cuartiles. 3.11. EJERCICIOS 1. Calcule las estadsticas de posicin para el Ejercicio N2 (para desarrollar de Tabulacin) para el total y

    para cada edad, 14 y 16 aos. Compare resultados. 2. Calcule estadsticas bsica para los datos de Ejercicios para Desarrollar (de Tabulacin) nmeros 3, 4, 6,

    7, 8, 9 y 10. Comente resultados de cada ejercicio. 3. El grfico siguiente presenta los resu