7. plan analisis de la informacion corregio

Upload: edwin-wilfredo

Post on 05-Apr-2018

226 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    1/36

    Anlisis de la informacin

    Jaiberth Antonio Cardona Arias

    e-mail: [email protected]

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    2/36

    Contenido

    Anlisis univariado: Variables cualitativas: Medidas de frecuencia (frecuenciaabsoluta, frecuencia relativa - proporciones).

    Variables cuantitativas: Medidas de resumen.

    Anlisis bivariado: Estadstica inferencial o paramtrica. Estadstica no paramtrica.

    Anlisis multivariado: Regresin lineal mltiple. Regresin logstica: Binaria y multinomial.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    3/36

    Tradicionalmente la estadstica se ha definido como la

    ciencia que estudia la recopilacin, organizacin,

    presentacin y anlisis de informacin de tipo

    numrico o cuantitativa, con el fin de deducir

    explicaciones precisas, realizar predicciones y orientar

    la toma de decisiones.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    4/36

    Estadstica descriptiva: Utilizada para organizar, resumir ypresentar (en grficos o tablas) datos numricos. Estasubsume el anlisis de frecuencias para las variablescualitativas y el clculo de medidas de resumen para lasvariables cuantitativas.

    Las variables son datos, valores o mediciones con los cualesestudian los individuos; estas se dividen en cuantitativas ycualitativas:

    Variables Cualitativas: Expresan cualidades o atributosclasificados en categoras, pueden ser dicotmicas (clasificanla variable en dos categoras por ejemplo fuma/no fuma) opolitmicas (se observan tres o ms categoras, por ejemploel color de los ojos, profesin, grupo sanguneo). Presentandos niveles de medicin, nominal para las variables que nopresentan ninguna orden y ordinal para las variables cuyascategoras se pueden jerarquizar u ordenar como el estratosocioeconmico.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    5/36

    Variables Cuantitativas: Expresan cantidad, puedenmedirse cuantificarse o expresarse en nmeros. Pueden sercontinuas o discretas y presentar un nivel de medicin derazn o intervalo.

    Continuas: Pueden tomar cualquier valor dentro de un rangonumrico determinado como la edad, el peso y la talla(permiten la medicin con decimales).

    Discretas: No admiten cualquier valor dentro de un rangonumrico, por lo que solo toman valores enteros.

    Razn: Presentan un cero absoluto, es decir, el cero indicaausencia.

    Intervalo: Presentan cero relativo, como la temperatura.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    6/36

    Segn laNATURALEZA TIPO NIVEL DEMEDICINCUALITATIVA BicategricaDicotmica Nominal

    OrdinalPolitmicaCUANTITATIVA Discretas De Intervalo

    De RaznContinuas

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    7/36

    Estadstica inferencial: corresponde a los anlisisestadsticos que trasciende la descripcin a lageneralizacin, en este sentido deriva conclusionesgenerales (aplicables a una poblacin) a partir deobservaciones hechas en una muestra (observaciones o

    datos recopilados de una parte representativa de lapoblacin).

    Estadstica multivariante: Es la evaluacin del efecto

    de varias variables independientes sobre unadenominada dependiente. Puede utilizarse para predecir,estimar o ajustar y para explicar el efecto recproco ysimultneo de varias variables sobre un desenlace.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    8/36

    Anlisis univariado de variables cualitativas

    Frecuencia absoluta: es la determinada por el nmerode veces que aparece el valor en una serie de datos,corresponde al recuento, por ejemplo el nmero total departicipantes o nmero total de hombres que participanen un estudio.

    Frecuencia relativa: tambin es conocida comoproporcin o porcentaje, es el cociente entre lafrecuencia absoluta conjunta y el nmero de

    observaciones que cumplen una condicin particular; porejemplo, porcentaje de hombres (nmero total dehombres divido el nmero total de participantes de unestudio).

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    9/36

    Medidas de resumenSe calculan a partir de variables cuantitativas, en estaspuede presentarse un gran nmero de valores observados,por ello se ha optado por analizarlas con base en las

    siguientes preguntas:1) Alrededor de qu valor se agrupan los datos?2) Si se agrupan alrededor de un nmero, cmo lo

    hacen? Muy concentrados? Muy dispersos?

    Para dar respuesta a estas preguntas se desarrollaron lasmedidas de tendencia central, de dispersin y de posicin.

    Anlisis univariado de variables cuantitativas

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    10/36

    Anlisis univariado

    Variables cualitativas: Medidas de frecuencia(frecuencia absoluta, frecuencia relativa -proporciones).

    Variables cuantitativas: Medidas de resumen.

    Medidas de tendencia central: Media, Mediana,Moda.

    Medidas de posicin: Mediana, Cuartiles,Percentiles, Deciles.

    Medidas de dispersin: Varianza, Desviacin

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    11/36

    Medidas de tendencia central

    Media aritmtica: Es la medida ms comn de localizacin ocentro de un grupo de datos, es el promedio aritmticoordinario. Es la suma de todos los valores de una variabledividida entre el nmero total de datos de los que se dispone.

    Ventajas e inconvenientes:1. Se expresa en las mismas unidades que la variable.2. En su clculo intervienen todos los valores de la

    distribucin.3. Es el centro de gravedad de toda la distribucin,

    representando a todos los valores observados.4. Es nica.5. Su principal inconveniente es que se ve afectada por los

    valores extremadamente grandes o pequeos de ladistribucin.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    12/36

    Moda muestral: es la observacin que se presenta con mayor

    frecuencia en la muestra. Es el valor de la variable que ms vecesse repite, y en consecuencia, en una distribucin de frecuencias, esel valor de la variable que viene afectada por la mxima frecuenciade la distribucin. En distribuciones no agrupadas en intervalos seobserva la columna de las frecuencias absolutas, y el valor de ladistribuci6n al que corresponde la mayor frecuencia ser la moda. Aveces aparecen distribuciones de variables con ms de una moda(bimodales, trimodales, etc), e incluso una distribucin defrecuencias que presente una moda absoluta y una relativa.

    Ventajas e inconvenientes:1. Su clculo es sencillo.

    2. Es de fcil interpretacin.3. Es la nica medida de posicin central que puede obtenerse en

    las variables de tipo cualitativo.4. En su determinacin no intervienen todos los valores de la

    distribucin.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    13/36

    Medidas de dispersin

    La localizacin o tendencia central no necesariamenteproporciona informacin suficiente para describir datosde manera adecuada, por ello al describir los datoscontinuos de la muestra se debe tener en cuenta sudispersin.

    Las medidas de dispersin ms importantes suelen ser:desviacin estndar, rango, rango intercuartlico yvarianza.

    Varianza: es la media de los cuadrados de lasdiferencias entre cada valor de la variable y la mediaaritmtica de la distribucin.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    14/36

    Desviacin estndar: es la raz cuadrada de la varianza. Expresa

    la dispersin de la distribucin y se expresa en las mismas unidadesde medida de la variable. La desviacin tpica es la medida dedispersin ms utilizada en estadstica.

    Caractersticas de la desviacin tpica y la varianza:

    1. Son ndices que describen la variabilidad o dispersin y por tantocuando los datos estn muy alejados de la media, el numeradorde sus frmulas ser grande y la varianza y la desviacin tpica losern.

    2. Al aumentar el tamao de la muestra, disminuye la varianza y ladesviacin tpica.

    3. Cuando todos los datos de la distribucin son iguales, la varianzay la desviacin tpica son iguales a 0.

    4. Para su clculo se utilizan todos los datos de la distribucin; portanto, cualquier cambio de valor ser detectado.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    15/36

    Coeficiente de Variacin: es una medida de dispersinrelativa de los datos y se calcula dividiendo la desviacintpica muestral por la media y multiplicando el cocientepor 100. Indica la relacin existente entre la desviacintpica de una muestra y su media.

    Rango: Definido como la diferencia entre lasobservaciones ms grande y ms pequea r=Max(xi)-Min (xi).

    Rango intercuartlico: diferencia entre el cuartil 3(percentil 75) y cuartil 1 (percentil 25).

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    16/36

    Medidas de posicin

    Estn diseadas para proporcionar al investigador una medida

    cuantitativa de donde est el centro de los datos en una muestra.Para el caso de distribuciones asimtricas se usan los cuartiles,deciles y percentiles.

    Cuartil: corresponde a cada una de las cuatro partes que surge de

    la divisin de todos los datos recolectados en cuatro partesiguales. El primer cuartil Q1 deja el 25% de los valores por debajo,el segundo cuartil es igual a la mediana y el tercero Q3 deja el75%.

    Decil: es una de las 10 partes que ha sido divida en un conjuntoordenado de datos. El primer decil D1 deja el 10% de los valorespor debajo y el resto por encima. El quinto decil es la mediana.

    Percentil: es el nombre que recibe cada uno de los puntos dedivisin de un conjunto ordenado de datos en 100 partes. El

    percentil catorce (P14) deja el 14% de los valores por debajo. El

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    17/36

    Mediana

    Es el punto donde la muestra se divide en dos partes iguales.

    La palabra mediana es sinnimo de parte media. La ventajade la mediana es que los valores extremos no tienen muchainfluencia sobre ellos.

    Dada una distribucin de frecuencias con los valores

    ordenados de menor a mayor, llamamos mediana y larepresentamos por Me, al valor de la variable que deja a suizquierda el mismo nmero de frecuencias que a su derecha.

    Ventajas e inconvenientes:

    Es la medida ms representativa en el caso de variables quesolo admitan la escala ordinal. Es fcil de calcular. En la mediana solo influyen los valores centrales y es

    insensible a los valores extremos u outliers.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    18/36

    Anlisis bivariado

    El uso de pruebas para comparar variables se basaen el cumplimiento del supuesto de normalidad. Eneste sentido, cuando el supuesto se cumple seemplean pruebas paramtricas y en caso contrario

    pruebas no paramtricas.

    Las pruebas de normalidad, al igual las pruebasempleadas en el anlisis bivariado y multivariado, se

    interpretan bajo la lgica de las pruebas dehiptesis.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    19/36

    Prueba de hiptesis

    Una hiptesis estadstica es una proposicin o supuesto sobrelos parmetros de una o ms poblaciones.

    El procedimiento que conduce a una decisin sobre unahiptesis en particular recibe el nombre de prueba dehiptesis. Tambin se conoce como pruebas de significacinestadstica. En sta se plantea la hiptesis nula y la hiptesisalternativa.

    La hiptesis nula, representada por Ho, es la afirmacin

    sobre una o ms caractersticas de poblaciones que al iniciose supone cierta, es decir, la creencia a priori. Es la hiptesisque plantea la igualdad.

    La hiptesis alternativa, representada por Ha, es la

    afirmacin contradictoria a Ho, y sta generalmente es lahiptesis a investigar.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    20/36

    Ho es la hiptesis de igualdad Ho, se rechazacuando el valor p calculado en las diferentespruebas es menor que el valor de , queconvencionalmente es de 0,05 (que corresponde aun nivel de confianza del 95%).

    La hiptesis de investigacin es la conjetura osuposicin que motiva la investigacin y conduce

    directamente a la hiptesis estadstica. La hiptesisestadstica se establece de tal forma que pueden serevaluadas por medio de tcnicas estadsticasadecuadas.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    21/36

    Pasos para la prueba de hiptesis

    Datos: es necesario comprender la naturaleza de los datos que

    forman la base de los procedimientos de prueba, ya que estodetermina la prueba particular que se ha de utilizar.

    Supuestos (restricciones): algunos procedimientos cambian segnlas suposiciones, por ejemplo supuestos respecto a la normalidad de

    la distribucin de la poblacin, igualdad de variancias eindependencias de las muestras.

    Hiptesis: se trabaja con dos que deben anunciarse explcitamente. Primero la hiptesis que debe probarse, conocida como hiptesis nula o de

    no diferencia y designada como Ho. En general, la hiptesis nula se

    establece con el propsito expreso de ser rechazada. En consecuencia, elcomplemento de la conclusin que el investigador desea alcanzar seconvierte en el enunciado de la hiptesis nula.

    La hiptesis alternativa, identificada con el smbolo HA es una proposicin quese creer cierta si los datos de la muestra llevan al rechazo de la Ho.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    22/36

    Estadstico de prueba: es la frmula que se puede calcular a partir

    de los datos de la muestra. Este sirve como un productor dedecisiones, ya que la decisin de rechazar o no Ho depende de lamagnitud del estadstico de prueba. La formula general de losestadsticos de prueba (EP) es: EP = (estadstico - parmetrosupuesto) / error estndar del estadstico.

    Distribucin del estadstico de prueba: generalmente, es lanormal o la t student.

    Regla de decisin: en la distribucin de probabilidad (por ejemplola normal o la t student) del estadstico todos los valores posibles sedividen en dos grupos conocidos como regin de rechazo y regin

    de no rechazo. Los valores del estadstico de prueba que forman laregin de rechazo son aquellos que tienen la menor probabilidad deocurrir, mientras que los valores que forman la regin de no rechazotienen mayor probabilidad de ocurrir, si la Ho es verdadera paraambas regiones. La regla indica que se debe rechazar Ho si el valordel estadstico de prueba que se calcula a partir de la muestra esuno de los valores de la zona de rechazo.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    23/36

    Nivel de significacin: la decisin en cuanto a qu valores van

    hacia la regin de rechazo y cules van hacia la regin de norechazo se toma con base en el nivel de significacin deseado,designa como . Este se define con base en al distribucin normal ot student.

    Clculo del estadstico de prueba: A partir de los datos contenidosen la muestra se calcula un valor del estadstico de prueba y secompara contra las regiones de no rechazo y rechazo que ya fueronespecificadas.

    Decisin estadstica: Rechazar o no Ho, con base en el valor del

    estadstico de prueba.

    Conclusin.

    Valor p: cantidad que indica qu tan inslitos son los resultados dela muestra, considerando que la Ho sea verdadera.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    24/36

    Tipos de errores:

    Error : tambin se conoce como error tipo I, consiste enrechazar una Ho verdadera.

    Error : tambin se conoce como error tipo II, consiste enno rechazar una Ho falsa.

    Al rechazar Ho se tiene el riesgo de cometer un error tipoI, al no rechazar Ho se tiene el riesgo de cometer unerror tipo II.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    25/36

    Pruebas de normalidad: Kolmogorov Smirnov: para datos poblacionales. Kolmogorov Smirnov con correccin de Lilliefors: Para

    datos muestrales con tamao de muestra igual o mayor a50.

    Shapiro Wilk: Para datos muestrales con tamao demuestra igual o menor a 50.

    En las pruebas de hiptesis Ho indica que los datosprovienen de una poblacin normal, por tanto si el valor p(significacin estadstica) es

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    26/36

    Anlisis bivariado

    Variables a comparar Estadstica

    paramtricainferencial

    Estadstica no

    paramtrica

    Cualitativabicategrica concuantitativa

    T Student para muestrasindependientes

    Prueba U de Mann-Whitney

    T Student para muestraspareadas Prueba de Wilcoxon

    Cualitativa politmicacon cuantitativa

    ANOVA Prueba H de Kruskal-Wallis

    Cuantitativa concuantitativa Correlacin de Pearson Correlacin deSpearman, CoeficienteTao de KendalCoeficiente decorrelacin intraclase

    Cualitativa con

    cualitativa

    Intervalo de confianza

    para la diferencia dero orciones.

    Chi cuadrado de

    Pearson, Prueba exactade Fisher Mac nemar

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    27/36

    Regresin: es til para averiguar la forma probable delas relaciones entre las variables y el objetivo final, espredecir o estimar el valor de una variable quecorresponde al valor dado de otra variable.

    En este anlisis participan dos variables X y Y; a lavariable X se le conoce por lo general como variableindependiente, ya que con frecuencia se encuentra bajoel control del investigador, es decir, los valores de Xpueden ser seleccionados por el investigador para

    obtener uno o ms valores de Y, en correspondencia conlos valores de X. Por consiguiente, a la otra variable Y sele conoce como variable dependiente, y se habla deregresin de Y sobre X.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    28/36

    Coeficiente de correlacin mltiple: evala la relacin entre

    diversas variables y mide la intensidad de dicha relacin.

    Coeficiente de correlacin parcial: Medida de la intensidadde la relacin lineal entre dos variables cuando se elimina lainfluencia de las variables restantes (introducidas al modelo

    de correlacin mltiple). Es la correlacin entre Y y X1,despus de controlar el efecto de X2, manteniendo su valorconstante.

    Modelo de regresin lnea mltiple: Supone la existencia deuna relacin lineal entre alguna variable Y, a la cual se le da el

    nombre de variable dependiente, y K variables independientesX1, X2, Xk. A veces, a las variables independientes se los llamavariables explicativas porque se utilizan para explicar lavariacin de Y. Tambin se les conoce como variables deprediccin, pues se usan para predecir a Y.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    29/36

    Anlisis multivariado

    Desenlace de naturaleza cualitativa: Anlisis discriminante. Regresin logstica binaria o multinomial.

    Desenlace de naturaleza cuantitativa:

    ANOVA de dos o ms factores. Regresin lineal mltiple. Anlisis de componentes principales

    Solo cualitativas: Anlisis factorial. Anlisis de componentes principales. Anlisis de cluster.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    30/36

    Presentacin grfica de la informacin

    Para variables Cuantitativas:1. Histograma de frecuencias: es una presentacin grfica de

    una variable cuantitativa, donde se explicitan sus valores enel eje X y el eje Y representa la frecuencia de cada valor.

    2. Polgono de frecuencias: es similar al histograma, ladiferencia radica en que no presenta la frecuencia de cadavalor den barras sino con puntos.

    Para variables Cualitativas:1. Barras: con base en la altura de cada barra se determina la

    frecuencia (absoluta o relativa) de cada categora de lavariable cualitativa.2. Sectores: en cada sector se grafica la frecuencia (absoluta o

    relativa) de cada categora de la variable cualitativa.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    31/36

    Comparacin del comportamiento de una variable

    cuantitativa segn las categoras de una variablecualitativa:1. Diagrama de cajas: til para comparar medidas de

    posicin y dispersin, dado que grafica los cuartiles 1,2 y 3. Permite principalmente las siguientes

    comparaciones: 1) las medianas de la variablecuantitativa en cada una de las categoras de lavariable cualitativa, 2) los rangos intercuartlicos, 3) elgrado de dispersin con base la amplitud de las barrasy 4) los valores extremos y atpicos. til en los datosque no presentan distribucin normal y por tanto elmejor parmetro es la mediana.

    2. Barras de error: el punto central indica la media y lasbarras su intervalo de confianza. til en los datos quepresentan distribucin normal y por tanto el mejorparmetro es la media.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    32/36

    Comparacin de dos variables cualitativas:1. Barras apiladas:2. Barras agrupadas:

    Comparacin de dos variables cualitativas:1. Grfico de dispersin o nube de puntos

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    33/36

    Histograma de la variable Peso (enkilogramos) de un grupo de estudio.

    Polgono de frecuencias de la variable Peso

    (en kilogramos) de un grupo de estudio

    Grfico de barras: Frecuencia absoluta del estadocivil.

    Grfico de barras: Frecuencia relativa del estadocivil.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    34/36

    Grfico de sectores: Frecuencia del estadocivil

    Diagrama de cajas. Comparacin del peso segnel sexo de los participantes.

    Barra agrupada. Comparacin de la afiliacin ensalud segn el sexo.

    Barra apilada. Comparacin de la afiliacin ensalud segn el sexo

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    35/36

    Barras de error. Comparacin del peso segnel sexo de los participantes

    Grfico de dispersin o nube de puntos. Comparacin de larelacin entre la edad y el peso en los participantes del

    grupo de estudio.

  • 8/2/2019 7. Plan Analisis de La Informacion Corregio

    36/36

    Bibliografa

    Dawson-Saunders B, Trapp RG. Bioestadstica Mdica. 2 ed. Mxico:

    Editorial el Manual Moderno; 1996.

    Pita Fernndez, S. Uso de la estadstica y la epidemiologa en atencinprimaria. En: Gil VF, Merino J, Orozco D, Quirce F. Manual de metodologa detrabajo en atencin primaria. Universidad de Alicante. Madrid, JarpyoEditores, S.A. 1997.

    David Ruiz Muoz. Manual de estadstica. Universidad Pablo de Olavide.2004.

    Szklo Moyses; Nieto Javier. Epidemiologa intermedia Conceptos yaplicaciones. Universidad de Wisconsin, Escuela de Medicina. Madison

    Wisconsin. Walpole Ronald. Probabilidad y estadstica para ingenieros. Sexta edicin.

    1999.

    Azzimonti Juan Carlos. Bioestadstica aplicada a Bioquimica y farmacia.

    S d di i