la guÍa para no perderte nuncaguía...bonus 1: la guÍa completa del analista de datos la guÍa...

55

Upload: others

Post on 27-Jan-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

2

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste esta guiacutea

A ver si te suena esta situacioacuten

Has oiacutedo hablar de estadiacutestica alguna vez O incluso has estudiado alguna asignatura en la

universidad Pero llega el momento de la verdadhellip y no sabes ni por doacutende empezar

No sabes queacute teacutecnica aplicar ni coacutemo utilizar la estadiacutestica como tu mejor aliada Quizaacute ahora

mismo es tu peor pesadilla

Te sientes perdido y sin saber coacutemo enfocar el anaacutelisis de datos que te llevaraacute al eacutexito de tu

proyecto y como profesional investigador

Si es asiacute iexclvamos bien Quiero ayudarte a desbloquear tu mente y a utilizar la estadiacutestica como lo que

es una herramienta para brillar como investigador

Voy abordar una preocupacioacuten muy recurrente y seguramente es la que te inquieta ahora mismo

No sabes queacute teacutecnicameacutetodo estadiacutestico aplicar para analizar tus datos ni coacutemo abordar un

proyecto real de anaacutelisis de datos

Para ayudarte a resolver esta inquietud voy a darte 5 plantillas para que puedas aclarar 5 aspectos

que te permitiraacuten solventar esta preocupacioacuten

Te listo estos 5 puntos y asiacute los veraacutes maacutes claro

1- iquestCuaacuteles son las etapas de un proceso completo de anaacutelisis de datos

2- iquestQueacute es una tabla de datos y coacutemo estaacute ordenada

3- iquestCoacutemo puedo interpretar los datos (La Exploracioacuten)

4- iquestQueacute teacutecnica estadiacutestica aplico en cada caso (El Anaacutelisis)

5- iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Las explicaciones de estos puntos las he resumido en formato plantillas A continuacioacuten te muestro

estas planillas que te comentaba

3

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEN QUEacute CONSISTE ESTA GUIacuteA 2

PLANTILLA 1 ndash EL CAMINO A SEGUIR 5

ETAPA 1 ndash EL PROBLEMA 6

ETAPA 2 ndash LA RECOLECCIOacuteN 6

ETAPA 3 ndash LA LIMPIEZA 6

ETAPA 4 ndash LA EXPLORACIOacuteN 7

ETAPA 5 ndash EL ANAacuteLISIS 7

ETAPA 6 ndash LA CONCLUSIOacuteN 7

PLANTILLA 2 ndash LA MATERIA PRIMA 8

LOS ELEMENTOS DE UNA TABLA DE DATOS 9

LA CLASIFICACIOacuteN DE LAS VARIABLES 10

Variables numeacutericas de escala 10

Variables categoacutericas 10

Variables Ordinales 10

PLANTILLA 3 ndash LA EXPLORACIOacuteN 11

GRAacuteFICOS Y CARACTERIacuteSTICAS 12

LA DISTRIBUCIOacuteN 12

LAS RELACIONES ENTRE VARIABLES 13

LAS TABLAS DE CONTINGENCIA 13

LA GUIacuteA DE LA EXPLORACIOacuteN 14

iquestEN QUEacute CONSISTE LA GUIacuteA DE LA EXPLORACIOacuteN 15

CASO 1 ndash 1 VARIABLE NUMEacuteRICA 16

Resumen numeacuterico 17

Graacuteficos de la distribucioacuten 17

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE CATEGOacuteRICA 19

Boxplot 20

Histograma de densidad 20

CASO 3 ndash 2 O MAacuteS VARIABLES NUMEacuteRICAS 21

Diagrama de dispersioacuten o scatterplot 22

Matrixplot 22

Diagrama de correlacioacuten 22

Diagrama hiacutebrido 22

CASO 4 ndash 2 O MAacuteS VARIABLES NUMEacuteRICAS + 1 CATEGOacuteRICA 24

CASO 5 ndash VARIABLES CATEGOacuteRICAS 26

Tablas de contingencia 27

Balloon plot 27

Diagrama de barras 27

Diagrama de sectores 27

PLANTILLA 4 ndash EL ANAacuteLISIS 28

ESTADIacuteSTICA INFERENCIAL 29

CONTRASTE DE HIPOacuteTESIS 29

La Ficha del Contraste de Hipoacutetesis 31

2 TIPOS DE TEST ESTADIacuteSTICOS 34

EL MAPA MENTAL DEL ANAacuteLISIS 34

LA GUIacuteA DEL ANAacuteLISIS 36

iquestEN QUEacute CONSISTE LA GUIacuteA DEL ANAacuteLISIS 37

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO 39

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO 41

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS PROPORCIONES 42

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA TABLA DE CONTINGENCIAS 44

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES NUMEacuteRICAS 46

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES 48

4

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE PRUEBAS PARAMEacuteTRICAS 50

PLANTILLA 5 ndash EL SOFTWARE 52

iquestQUEacute SOFTWARE UTILIZO 53

iquestCOacuteMO UTILIZO EL SOFTWARE 54

iquestCOacuteMO APLICAR TODO ESTO EN TU BASE DE DATOS 55

5

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 1 ndash EL CAMINO A SEGUIR

iquestCuaacuteles son las etapas de un proceso completo de Anaacutelisis de Datos

Tener la visioacuten global de un proceso completo de Anaacutelisis de Datos es fundamental Y quiero que lo

veas como una transformacioacuten de informacioacuten

Es decir partes del estado inicial plantear el problema y los objetivos

Y pasas un estado final listas conclusiones basadas en datos reales para poder resolver el

problema planteado en la etapa inicial

6

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 1 ndash EL CAMINO A SEGUIR

Te muestro las 6 etapas de un proceso global de anaacutelisis de datos des del punto de vista de la

transformacioacuten de los datos

Etapa 1 ndash El Problema

Todo nace de un problema de una necesidad real Tu estudio tu proyecto parte de esta premisa

Entender mejor la realidad y solucionar el problema que te preocupa Este es tu objetivo como

Analista de Datos

En esta etapa definiraacutes el foco del estudio

Es decir queacute problema quieres abordar y definiraacutes el objetivo del estudio

Etapa 2 ndash La Recoleccioacuten

Es el disentildeo de un meacutetodo de recoleccioacuten de informacioacuten Maacutes teacutecnicamente es un proceso de

experimentacioacuten

Puede ser una encuesta pruebas en laboratorios con pacientes nutrirse de datos de marketing en

redes sociales etc

En definitiva es un plan de observacioacuten de la realidad para poder obtener DATOS

Etapa 3 ndash La Limpieza

Los DATOS son observaciones de la realidad y es un metal precioso en bruto Es necesario pulirlo

y encontrar lo maacutes apreciado

En esta etapa te encargaraacutes de homogeneizar los datos en cuanto a formato deshacer

observaciones que no te interesan y almacenar las maacutes uacutetiles

7

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 1 ndash EL CAMINO A SEGUIR

Etapa 4 ndash La Exploracioacuten

Los DATOS se visualizan minuciosamente para intuir las pistas maacutes relevantes que se esconden

entre nuacutemeros y letras Es la llamada exploracioacuten En ella utilizaraacutes la estadiacutestica descriptiva

(ED)

Esta rama de la estadiacutestica se encarga de traducir los DATOS a graacuteficos y caracteriacutesticas

sencillamente entendibles para nosotros De esta forma puedes interpretarlos de manera eficaz y

raacutepida

Etapa 5 ndash El Anaacutelisis

Es el punto que quizaacute te esteacute preocupando Es momento de responder a las preguntas como

investigador con la ayuda de evidencias reales Aquiacute entra en juego el conocimiento de teacutecnicas

estadiacutesticas y de tu propia creatividad para combinarlas y extraer las conclusiones que te

interesan

La famosa estadiacutestica inferencial (EI) es la rama por excelencia de esta etapa Seraacute tu mejor

aliada Se encarga de extraer conclusiones generales a partir de observaciones de un pequentildeo

conjunto de la realidad la muestra

En otras palabras proporciona herramientas para encontrar conclusiones de un conjunto grande

(poblacioacuten) con la informacioacuten de una pequentildea parte de este conjunto (muestra) El contraste de

hipoacutetesis es la herramienta maacutes famosa de esta etapa Pero existen otras teacutecnicas como la

prediccioacuten la clasificacioacuten o los meacutetodos de causa-efecto entre otros

Etapa 6 ndash La Conclusioacuten

Interpretaraacutes los resultados del anaacutelisis y listaraacutes las conclusiones En definitiva la informacioacuten

maacutes valiosa de tus DATOS Estaraacutes mucho maacutes cerca de solucionar el problema que habraacutes

planteado en la etapa 1

8

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

iquestQueacute es una tabla de datos y coacutemo estaacute ordenada

El Anaacutelisis de Datos se alimenta de Datos Es de cajoacuten Entender que los Datos son en realidad

tablas o matrices es una verdadera revelacioacuten

Entender tambieacuten que las variables son las caracteriacutesticas que mides de la realidad y se situacutean en

columnas es otra clave

En esta plantilla veraacutes

- Coacutemo es una tabla de datos

- Queacute son las variables y las observaciones

- Queacute tipo de variables son las maacutes comunes en la praacutectica

9

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

Tu base de datos es la puerta que comunica con el mundo real Tambieacuten puedes imaginarla como

la materia prima

Un proyecto de anaacutelisis de datos es un proceso de transformacioacuten de DATOS Algo asiacute como

empezar con una simple tabla y llegar a obtener informacioacuten uacutetil De DATOS a conclusiones

cristalinas que resolveraacuten gran parte de tus inquietudes

Los elementos de una tabla de datos

El punto de partida de un buen anaacutelisis

son tus DATOS limpios en forma de

tabla Vale pero iquestqueacute es una base de

datos De hecho ya te lo he definido

Es una tabla con filas y columnas Como

una matriz Y cada celda contiene un

coacutedigo alfanumeacuterico

Las filas son observaciones de

la realidad

Las columnas son variables

Las variables son caracteriacutesticas

Pueden ser longitud temperatura

densidad paiacutes de procedencia tipo de tratamiento calidad del tratamiento peso tipo de

enfermedad nivel de estreacutes nota final de la asignatura etc Todo aquello que puedas medir y listar

es una variable

Las observaciones son las distintas mediciones de las variables Pueden ser personas

animales insectos etc En general individuos O tambieacuten casos situaciones muestras Al final

para resumirlo observaciones de la realidad

Cuantas maacutes observaciones maacutes rica seraacute tu base de datos Maacutes grande seraacute Y maacutes informacioacuten

tendraacutes

En la praacutectica el nuacutemero de observaciones o el nuacutemero de individuos de una tabla de datos se

simbolizan con la letra n pequentildea

10

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

La clasificacioacuten de las variables

Clasificar las variables es muy uacutetil numeacutericas categoacutericas y ordinales

Variables numeacutericas de escala

Expresan cantidad y tienen unidades densidad (kgm3) temperatura (ordmC) peso (kg) longitud (m)

edad (antildeos) etc

A Numeacutericas continuas tienen decimales Como el peso la longitud o la densidad

B Numeacutericas discretas no tienen decimales Como la edad o el sueldo en miles de euros

Variables categoacutericas

Son etiquetas nominales y expresan grupos o nombres El paiacutes de procedencia geacutenero fumador

nombre del instituto

A Dicotoacutemicas identifican 2 grupos Fumador o NO fumador masculino y femenino alto y

bajo grande pequentildeo etc

B Politoacutemicas expresan muchos grupos Paiacutes de procedencia nombres de universidades

carrera estudiada

Variables Ordinales

Son un tipo de variables categoacutericas con un sentido de escala calidad del servicio puede ser malo

regular bueno muy bueno O la importancia de la enfermedad puede ser leve sin riesgo grave

muy grave

11

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

iquestCoacutemo puedo interpretar los datos

El Anaacutelisis de Datos tiene dos herramientas muy claras La exploracioacuten y el anaacutelisis

Y para miacute la exploracioacuten tiene un sentido muy muy importante

En pocas palabras explorar significa traducir tu tabla de datos en algo que se entienda En algo

visual como graacuteficos o en caracteriacutesticas sencillas de entender

12

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es

interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y

hablar el mismo idioma

Graacuteficos y caracteriacutesticas

El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas

numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google

translator Las herramientas de ED te ayudan a transformar tu tabla de datos en

Graacuteficos para poder visualizar filas y filas de tu tabla de datos

Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias

Tablas de frecuencias para contar las observaciones de cada grupo o intervalo

La distribucioacuten

Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en

forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena

una variable numeacuterica

Las dos caracteriacutesticas de una

distribucioacuten son

La Centralidad es el valor maacutes

ceacutentrico o doacutende se concentran

los valores La media y la

mediana miden esta

caracteriacutestica

La dispersioacuten es el ancho de

una distribucioacuten La desviacioacuten

estaacutendar y la varianza

cuantifican la dispersioacuten

13

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Las relaciones entre variables

Relacionar variables numeacutericas es una buena praxis El

objetivo es ver a simple vista si dos variables numeacutericas se

pueden relacionar entre siacute

Se utiliza el famoso scatterplot o diagrama de dispersioacuten

Son los valores de 2 variables en el plano 2D en forma de

puntos Para ver posibles relaciones entre ellas

Las tablas de contingencia

El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de

variables categoacutericas utilizaraacutes la tabla de contingencias

Es una tabla resumen

Contaraacutes las observaciones de

cada grupo La frecuencia es el

nuacutemero de observaciones de

cada caso

Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)

Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2

Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde

te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos

Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas

graacuteficas maacutes interesantes iexclLetrsquos go

14

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DE LA EXPLORACIOacuteN

La herramientas graacuteficas indispensables explicadas

caso por caso

15

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea de la Exploracioacuten

Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la

informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras

En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y

hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz

Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder

resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar

Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos

- Cuando quieres explorar una uacutenica variable numeacuterica

- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica

- Cuando quieres explorar 2 o maacutes variable numeacutericas

- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica

- Cuando quieres explorar variables categoacutericas

Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro

Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas

entender queacute significan

iquestEmpezamos

16

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

iquestCoacutemo es la distribucioacuten de mi variable numeacuterica

Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las

edades de estos trabajadores

Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute

envejecida o no

En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten

17

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de

los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir

Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad

boxplot + stripcharthellip

Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o

raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10

cm iexclSe va de madre Es una altura rara o anoacutemala

Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un

poco maacutes

Resumen numeacuterico

Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las

principales son

o Valor central media y mediana

o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)

o Intervalo de confianza para la media

o Rangos valor maacuteximo y miacutenimo cuartiles

Graacuteficos de la distribucioacuten

Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son

o Histograma e histograma de densidad visualiza la forma de la distribucioacuten

o Boxplot visualiza los rangos y los valores anoacutemalos

o qq-plot visualiza si la distribucioacuten es normal o no

o Stripchart con el boxplot puntos + boxplot

18

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta

te quedaraacute maacutes grabado los graacuteficos que estoy nombrando

Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el

sonido del viacutedeo Fue una de los primeros que grabeacute jejeje

BOXPLOT +

HISTOGRAMA

HISTOGRAMA

DENSIDAD QQPLOT BOXPLOT +

STRIPCHART HISTOGRAM

A

19

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

iquestQueacute diferencias observas entre grupos de tu variable numeacuterica

Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos

que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la

segunda mitad del antildeo (de Julio a Diciembre)

Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del

antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)

20

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una

variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los

habitantes es diferente o no en funcioacuten de los paiacuteses

El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de

dos graacuteficos

Boxplot y stripchart por grupos

Histograma de densidad por grupos

Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que

indique el grupo puede ser interesante en estos casos

Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que

estaacuten al lado del boxplot

HISTOGRAMA DE

DENSIDAD POR

GRUPOS

BOXPLOT +

STRIPCHART POR

GRUPOS

21

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

iquestQueacute relacioacuten tienen las variables entre siacute

Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del

coche estaacute relacionado con el consumo de combustible

Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o

si no tienen nada que ver

22

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo

que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo

El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa

Esta herramienta se utiliza con 2 variables numeacutericas

Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas

mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten

Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de

relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar

en forma de matriz los valores de la correlacioacuten por parejas de variables

Diagrama de dispersioacuten o scatterplot

Matrixplot

Diagrama de correlacioacuten

Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten

Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 2: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

3

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEN QUEacute CONSISTE ESTA GUIacuteA 2

PLANTILLA 1 ndash EL CAMINO A SEGUIR 5

ETAPA 1 ndash EL PROBLEMA 6

ETAPA 2 ndash LA RECOLECCIOacuteN 6

ETAPA 3 ndash LA LIMPIEZA 6

ETAPA 4 ndash LA EXPLORACIOacuteN 7

ETAPA 5 ndash EL ANAacuteLISIS 7

ETAPA 6 ndash LA CONCLUSIOacuteN 7

PLANTILLA 2 ndash LA MATERIA PRIMA 8

LOS ELEMENTOS DE UNA TABLA DE DATOS 9

LA CLASIFICACIOacuteN DE LAS VARIABLES 10

Variables numeacutericas de escala 10

Variables categoacutericas 10

Variables Ordinales 10

PLANTILLA 3 ndash LA EXPLORACIOacuteN 11

GRAacuteFICOS Y CARACTERIacuteSTICAS 12

LA DISTRIBUCIOacuteN 12

LAS RELACIONES ENTRE VARIABLES 13

LAS TABLAS DE CONTINGENCIA 13

LA GUIacuteA DE LA EXPLORACIOacuteN 14

iquestEN QUEacute CONSISTE LA GUIacuteA DE LA EXPLORACIOacuteN 15

CASO 1 ndash 1 VARIABLE NUMEacuteRICA 16

Resumen numeacuterico 17

Graacuteficos de la distribucioacuten 17

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE CATEGOacuteRICA 19

Boxplot 20

Histograma de densidad 20

CASO 3 ndash 2 O MAacuteS VARIABLES NUMEacuteRICAS 21

Diagrama de dispersioacuten o scatterplot 22

Matrixplot 22

Diagrama de correlacioacuten 22

Diagrama hiacutebrido 22

CASO 4 ndash 2 O MAacuteS VARIABLES NUMEacuteRICAS + 1 CATEGOacuteRICA 24

CASO 5 ndash VARIABLES CATEGOacuteRICAS 26

Tablas de contingencia 27

Balloon plot 27

Diagrama de barras 27

Diagrama de sectores 27

PLANTILLA 4 ndash EL ANAacuteLISIS 28

ESTADIacuteSTICA INFERENCIAL 29

CONTRASTE DE HIPOacuteTESIS 29

La Ficha del Contraste de Hipoacutetesis 31

2 TIPOS DE TEST ESTADIacuteSTICOS 34

EL MAPA MENTAL DEL ANAacuteLISIS 34

LA GUIacuteA DEL ANAacuteLISIS 36

iquestEN QUEacute CONSISTE LA GUIacuteA DEL ANAacuteLISIS 37

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO 39

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO 41

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS PROPORCIONES 42

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA TABLA DE CONTINGENCIAS 44

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES NUMEacuteRICAS 46

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES 48

4

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE PRUEBAS PARAMEacuteTRICAS 50

PLANTILLA 5 ndash EL SOFTWARE 52

iquestQUEacute SOFTWARE UTILIZO 53

iquestCOacuteMO UTILIZO EL SOFTWARE 54

iquestCOacuteMO APLICAR TODO ESTO EN TU BASE DE DATOS 55

5

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 1 ndash EL CAMINO A SEGUIR

iquestCuaacuteles son las etapas de un proceso completo de Anaacutelisis de Datos

Tener la visioacuten global de un proceso completo de Anaacutelisis de Datos es fundamental Y quiero que lo

veas como una transformacioacuten de informacioacuten

Es decir partes del estado inicial plantear el problema y los objetivos

Y pasas un estado final listas conclusiones basadas en datos reales para poder resolver el

problema planteado en la etapa inicial

6

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 1 ndash EL CAMINO A SEGUIR

Te muestro las 6 etapas de un proceso global de anaacutelisis de datos des del punto de vista de la

transformacioacuten de los datos

Etapa 1 ndash El Problema

Todo nace de un problema de una necesidad real Tu estudio tu proyecto parte de esta premisa

Entender mejor la realidad y solucionar el problema que te preocupa Este es tu objetivo como

Analista de Datos

En esta etapa definiraacutes el foco del estudio

Es decir queacute problema quieres abordar y definiraacutes el objetivo del estudio

Etapa 2 ndash La Recoleccioacuten

Es el disentildeo de un meacutetodo de recoleccioacuten de informacioacuten Maacutes teacutecnicamente es un proceso de

experimentacioacuten

Puede ser una encuesta pruebas en laboratorios con pacientes nutrirse de datos de marketing en

redes sociales etc

En definitiva es un plan de observacioacuten de la realidad para poder obtener DATOS

Etapa 3 ndash La Limpieza

Los DATOS son observaciones de la realidad y es un metal precioso en bruto Es necesario pulirlo

y encontrar lo maacutes apreciado

En esta etapa te encargaraacutes de homogeneizar los datos en cuanto a formato deshacer

observaciones que no te interesan y almacenar las maacutes uacutetiles

7

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 1 ndash EL CAMINO A SEGUIR

Etapa 4 ndash La Exploracioacuten

Los DATOS se visualizan minuciosamente para intuir las pistas maacutes relevantes que se esconden

entre nuacutemeros y letras Es la llamada exploracioacuten En ella utilizaraacutes la estadiacutestica descriptiva

(ED)

Esta rama de la estadiacutestica se encarga de traducir los DATOS a graacuteficos y caracteriacutesticas

sencillamente entendibles para nosotros De esta forma puedes interpretarlos de manera eficaz y

raacutepida

Etapa 5 ndash El Anaacutelisis

Es el punto que quizaacute te esteacute preocupando Es momento de responder a las preguntas como

investigador con la ayuda de evidencias reales Aquiacute entra en juego el conocimiento de teacutecnicas

estadiacutesticas y de tu propia creatividad para combinarlas y extraer las conclusiones que te

interesan

La famosa estadiacutestica inferencial (EI) es la rama por excelencia de esta etapa Seraacute tu mejor

aliada Se encarga de extraer conclusiones generales a partir de observaciones de un pequentildeo

conjunto de la realidad la muestra

En otras palabras proporciona herramientas para encontrar conclusiones de un conjunto grande

(poblacioacuten) con la informacioacuten de una pequentildea parte de este conjunto (muestra) El contraste de

hipoacutetesis es la herramienta maacutes famosa de esta etapa Pero existen otras teacutecnicas como la

prediccioacuten la clasificacioacuten o los meacutetodos de causa-efecto entre otros

Etapa 6 ndash La Conclusioacuten

Interpretaraacutes los resultados del anaacutelisis y listaraacutes las conclusiones En definitiva la informacioacuten

maacutes valiosa de tus DATOS Estaraacutes mucho maacutes cerca de solucionar el problema que habraacutes

planteado en la etapa 1

8

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

iquestQueacute es una tabla de datos y coacutemo estaacute ordenada

El Anaacutelisis de Datos se alimenta de Datos Es de cajoacuten Entender que los Datos son en realidad

tablas o matrices es una verdadera revelacioacuten

Entender tambieacuten que las variables son las caracteriacutesticas que mides de la realidad y se situacutean en

columnas es otra clave

En esta plantilla veraacutes

- Coacutemo es una tabla de datos

- Queacute son las variables y las observaciones

- Queacute tipo de variables son las maacutes comunes en la praacutectica

9

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

Tu base de datos es la puerta que comunica con el mundo real Tambieacuten puedes imaginarla como

la materia prima

Un proyecto de anaacutelisis de datos es un proceso de transformacioacuten de DATOS Algo asiacute como

empezar con una simple tabla y llegar a obtener informacioacuten uacutetil De DATOS a conclusiones

cristalinas que resolveraacuten gran parte de tus inquietudes

Los elementos de una tabla de datos

El punto de partida de un buen anaacutelisis

son tus DATOS limpios en forma de

tabla Vale pero iquestqueacute es una base de

datos De hecho ya te lo he definido

Es una tabla con filas y columnas Como

una matriz Y cada celda contiene un

coacutedigo alfanumeacuterico

Las filas son observaciones de

la realidad

Las columnas son variables

Las variables son caracteriacutesticas

Pueden ser longitud temperatura

densidad paiacutes de procedencia tipo de tratamiento calidad del tratamiento peso tipo de

enfermedad nivel de estreacutes nota final de la asignatura etc Todo aquello que puedas medir y listar

es una variable

Las observaciones son las distintas mediciones de las variables Pueden ser personas

animales insectos etc En general individuos O tambieacuten casos situaciones muestras Al final

para resumirlo observaciones de la realidad

Cuantas maacutes observaciones maacutes rica seraacute tu base de datos Maacutes grande seraacute Y maacutes informacioacuten

tendraacutes

En la praacutectica el nuacutemero de observaciones o el nuacutemero de individuos de una tabla de datos se

simbolizan con la letra n pequentildea

10

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

La clasificacioacuten de las variables

Clasificar las variables es muy uacutetil numeacutericas categoacutericas y ordinales

Variables numeacutericas de escala

Expresan cantidad y tienen unidades densidad (kgm3) temperatura (ordmC) peso (kg) longitud (m)

edad (antildeos) etc

A Numeacutericas continuas tienen decimales Como el peso la longitud o la densidad

B Numeacutericas discretas no tienen decimales Como la edad o el sueldo en miles de euros

Variables categoacutericas

Son etiquetas nominales y expresan grupos o nombres El paiacutes de procedencia geacutenero fumador

nombre del instituto

A Dicotoacutemicas identifican 2 grupos Fumador o NO fumador masculino y femenino alto y

bajo grande pequentildeo etc

B Politoacutemicas expresan muchos grupos Paiacutes de procedencia nombres de universidades

carrera estudiada

Variables Ordinales

Son un tipo de variables categoacutericas con un sentido de escala calidad del servicio puede ser malo

regular bueno muy bueno O la importancia de la enfermedad puede ser leve sin riesgo grave

muy grave

11

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

iquestCoacutemo puedo interpretar los datos

El Anaacutelisis de Datos tiene dos herramientas muy claras La exploracioacuten y el anaacutelisis

Y para miacute la exploracioacuten tiene un sentido muy muy importante

En pocas palabras explorar significa traducir tu tabla de datos en algo que se entienda En algo

visual como graacuteficos o en caracteriacutesticas sencillas de entender

12

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es

interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y

hablar el mismo idioma

Graacuteficos y caracteriacutesticas

El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas

numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google

translator Las herramientas de ED te ayudan a transformar tu tabla de datos en

Graacuteficos para poder visualizar filas y filas de tu tabla de datos

Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias

Tablas de frecuencias para contar las observaciones de cada grupo o intervalo

La distribucioacuten

Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en

forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena

una variable numeacuterica

Las dos caracteriacutesticas de una

distribucioacuten son

La Centralidad es el valor maacutes

ceacutentrico o doacutende se concentran

los valores La media y la

mediana miden esta

caracteriacutestica

La dispersioacuten es el ancho de

una distribucioacuten La desviacioacuten

estaacutendar y la varianza

cuantifican la dispersioacuten

13

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Las relaciones entre variables

Relacionar variables numeacutericas es una buena praxis El

objetivo es ver a simple vista si dos variables numeacutericas se

pueden relacionar entre siacute

Se utiliza el famoso scatterplot o diagrama de dispersioacuten

Son los valores de 2 variables en el plano 2D en forma de

puntos Para ver posibles relaciones entre ellas

Las tablas de contingencia

El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de

variables categoacutericas utilizaraacutes la tabla de contingencias

Es una tabla resumen

Contaraacutes las observaciones de

cada grupo La frecuencia es el

nuacutemero de observaciones de

cada caso

Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)

Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2

Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde

te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos

Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas

graacuteficas maacutes interesantes iexclLetrsquos go

14

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DE LA EXPLORACIOacuteN

La herramientas graacuteficas indispensables explicadas

caso por caso

15

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea de la Exploracioacuten

Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la

informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras

En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y

hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz

Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder

resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar

Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos

- Cuando quieres explorar una uacutenica variable numeacuterica

- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica

- Cuando quieres explorar 2 o maacutes variable numeacutericas

- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica

- Cuando quieres explorar variables categoacutericas

Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro

Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas

entender queacute significan

iquestEmpezamos

16

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

iquestCoacutemo es la distribucioacuten de mi variable numeacuterica

Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las

edades de estos trabajadores

Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute

envejecida o no

En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten

17

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de

los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir

Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad

boxplot + stripcharthellip

Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o

raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10

cm iexclSe va de madre Es una altura rara o anoacutemala

Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un

poco maacutes

Resumen numeacuterico

Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las

principales son

o Valor central media y mediana

o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)

o Intervalo de confianza para la media

o Rangos valor maacuteximo y miacutenimo cuartiles

Graacuteficos de la distribucioacuten

Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son

o Histograma e histograma de densidad visualiza la forma de la distribucioacuten

o Boxplot visualiza los rangos y los valores anoacutemalos

o qq-plot visualiza si la distribucioacuten es normal o no

o Stripchart con el boxplot puntos + boxplot

18

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta

te quedaraacute maacutes grabado los graacuteficos que estoy nombrando

Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el

sonido del viacutedeo Fue una de los primeros que grabeacute jejeje

BOXPLOT +

HISTOGRAMA

HISTOGRAMA

DENSIDAD QQPLOT BOXPLOT +

STRIPCHART HISTOGRAM

A

19

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

iquestQueacute diferencias observas entre grupos de tu variable numeacuterica

Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos

que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la

segunda mitad del antildeo (de Julio a Diciembre)

Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del

antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)

20

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una

variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los

habitantes es diferente o no en funcioacuten de los paiacuteses

El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de

dos graacuteficos

Boxplot y stripchart por grupos

Histograma de densidad por grupos

Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que

indique el grupo puede ser interesante en estos casos

Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que

estaacuten al lado del boxplot

HISTOGRAMA DE

DENSIDAD POR

GRUPOS

BOXPLOT +

STRIPCHART POR

GRUPOS

21

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

iquestQueacute relacioacuten tienen las variables entre siacute

Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del

coche estaacute relacionado con el consumo de combustible

Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o

si no tienen nada que ver

22

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo

que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo

El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa

Esta herramienta se utiliza con 2 variables numeacutericas

Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas

mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten

Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de

relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar

en forma de matriz los valores de la correlacioacuten por parejas de variables

Diagrama de dispersioacuten o scatterplot

Matrixplot

Diagrama de correlacioacuten

Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten

Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 3: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

4

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE PRUEBAS PARAMEacuteTRICAS 50

PLANTILLA 5 ndash EL SOFTWARE 52

iquestQUEacute SOFTWARE UTILIZO 53

iquestCOacuteMO UTILIZO EL SOFTWARE 54

iquestCOacuteMO APLICAR TODO ESTO EN TU BASE DE DATOS 55

5

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 1 ndash EL CAMINO A SEGUIR

iquestCuaacuteles son las etapas de un proceso completo de Anaacutelisis de Datos

Tener la visioacuten global de un proceso completo de Anaacutelisis de Datos es fundamental Y quiero que lo

veas como una transformacioacuten de informacioacuten

Es decir partes del estado inicial plantear el problema y los objetivos

Y pasas un estado final listas conclusiones basadas en datos reales para poder resolver el

problema planteado en la etapa inicial

6

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 1 ndash EL CAMINO A SEGUIR

Te muestro las 6 etapas de un proceso global de anaacutelisis de datos des del punto de vista de la

transformacioacuten de los datos

Etapa 1 ndash El Problema

Todo nace de un problema de una necesidad real Tu estudio tu proyecto parte de esta premisa

Entender mejor la realidad y solucionar el problema que te preocupa Este es tu objetivo como

Analista de Datos

En esta etapa definiraacutes el foco del estudio

Es decir queacute problema quieres abordar y definiraacutes el objetivo del estudio

Etapa 2 ndash La Recoleccioacuten

Es el disentildeo de un meacutetodo de recoleccioacuten de informacioacuten Maacutes teacutecnicamente es un proceso de

experimentacioacuten

Puede ser una encuesta pruebas en laboratorios con pacientes nutrirse de datos de marketing en

redes sociales etc

En definitiva es un plan de observacioacuten de la realidad para poder obtener DATOS

Etapa 3 ndash La Limpieza

Los DATOS son observaciones de la realidad y es un metal precioso en bruto Es necesario pulirlo

y encontrar lo maacutes apreciado

En esta etapa te encargaraacutes de homogeneizar los datos en cuanto a formato deshacer

observaciones que no te interesan y almacenar las maacutes uacutetiles

7

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 1 ndash EL CAMINO A SEGUIR

Etapa 4 ndash La Exploracioacuten

Los DATOS se visualizan minuciosamente para intuir las pistas maacutes relevantes que se esconden

entre nuacutemeros y letras Es la llamada exploracioacuten En ella utilizaraacutes la estadiacutestica descriptiva

(ED)

Esta rama de la estadiacutestica se encarga de traducir los DATOS a graacuteficos y caracteriacutesticas

sencillamente entendibles para nosotros De esta forma puedes interpretarlos de manera eficaz y

raacutepida

Etapa 5 ndash El Anaacutelisis

Es el punto que quizaacute te esteacute preocupando Es momento de responder a las preguntas como

investigador con la ayuda de evidencias reales Aquiacute entra en juego el conocimiento de teacutecnicas

estadiacutesticas y de tu propia creatividad para combinarlas y extraer las conclusiones que te

interesan

La famosa estadiacutestica inferencial (EI) es la rama por excelencia de esta etapa Seraacute tu mejor

aliada Se encarga de extraer conclusiones generales a partir de observaciones de un pequentildeo

conjunto de la realidad la muestra

En otras palabras proporciona herramientas para encontrar conclusiones de un conjunto grande

(poblacioacuten) con la informacioacuten de una pequentildea parte de este conjunto (muestra) El contraste de

hipoacutetesis es la herramienta maacutes famosa de esta etapa Pero existen otras teacutecnicas como la

prediccioacuten la clasificacioacuten o los meacutetodos de causa-efecto entre otros

Etapa 6 ndash La Conclusioacuten

Interpretaraacutes los resultados del anaacutelisis y listaraacutes las conclusiones En definitiva la informacioacuten

maacutes valiosa de tus DATOS Estaraacutes mucho maacutes cerca de solucionar el problema que habraacutes

planteado en la etapa 1

8

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

iquestQueacute es una tabla de datos y coacutemo estaacute ordenada

El Anaacutelisis de Datos se alimenta de Datos Es de cajoacuten Entender que los Datos son en realidad

tablas o matrices es una verdadera revelacioacuten

Entender tambieacuten que las variables son las caracteriacutesticas que mides de la realidad y se situacutean en

columnas es otra clave

En esta plantilla veraacutes

- Coacutemo es una tabla de datos

- Queacute son las variables y las observaciones

- Queacute tipo de variables son las maacutes comunes en la praacutectica

9

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

Tu base de datos es la puerta que comunica con el mundo real Tambieacuten puedes imaginarla como

la materia prima

Un proyecto de anaacutelisis de datos es un proceso de transformacioacuten de DATOS Algo asiacute como

empezar con una simple tabla y llegar a obtener informacioacuten uacutetil De DATOS a conclusiones

cristalinas que resolveraacuten gran parte de tus inquietudes

Los elementos de una tabla de datos

El punto de partida de un buen anaacutelisis

son tus DATOS limpios en forma de

tabla Vale pero iquestqueacute es una base de

datos De hecho ya te lo he definido

Es una tabla con filas y columnas Como

una matriz Y cada celda contiene un

coacutedigo alfanumeacuterico

Las filas son observaciones de

la realidad

Las columnas son variables

Las variables son caracteriacutesticas

Pueden ser longitud temperatura

densidad paiacutes de procedencia tipo de tratamiento calidad del tratamiento peso tipo de

enfermedad nivel de estreacutes nota final de la asignatura etc Todo aquello que puedas medir y listar

es una variable

Las observaciones son las distintas mediciones de las variables Pueden ser personas

animales insectos etc En general individuos O tambieacuten casos situaciones muestras Al final

para resumirlo observaciones de la realidad

Cuantas maacutes observaciones maacutes rica seraacute tu base de datos Maacutes grande seraacute Y maacutes informacioacuten

tendraacutes

En la praacutectica el nuacutemero de observaciones o el nuacutemero de individuos de una tabla de datos se

simbolizan con la letra n pequentildea

10

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

La clasificacioacuten de las variables

Clasificar las variables es muy uacutetil numeacutericas categoacutericas y ordinales

Variables numeacutericas de escala

Expresan cantidad y tienen unidades densidad (kgm3) temperatura (ordmC) peso (kg) longitud (m)

edad (antildeos) etc

A Numeacutericas continuas tienen decimales Como el peso la longitud o la densidad

B Numeacutericas discretas no tienen decimales Como la edad o el sueldo en miles de euros

Variables categoacutericas

Son etiquetas nominales y expresan grupos o nombres El paiacutes de procedencia geacutenero fumador

nombre del instituto

A Dicotoacutemicas identifican 2 grupos Fumador o NO fumador masculino y femenino alto y

bajo grande pequentildeo etc

B Politoacutemicas expresan muchos grupos Paiacutes de procedencia nombres de universidades

carrera estudiada

Variables Ordinales

Son un tipo de variables categoacutericas con un sentido de escala calidad del servicio puede ser malo

regular bueno muy bueno O la importancia de la enfermedad puede ser leve sin riesgo grave

muy grave

11

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

iquestCoacutemo puedo interpretar los datos

El Anaacutelisis de Datos tiene dos herramientas muy claras La exploracioacuten y el anaacutelisis

Y para miacute la exploracioacuten tiene un sentido muy muy importante

En pocas palabras explorar significa traducir tu tabla de datos en algo que se entienda En algo

visual como graacuteficos o en caracteriacutesticas sencillas de entender

12

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es

interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y

hablar el mismo idioma

Graacuteficos y caracteriacutesticas

El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas

numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google

translator Las herramientas de ED te ayudan a transformar tu tabla de datos en

Graacuteficos para poder visualizar filas y filas de tu tabla de datos

Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias

Tablas de frecuencias para contar las observaciones de cada grupo o intervalo

La distribucioacuten

Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en

forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena

una variable numeacuterica

Las dos caracteriacutesticas de una

distribucioacuten son

La Centralidad es el valor maacutes

ceacutentrico o doacutende se concentran

los valores La media y la

mediana miden esta

caracteriacutestica

La dispersioacuten es el ancho de

una distribucioacuten La desviacioacuten

estaacutendar y la varianza

cuantifican la dispersioacuten

13

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Las relaciones entre variables

Relacionar variables numeacutericas es una buena praxis El

objetivo es ver a simple vista si dos variables numeacutericas se

pueden relacionar entre siacute

Se utiliza el famoso scatterplot o diagrama de dispersioacuten

Son los valores de 2 variables en el plano 2D en forma de

puntos Para ver posibles relaciones entre ellas

Las tablas de contingencia

El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de

variables categoacutericas utilizaraacutes la tabla de contingencias

Es una tabla resumen

Contaraacutes las observaciones de

cada grupo La frecuencia es el

nuacutemero de observaciones de

cada caso

Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)

Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2

Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde

te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos

Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas

graacuteficas maacutes interesantes iexclLetrsquos go

14

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DE LA EXPLORACIOacuteN

La herramientas graacuteficas indispensables explicadas

caso por caso

15

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea de la Exploracioacuten

Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la

informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras

En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y

hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz

Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder

resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar

Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos

- Cuando quieres explorar una uacutenica variable numeacuterica

- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica

- Cuando quieres explorar 2 o maacutes variable numeacutericas

- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica

- Cuando quieres explorar variables categoacutericas

Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro

Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas

entender queacute significan

iquestEmpezamos

16

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

iquestCoacutemo es la distribucioacuten de mi variable numeacuterica

Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las

edades de estos trabajadores

Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute

envejecida o no

En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten

17

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de

los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir

Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad

boxplot + stripcharthellip

Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o

raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10

cm iexclSe va de madre Es una altura rara o anoacutemala

Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un

poco maacutes

Resumen numeacuterico

Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las

principales son

o Valor central media y mediana

o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)

o Intervalo de confianza para la media

o Rangos valor maacuteximo y miacutenimo cuartiles

Graacuteficos de la distribucioacuten

Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son

o Histograma e histograma de densidad visualiza la forma de la distribucioacuten

o Boxplot visualiza los rangos y los valores anoacutemalos

o qq-plot visualiza si la distribucioacuten es normal o no

o Stripchart con el boxplot puntos + boxplot

18

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta

te quedaraacute maacutes grabado los graacuteficos que estoy nombrando

Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el

sonido del viacutedeo Fue una de los primeros que grabeacute jejeje

BOXPLOT +

HISTOGRAMA

HISTOGRAMA

DENSIDAD QQPLOT BOXPLOT +

STRIPCHART HISTOGRAM

A

19

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

iquestQueacute diferencias observas entre grupos de tu variable numeacuterica

Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos

que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la

segunda mitad del antildeo (de Julio a Diciembre)

Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del

antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)

20

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una

variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los

habitantes es diferente o no en funcioacuten de los paiacuteses

El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de

dos graacuteficos

Boxplot y stripchart por grupos

Histograma de densidad por grupos

Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que

indique el grupo puede ser interesante en estos casos

Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que

estaacuten al lado del boxplot

HISTOGRAMA DE

DENSIDAD POR

GRUPOS

BOXPLOT +

STRIPCHART POR

GRUPOS

21

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

iquestQueacute relacioacuten tienen las variables entre siacute

Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del

coche estaacute relacionado con el consumo de combustible

Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o

si no tienen nada que ver

22

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo

que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo

El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa

Esta herramienta se utiliza con 2 variables numeacutericas

Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas

mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten

Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de

relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar

en forma de matriz los valores de la correlacioacuten por parejas de variables

Diagrama de dispersioacuten o scatterplot

Matrixplot

Diagrama de correlacioacuten

Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten

Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 4: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

5

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 1 ndash EL CAMINO A SEGUIR

iquestCuaacuteles son las etapas de un proceso completo de Anaacutelisis de Datos

Tener la visioacuten global de un proceso completo de Anaacutelisis de Datos es fundamental Y quiero que lo

veas como una transformacioacuten de informacioacuten

Es decir partes del estado inicial plantear el problema y los objetivos

Y pasas un estado final listas conclusiones basadas en datos reales para poder resolver el

problema planteado en la etapa inicial

6

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 1 ndash EL CAMINO A SEGUIR

Te muestro las 6 etapas de un proceso global de anaacutelisis de datos des del punto de vista de la

transformacioacuten de los datos

Etapa 1 ndash El Problema

Todo nace de un problema de una necesidad real Tu estudio tu proyecto parte de esta premisa

Entender mejor la realidad y solucionar el problema que te preocupa Este es tu objetivo como

Analista de Datos

En esta etapa definiraacutes el foco del estudio

Es decir queacute problema quieres abordar y definiraacutes el objetivo del estudio

Etapa 2 ndash La Recoleccioacuten

Es el disentildeo de un meacutetodo de recoleccioacuten de informacioacuten Maacutes teacutecnicamente es un proceso de

experimentacioacuten

Puede ser una encuesta pruebas en laboratorios con pacientes nutrirse de datos de marketing en

redes sociales etc

En definitiva es un plan de observacioacuten de la realidad para poder obtener DATOS

Etapa 3 ndash La Limpieza

Los DATOS son observaciones de la realidad y es un metal precioso en bruto Es necesario pulirlo

y encontrar lo maacutes apreciado

En esta etapa te encargaraacutes de homogeneizar los datos en cuanto a formato deshacer

observaciones que no te interesan y almacenar las maacutes uacutetiles

7

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 1 ndash EL CAMINO A SEGUIR

Etapa 4 ndash La Exploracioacuten

Los DATOS se visualizan minuciosamente para intuir las pistas maacutes relevantes que se esconden

entre nuacutemeros y letras Es la llamada exploracioacuten En ella utilizaraacutes la estadiacutestica descriptiva

(ED)

Esta rama de la estadiacutestica se encarga de traducir los DATOS a graacuteficos y caracteriacutesticas

sencillamente entendibles para nosotros De esta forma puedes interpretarlos de manera eficaz y

raacutepida

Etapa 5 ndash El Anaacutelisis

Es el punto que quizaacute te esteacute preocupando Es momento de responder a las preguntas como

investigador con la ayuda de evidencias reales Aquiacute entra en juego el conocimiento de teacutecnicas

estadiacutesticas y de tu propia creatividad para combinarlas y extraer las conclusiones que te

interesan

La famosa estadiacutestica inferencial (EI) es la rama por excelencia de esta etapa Seraacute tu mejor

aliada Se encarga de extraer conclusiones generales a partir de observaciones de un pequentildeo

conjunto de la realidad la muestra

En otras palabras proporciona herramientas para encontrar conclusiones de un conjunto grande

(poblacioacuten) con la informacioacuten de una pequentildea parte de este conjunto (muestra) El contraste de

hipoacutetesis es la herramienta maacutes famosa de esta etapa Pero existen otras teacutecnicas como la

prediccioacuten la clasificacioacuten o los meacutetodos de causa-efecto entre otros

Etapa 6 ndash La Conclusioacuten

Interpretaraacutes los resultados del anaacutelisis y listaraacutes las conclusiones En definitiva la informacioacuten

maacutes valiosa de tus DATOS Estaraacutes mucho maacutes cerca de solucionar el problema que habraacutes

planteado en la etapa 1

8

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

iquestQueacute es una tabla de datos y coacutemo estaacute ordenada

El Anaacutelisis de Datos se alimenta de Datos Es de cajoacuten Entender que los Datos son en realidad

tablas o matrices es una verdadera revelacioacuten

Entender tambieacuten que las variables son las caracteriacutesticas que mides de la realidad y se situacutean en

columnas es otra clave

En esta plantilla veraacutes

- Coacutemo es una tabla de datos

- Queacute son las variables y las observaciones

- Queacute tipo de variables son las maacutes comunes en la praacutectica

9

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

Tu base de datos es la puerta que comunica con el mundo real Tambieacuten puedes imaginarla como

la materia prima

Un proyecto de anaacutelisis de datos es un proceso de transformacioacuten de DATOS Algo asiacute como

empezar con una simple tabla y llegar a obtener informacioacuten uacutetil De DATOS a conclusiones

cristalinas que resolveraacuten gran parte de tus inquietudes

Los elementos de una tabla de datos

El punto de partida de un buen anaacutelisis

son tus DATOS limpios en forma de

tabla Vale pero iquestqueacute es una base de

datos De hecho ya te lo he definido

Es una tabla con filas y columnas Como

una matriz Y cada celda contiene un

coacutedigo alfanumeacuterico

Las filas son observaciones de

la realidad

Las columnas son variables

Las variables son caracteriacutesticas

Pueden ser longitud temperatura

densidad paiacutes de procedencia tipo de tratamiento calidad del tratamiento peso tipo de

enfermedad nivel de estreacutes nota final de la asignatura etc Todo aquello que puedas medir y listar

es una variable

Las observaciones son las distintas mediciones de las variables Pueden ser personas

animales insectos etc En general individuos O tambieacuten casos situaciones muestras Al final

para resumirlo observaciones de la realidad

Cuantas maacutes observaciones maacutes rica seraacute tu base de datos Maacutes grande seraacute Y maacutes informacioacuten

tendraacutes

En la praacutectica el nuacutemero de observaciones o el nuacutemero de individuos de una tabla de datos se

simbolizan con la letra n pequentildea

10

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

La clasificacioacuten de las variables

Clasificar las variables es muy uacutetil numeacutericas categoacutericas y ordinales

Variables numeacutericas de escala

Expresan cantidad y tienen unidades densidad (kgm3) temperatura (ordmC) peso (kg) longitud (m)

edad (antildeos) etc

A Numeacutericas continuas tienen decimales Como el peso la longitud o la densidad

B Numeacutericas discretas no tienen decimales Como la edad o el sueldo en miles de euros

Variables categoacutericas

Son etiquetas nominales y expresan grupos o nombres El paiacutes de procedencia geacutenero fumador

nombre del instituto

A Dicotoacutemicas identifican 2 grupos Fumador o NO fumador masculino y femenino alto y

bajo grande pequentildeo etc

B Politoacutemicas expresan muchos grupos Paiacutes de procedencia nombres de universidades

carrera estudiada

Variables Ordinales

Son un tipo de variables categoacutericas con un sentido de escala calidad del servicio puede ser malo

regular bueno muy bueno O la importancia de la enfermedad puede ser leve sin riesgo grave

muy grave

11

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

iquestCoacutemo puedo interpretar los datos

El Anaacutelisis de Datos tiene dos herramientas muy claras La exploracioacuten y el anaacutelisis

Y para miacute la exploracioacuten tiene un sentido muy muy importante

En pocas palabras explorar significa traducir tu tabla de datos en algo que se entienda En algo

visual como graacuteficos o en caracteriacutesticas sencillas de entender

12

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es

interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y

hablar el mismo idioma

Graacuteficos y caracteriacutesticas

El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas

numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google

translator Las herramientas de ED te ayudan a transformar tu tabla de datos en

Graacuteficos para poder visualizar filas y filas de tu tabla de datos

Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias

Tablas de frecuencias para contar las observaciones de cada grupo o intervalo

La distribucioacuten

Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en

forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena

una variable numeacuterica

Las dos caracteriacutesticas de una

distribucioacuten son

La Centralidad es el valor maacutes

ceacutentrico o doacutende se concentran

los valores La media y la

mediana miden esta

caracteriacutestica

La dispersioacuten es el ancho de

una distribucioacuten La desviacioacuten

estaacutendar y la varianza

cuantifican la dispersioacuten

13

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Las relaciones entre variables

Relacionar variables numeacutericas es una buena praxis El

objetivo es ver a simple vista si dos variables numeacutericas se

pueden relacionar entre siacute

Se utiliza el famoso scatterplot o diagrama de dispersioacuten

Son los valores de 2 variables en el plano 2D en forma de

puntos Para ver posibles relaciones entre ellas

Las tablas de contingencia

El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de

variables categoacutericas utilizaraacutes la tabla de contingencias

Es una tabla resumen

Contaraacutes las observaciones de

cada grupo La frecuencia es el

nuacutemero de observaciones de

cada caso

Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)

Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2

Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde

te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos

Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas

graacuteficas maacutes interesantes iexclLetrsquos go

14

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DE LA EXPLORACIOacuteN

La herramientas graacuteficas indispensables explicadas

caso por caso

15

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea de la Exploracioacuten

Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la

informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras

En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y

hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz

Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder

resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar

Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos

- Cuando quieres explorar una uacutenica variable numeacuterica

- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica

- Cuando quieres explorar 2 o maacutes variable numeacutericas

- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica

- Cuando quieres explorar variables categoacutericas

Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro

Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas

entender queacute significan

iquestEmpezamos

16

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

iquestCoacutemo es la distribucioacuten de mi variable numeacuterica

Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las

edades de estos trabajadores

Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute

envejecida o no

En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten

17

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de

los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir

Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad

boxplot + stripcharthellip

Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o

raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10

cm iexclSe va de madre Es una altura rara o anoacutemala

Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un

poco maacutes

Resumen numeacuterico

Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las

principales son

o Valor central media y mediana

o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)

o Intervalo de confianza para la media

o Rangos valor maacuteximo y miacutenimo cuartiles

Graacuteficos de la distribucioacuten

Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son

o Histograma e histograma de densidad visualiza la forma de la distribucioacuten

o Boxplot visualiza los rangos y los valores anoacutemalos

o qq-plot visualiza si la distribucioacuten es normal o no

o Stripchart con el boxplot puntos + boxplot

18

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta

te quedaraacute maacutes grabado los graacuteficos que estoy nombrando

Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el

sonido del viacutedeo Fue una de los primeros que grabeacute jejeje

BOXPLOT +

HISTOGRAMA

HISTOGRAMA

DENSIDAD QQPLOT BOXPLOT +

STRIPCHART HISTOGRAM

A

19

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

iquestQueacute diferencias observas entre grupos de tu variable numeacuterica

Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos

que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la

segunda mitad del antildeo (de Julio a Diciembre)

Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del

antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)

20

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una

variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los

habitantes es diferente o no en funcioacuten de los paiacuteses

El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de

dos graacuteficos

Boxplot y stripchart por grupos

Histograma de densidad por grupos

Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que

indique el grupo puede ser interesante en estos casos

Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que

estaacuten al lado del boxplot

HISTOGRAMA DE

DENSIDAD POR

GRUPOS

BOXPLOT +

STRIPCHART POR

GRUPOS

21

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

iquestQueacute relacioacuten tienen las variables entre siacute

Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del

coche estaacute relacionado con el consumo de combustible

Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o

si no tienen nada que ver

22

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo

que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo

El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa

Esta herramienta se utiliza con 2 variables numeacutericas

Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas

mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten

Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de

relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar

en forma de matriz los valores de la correlacioacuten por parejas de variables

Diagrama de dispersioacuten o scatterplot

Matrixplot

Diagrama de correlacioacuten

Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten

Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 5: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

6

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 1 ndash EL CAMINO A SEGUIR

Te muestro las 6 etapas de un proceso global de anaacutelisis de datos des del punto de vista de la

transformacioacuten de los datos

Etapa 1 ndash El Problema

Todo nace de un problema de una necesidad real Tu estudio tu proyecto parte de esta premisa

Entender mejor la realidad y solucionar el problema que te preocupa Este es tu objetivo como

Analista de Datos

En esta etapa definiraacutes el foco del estudio

Es decir queacute problema quieres abordar y definiraacutes el objetivo del estudio

Etapa 2 ndash La Recoleccioacuten

Es el disentildeo de un meacutetodo de recoleccioacuten de informacioacuten Maacutes teacutecnicamente es un proceso de

experimentacioacuten

Puede ser una encuesta pruebas en laboratorios con pacientes nutrirse de datos de marketing en

redes sociales etc

En definitiva es un plan de observacioacuten de la realidad para poder obtener DATOS

Etapa 3 ndash La Limpieza

Los DATOS son observaciones de la realidad y es un metal precioso en bruto Es necesario pulirlo

y encontrar lo maacutes apreciado

En esta etapa te encargaraacutes de homogeneizar los datos en cuanto a formato deshacer

observaciones que no te interesan y almacenar las maacutes uacutetiles

7

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 1 ndash EL CAMINO A SEGUIR

Etapa 4 ndash La Exploracioacuten

Los DATOS se visualizan minuciosamente para intuir las pistas maacutes relevantes que se esconden

entre nuacutemeros y letras Es la llamada exploracioacuten En ella utilizaraacutes la estadiacutestica descriptiva

(ED)

Esta rama de la estadiacutestica se encarga de traducir los DATOS a graacuteficos y caracteriacutesticas

sencillamente entendibles para nosotros De esta forma puedes interpretarlos de manera eficaz y

raacutepida

Etapa 5 ndash El Anaacutelisis

Es el punto que quizaacute te esteacute preocupando Es momento de responder a las preguntas como

investigador con la ayuda de evidencias reales Aquiacute entra en juego el conocimiento de teacutecnicas

estadiacutesticas y de tu propia creatividad para combinarlas y extraer las conclusiones que te

interesan

La famosa estadiacutestica inferencial (EI) es la rama por excelencia de esta etapa Seraacute tu mejor

aliada Se encarga de extraer conclusiones generales a partir de observaciones de un pequentildeo

conjunto de la realidad la muestra

En otras palabras proporciona herramientas para encontrar conclusiones de un conjunto grande

(poblacioacuten) con la informacioacuten de una pequentildea parte de este conjunto (muestra) El contraste de

hipoacutetesis es la herramienta maacutes famosa de esta etapa Pero existen otras teacutecnicas como la

prediccioacuten la clasificacioacuten o los meacutetodos de causa-efecto entre otros

Etapa 6 ndash La Conclusioacuten

Interpretaraacutes los resultados del anaacutelisis y listaraacutes las conclusiones En definitiva la informacioacuten

maacutes valiosa de tus DATOS Estaraacutes mucho maacutes cerca de solucionar el problema que habraacutes

planteado en la etapa 1

8

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

iquestQueacute es una tabla de datos y coacutemo estaacute ordenada

El Anaacutelisis de Datos se alimenta de Datos Es de cajoacuten Entender que los Datos son en realidad

tablas o matrices es una verdadera revelacioacuten

Entender tambieacuten que las variables son las caracteriacutesticas que mides de la realidad y se situacutean en

columnas es otra clave

En esta plantilla veraacutes

- Coacutemo es una tabla de datos

- Queacute son las variables y las observaciones

- Queacute tipo de variables son las maacutes comunes en la praacutectica

9

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

Tu base de datos es la puerta que comunica con el mundo real Tambieacuten puedes imaginarla como

la materia prima

Un proyecto de anaacutelisis de datos es un proceso de transformacioacuten de DATOS Algo asiacute como

empezar con una simple tabla y llegar a obtener informacioacuten uacutetil De DATOS a conclusiones

cristalinas que resolveraacuten gran parte de tus inquietudes

Los elementos de una tabla de datos

El punto de partida de un buen anaacutelisis

son tus DATOS limpios en forma de

tabla Vale pero iquestqueacute es una base de

datos De hecho ya te lo he definido

Es una tabla con filas y columnas Como

una matriz Y cada celda contiene un

coacutedigo alfanumeacuterico

Las filas son observaciones de

la realidad

Las columnas son variables

Las variables son caracteriacutesticas

Pueden ser longitud temperatura

densidad paiacutes de procedencia tipo de tratamiento calidad del tratamiento peso tipo de

enfermedad nivel de estreacutes nota final de la asignatura etc Todo aquello que puedas medir y listar

es una variable

Las observaciones son las distintas mediciones de las variables Pueden ser personas

animales insectos etc En general individuos O tambieacuten casos situaciones muestras Al final

para resumirlo observaciones de la realidad

Cuantas maacutes observaciones maacutes rica seraacute tu base de datos Maacutes grande seraacute Y maacutes informacioacuten

tendraacutes

En la praacutectica el nuacutemero de observaciones o el nuacutemero de individuos de una tabla de datos se

simbolizan con la letra n pequentildea

10

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

La clasificacioacuten de las variables

Clasificar las variables es muy uacutetil numeacutericas categoacutericas y ordinales

Variables numeacutericas de escala

Expresan cantidad y tienen unidades densidad (kgm3) temperatura (ordmC) peso (kg) longitud (m)

edad (antildeos) etc

A Numeacutericas continuas tienen decimales Como el peso la longitud o la densidad

B Numeacutericas discretas no tienen decimales Como la edad o el sueldo en miles de euros

Variables categoacutericas

Son etiquetas nominales y expresan grupos o nombres El paiacutes de procedencia geacutenero fumador

nombre del instituto

A Dicotoacutemicas identifican 2 grupos Fumador o NO fumador masculino y femenino alto y

bajo grande pequentildeo etc

B Politoacutemicas expresan muchos grupos Paiacutes de procedencia nombres de universidades

carrera estudiada

Variables Ordinales

Son un tipo de variables categoacutericas con un sentido de escala calidad del servicio puede ser malo

regular bueno muy bueno O la importancia de la enfermedad puede ser leve sin riesgo grave

muy grave

11

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

iquestCoacutemo puedo interpretar los datos

El Anaacutelisis de Datos tiene dos herramientas muy claras La exploracioacuten y el anaacutelisis

Y para miacute la exploracioacuten tiene un sentido muy muy importante

En pocas palabras explorar significa traducir tu tabla de datos en algo que se entienda En algo

visual como graacuteficos o en caracteriacutesticas sencillas de entender

12

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es

interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y

hablar el mismo idioma

Graacuteficos y caracteriacutesticas

El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas

numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google

translator Las herramientas de ED te ayudan a transformar tu tabla de datos en

Graacuteficos para poder visualizar filas y filas de tu tabla de datos

Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias

Tablas de frecuencias para contar las observaciones de cada grupo o intervalo

La distribucioacuten

Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en

forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena

una variable numeacuterica

Las dos caracteriacutesticas de una

distribucioacuten son

La Centralidad es el valor maacutes

ceacutentrico o doacutende se concentran

los valores La media y la

mediana miden esta

caracteriacutestica

La dispersioacuten es el ancho de

una distribucioacuten La desviacioacuten

estaacutendar y la varianza

cuantifican la dispersioacuten

13

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Las relaciones entre variables

Relacionar variables numeacutericas es una buena praxis El

objetivo es ver a simple vista si dos variables numeacutericas se

pueden relacionar entre siacute

Se utiliza el famoso scatterplot o diagrama de dispersioacuten

Son los valores de 2 variables en el plano 2D en forma de

puntos Para ver posibles relaciones entre ellas

Las tablas de contingencia

El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de

variables categoacutericas utilizaraacutes la tabla de contingencias

Es una tabla resumen

Contaraacutes las observaciones de

cada grupo La frecuencia es el

nuacutemero de observaciones de

cada caso

Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)

Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2

Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde

te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos

Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas

graacuteficas maacutes interesantes iexclLetrsquos go

14

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DE LA EXPLORACIOacuteN

La herramientas graacuteficas indispensables explicadas

caso por caso

15

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea de la Exploracioacuten

Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la

informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras

En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y

hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz

Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder

resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar

Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos

- Cuando quieres explorar una uacutenica variable numeacuterica

- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica

- Cuando quieres explorar 2 o maacutes variable numeacutericas

- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica

- Cuando quieres explorar variables categoacutericas

Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro

Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas

entender queacute significan

iquestEmpezamos

16

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

iquestCoacutemo es la distribucioacuten de mi variable numeacuterica

Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las

edades de estos trabajadores

Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute

envejecida o no

En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten

17

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de

los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir

Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad

boxplot + stripcharthellip

Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o

raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10

cm iexclSe va de madre Es una altura rara o anoacutemala

Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un

poco maacutes

Resumen numeacuterico

Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las

principales son

o Valor central media y mediana

o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)

o Intervalo de confianza para la media

o Rangos valor maacuteximo y miacutenimo cuartiles

Graacuteficos de la distribucioacuten

Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son

o Histograma e histograma de densidad visualiza la forma de la distribucioacuten

o Boxplot visualiza los rangos y los valores anoacutemalos

o qq-plot visualiza si la distribucioacuten es normal o no

o Stripchart con el boxplot puntos + boxplot

18

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta

te quedaraacute maacutes grabado los graacuteficos que estoy nombrando

Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el

sonido del viacutedeo Fue una de los primeros que grabeacute jejeje

BOXPLOT +

HISTOGRAMA

HISTOGRAMA

DENSIDAD QQPLOT BOXPLOT +

STRIPCHART HISTOGRAM

A

19

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

iquestQueacute diferencias observas entre grupos de tu variable numeacuterica

Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos

que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la

segunda mitad del antildeo (de Julio a Diciembre)

Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del

antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)

20

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una

variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los

habitantes es diferente o no en funcioacuten de los paiacuteses

El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de

dos graacuteficos

Boxplot y stripchart por grupos

Histograma de densidad por grupos

Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que

indique el grupo puede ser interesante en estos casos

Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que

estaacuten al lado del boxplot

HISTOGRAMA DE

DENSIDAD POR

GRUPOS

BOXPLOT +

STRIPCHART POR

GRUPOS

21

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

iquestQueacute relacioacuten tienen las variables entre siacute

Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del

coche estaacute relacionado con el consumo de combustible

Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o

si no tienen nada que ver

22

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo

que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo

El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa

Esta herramienta se utiliza con 2 variables numeacutericas

Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas

mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten

Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de

relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar

en forma de matriz los valores de la correlacioacuten por parejas de variables

Diagrama de dispersioacuten o scatterplot

Matrixplot

Diagrama de correlacioacuten

Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten

Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 6: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

7

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 1 ndash EL CAMINO A SEGUIR

Etapa 4 ndash La Exploracioacuten

Los DATOS se visualizan minuciosamente para intuir las pistas maacutes relevantes que se esconden

entre nuacutemeros y letras Es la llamada exploracioacuten En ella utilizaraacutes la estadiacutestica descriptiva

(ED)

Esta rama de la estadiacutestica se encarga de traducir los DATOS a graacuteficos y caracteriacutesticas

sencillamente entendibles para nosotros De esta forma puedes interpretarlos de manera eficaz y

raacutepida

Etapa 5 ndash El Anaacutelisis

Es el punto que quizaacute te esteacute preocupando Es momento de responder a las preguntas como

investigador con la ayuda de evidencias reales Aquiacute entra en juego el conocimiento de teacutecnicas

estadiacutesticas y de tu propia creatividad para combinarlas y extraer las conclusiones que te

interesan

La famosa estadiacutestica inferencial (EI) es la rama por excelencia de esta etapa Seraacute tu mejor

aliada Se encarga de extraer conclusiones generales a partir de observaciones de un pequentildeo

conjunto de la realidad la muestra

En otras palabras proporciona herramientas para encontrar conclusiones de un conjunto grande

(poblacioacuten) con la informacioacuten de una pequentildea parte de este conjunto (muestra) El contraste de

hipoacutetesis es la herramienta maacutes famosa de esta etapa Pero existen otras teacutecnicas como la

prediccioacuten la clasificacioacuten o los meacutetodos de causa-efecto entre otros

Etapa 6 ndash La Conclusioacuten

Interpretaraacutes los resultados del anaacutelisis y listaraacutes las conclusiones En definitiva la informacioacuten

maacutes valiosa de tus DATOS Estaraacutes mucho maacutes cerca de solucionar el problema que habraacutes

planteado en la etapa 1

8

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

iquestQueacute es una tabla de datos y coacutemo estaacute ordenada

El Anaacutelisis de Datos se alimenta de Datos Es de cajoacuten Entender que los Datos son en realidad

tablas o matrices es una verdadera revelacioacuten

Entender tambieacuten que las variables son las caracteriacutesticas que mides de la realidad y se situacutean en

columnas es otra clave

En esta plantilla veraacutes

- Coacutemo es una tabla de datos

- Queacute son las variables y las observaciones

- Queacute tipo de variables son las maacutes comunes en la praacutectica

9

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

Tu base de datos es la puerta que comunica con el mundo real Tambieacuten puedes imaginarla como

la materia prima

Un proyecto de anaacutelisis de datos es un proceso de transformacioacuten de DATOS Algo asiacute como

empezar con una simple tabla y llegar a obtener informacioacuten uacutetil De DATOS a conclusiones

cristalinas que resolveraacuten gran parte de tus inquietudes

Los elementos de una tabla de datos

El punto de partida de un buen anaacutelisis

son tus DATOS limpios en forma de

tabla Vale pero iquestqueacute es una base de

datos De hecho ya te lo he definido

Es una tabla con filas y columnas Como

una matriz Y cada celda contiene un

coacutedigo alfanumeacuterico

Las filas son observaciones de

la realidad

Las columnas son variables

Las variables son caracteriacutesticas

Pueden ser longitud temperatura

densidad paiacutes de procedencia tipo de tratamiento calidad del tratamiento peso tipo de

enfermedad nivel de estreacutes nota final de la asignatura etc Todo aquello que puedas medir y listar

es una variable

Las observaciones son las distintas mediciones de las variables Pueden ser personas

animales insectos etc En general individuos O tambieacuten casos situaciones muestras Al final

para resumirlo observaciones de la realidad

Cuantas maacutes observaciones maacutes rica seraacute tu base de datos Maacutes grande seraacute Y maacutes informacioacuten

tendraacutes

En la praacutectica el nuacutemero de observaciones o el nuacutemero de individuos de una tabla de datos se

simbolizan con la letra n pequentildea

10

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

La clasificacioacuten de las variables

Clasificar las variables es muy uacutetil numeacutericas categoacutericas y ordinales

Variables numeacutericas de escala

Expresan cantidad y tienen unidades densidad (kgm3) temperatura (ordmC) peso (kg) longitud (m)

edad (antildeos) etc

A Numeacutericas continuas tienen decimales Como el peso la longitud o la densidad

B Numeacutericas discretas no tienen decimales Como la edad o el sueldo en miles de euros

Variables categoacutericas

Son etiquetas nominales y expresan grupos o nombres El paiacutes de procedencia geacutenero fumador

nombre del instituto

A Dicotoacutemicas identifican 2 grupos Fumador o NO fumador masculino y femenino alto y

bajo grande pequentildeo etc

B Politoacutemicas expresan muchos grupos Paiacutes de procedencia nombres de universidades

carrera estudiada

Variables Ordinales

Son un tipo de variables categoacutericas con un sentido de escala calidad del servicio puede ser malo

regular bueno muy bueno O la importancia de la enfermedad puede ser leve sin riesgo grave

muy grave

11

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

iquestCoacutemo puedo interpretar los datos

El Anaacutelisis de Datos tiene dos herramientas muy claras La exploracioacuten y el anaacutelisis

Y para miacute la exploracioacuten tiene un sentido muy muy importante

En pocas palabras explorar significa traducir tu tabla de datos en algo que se entienda En algo

visual como graacuteficos o en caracteriacutesticas sencillas de entender

12

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es

interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y

hablar el mismo idioma

Graacuteficos y caracteriacutesticas

El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas

numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google

translator Las herramientas de ED te ayudan a transformar tu tabla de datos en

Graacuteficos para poder visualizar filas y filas de tu tabla de datos

Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias

Tablas de frecuencias para contar las observaciones de cada grupo o intervalo

La distribucioacuten

Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en

forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena

una variable numeacuterica

Las dos caracteriacutesticas de una

distribucioacuten son

La Centralidad es el valor maacutes

ceacutentrico o doacutende se concentran

los valores La media y la

mediana miden esta

caracteriacutestica

La dispersioacuten es el ancho de

una distribucioacuten La desviacioacuten

estaacutendar y la varianza

cuantifican la dispersioacuten

13

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Las relaciones entre variables

Relacionar variables numeacutericas es una buena praxis El

objetivo es ver a simple vista si dos variables numeacutericas se

pueden relacionar entre siacute

Se utiliza el famoso scatterplot o diagrama de dispersioacuten

Son los valores de 2 variables en el plano 2D en forma de

puntos Para ver posibles relaciones entre ellas

Las tablas de contingencia

El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de

variables categoacutericas utilizaraacutes la tabla de contingencias

Es una tabla resumen

Contaraacutes las observaciones de

cada grupo La frecuencia es el

nuacutemero de observaciones de

cada caso

Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)

Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2

Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde

te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos

Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas

graacuteficas maacutes interesantes iexclLetrsquos go

14

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DE LA EXPLORACIOacuteN

La herramientas graacuteficas indispensables explicadas

caso por caso

15

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea de la Exploracioacuten

Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la

informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras

En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y

hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz

Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder

resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar

Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos

- Cuando quieres explorar una uacutenica variable numeacuterica

- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica

- Cuando quieres explorar 2 o maacutes variable numeacutericas

- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica

- Cuando quieres explorar variables categoacutericas

Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro

Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas

entender queacute significan

iquestEmpezamos

16

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

iquestCoacutemo es la distribucioacuten de mi variable numeacuterica

Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las

edades de estos trabajadores

Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute

envejecida o no

En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten

17

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de

los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir

Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad

boxplot + stripcharthellip

Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o

raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10

cm iexclSe va de madre Es una altura rara o anoacutemala

Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un

poco maacutes

Resumen numeacuterico

Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las

principales son

o Valor central media y mediana

o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)

o Intervalo de confianza para la media

o Rangos valor maacuteximo y miacutenimo cuartiles

Graacuteficos de la distribucioacuten

Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son

o Histograma e histograma de densidad visualiza la forma de la distribucioacuten

o Boxplot visualiza los rangos y los valores anoacutemalos

o qq-plot visualiza si la distribucioacuten es normal o no

o Stripchart con el boxplot puntos + boxplot

18

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta

te quedaraacute maacutes grabado los graacuteficos que estoy nombrando

Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el

sonido del viacutedeo Fue una de los primeros que grabeacute jejeje

BOXPLOT +

HISTOGRAMA

HISTOGRAMA

DENSIDAD QQPLOT BOXPLOT +

STRIPCHART HISTOGRAM

A

19

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

iquestQueacute diferencias observas entre grupos de tu variable numeacuterica

Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos

que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la

segunda mitad del antildeo (de Julio a Diciembre)

Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del

antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)

20

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una

variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los

habitantes es diferente o no en funcioacuten de los paiacuteses

El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de

dos graacuteficos

Boxplot y stripchart por grupos

Histograma de densidad por grupos

Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que

indique el grupo puede ser interesante en estos casos

Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que

estaacuten al lado del boxplot

HISTOGRAMA DE

DENSIDAD POR

GRUPOS

BOXPLOT +

STRIPCHART POR

GRUPOS

21

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

iquestQueacute relacioacuten tienen las variables entre siacute

Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del

coche estaacute relacionado con el consumo de combustible

Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o

si no tienen nada que ver

22

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo

que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo

El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa

Esta herramienta se utiliza con 2 variables numeacutericas

Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas

mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten

Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de

relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar

en forma de matriz los valores de la correlacioacuten por parejas de variables

Diagrama de dispersioacuten o scatterplot

Matrixplot

Diagrama de correlacioacuten

Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten

Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 7: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

8

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

iquestQueacute es una tabla de datos y coacutemo estaacute ordenada

El Anaacutelisis de Datos se alimenta de Datos Es de cajoacuten Entender que los Datos son en realidad

tablas o matrices es una verdadera revelacioacuten

Entender tambieacuten que las variables son las caracteriacutesticas que mides de la realidad y se situacutean en

columnas es otra clave

En esta plantilla veraacutes

- Coacutemo es una tabla de datos

- Queacute son las variables y las observaciones

- Queacute tipo de variables son las maacutes comunes en la praacutectica

9

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

Tu base de datos es la puerta que comunica con el mundo real Tambieacuten puedes imaginarla como

la materia prima

Un proyecto de anaacutelisis de datos es un proceso de transformacioacuten de DATOS Algo asiacute como

empezar con una simple tabla y llegar a obtener informacioacuten uacutetil De DATOS a conclusiones

cristalinas que resolveraacuten gran parte de tus inquietudes

Los elementos de una tabla de datos

El punto de partida de un buen anaacutelisis

son tus DATOS limpios en forma de

tabla Vale pero iquestqueacute es una base de

datos De hecho ya te lo he definido

Es una tabla con filas y columnas Como

una matriz Y cada celda contiene un

coacutedigo alfanumeacuterico

Las filas son observaciones de

la realidad

Las columnas son variables

Las variables son caracteriacutesticas

Pueden ser longitud temperatura

densidad paiacutes de procedencia tipo de tratamiento calidad del tratamiento peso tipo de

enfermedad nivel de estreacutes nota final de la asignatura etc Todo aquello que puedas medir y listar

es una variable

Las observaciones son las distintas mediciones de las variables Pueden ser personas

animales insectos etc En general individuos O tambieacuten casos situaciones muestras Al final

para resumirlo observaciones de la realidad

Cuantas maacutes observaciones maacutes rica seraacute tu base de datos Maacutes grande seraacute Y maacutes informacioacuten

tendraacutes

En la praacutectica el nuacutemero de observaciones o el nuacutemero de individuos de una tabla de datos se

simbolizan con la letra n pequentildea

10

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

La clasificacioacuten de las variables

Clasificar las variables es muy uacutetil numeacutericas categoacutericas y ordinales

Variables numeacutericas de escala

Expresan cantidad y tienen unidades densidad (kgm3) temperatura (ordmC) peso (kg) longitud (m)

edad (antildeos) etc

A Numeacutericas continuas tienen decimales Como el peso la longitud o la densidad

B Numeacutericas discretas no tienen decimales Como la edad o el sueldo en miles de euros

Variables categoacutericas

Son etiquetas nominales y expresan grupos o nombres El paiacutes de procedencia geacutenero fumador

nombre del instituto

A Dicotoacutemicas identifican 2 grupos Fumador o NO fumador masculino y femenino alto y

bajo grande pequentildeo etc

B Politoacutemicas expresan muchos grupos Paiacutes de procedencia nombres de universidades

carrera estudiada

Variables Ordinales

Son un tipo de variables categoacutericas con un sentido de escala calidad del servicio puede ser malo

regular bueno muy bueno O la importancia de la enfermedad puede ser leve sin riesgo grave

muy grave

11

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

iquestCoacutemo puedo interpretar los datos

El Anaacutelisis de Datos tiene dos herramientas muy claras La exploracioacuten y el anaacutelisis

Y para miacute la exploracioacuten tiene un sentido muy muy importante

En pocas palabras explorar significa traducir tu tabla de datos en algo que se entienda En algo

visual como graacuteficos o en caracteriacutesticas sencillas de entender

12

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es

interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y

hablar el mismo idioma

Graacuteficos y caracteriacutesticas

El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas

numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google

translator Las herramientas de ED te ayudan a transformar tu tabla de datos en

Graacuteficos para poder visualizar filas y filas de tu tabla de datos

Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias

Tablas de frecuencias para contar las observaciones de cada grupo o intervalo

La distribucioacuten

Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en

forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena

una variable numeacuterica

Las dos caracteriacutesticas de una

distribucioacuten son

La Centralidad es el valor maacutes

ceacutentrico o doacutende se concentran

los valores La media y la

mediana miden esta

caracteriacutestica

La dispersioacuten es el ancho de

una distribucioacuten La desviacioacuten

estaacutendar y la varianza

cuantifican la dispersioacuten

13

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Las relaciones entre variables

Relacionar variables numeacutericas es una buena praxis El

objetivo es ver a simple vista si dos variables numeacutericas se

pueden relacionar entre siacute

Se utiliza el famoso scatterplot o diagrama de dispersioacuten

Son los valores de 2 variables en el plano 2D en forma de

puntos Para ver posibles relaciones entre ellas

Las tablas de contingencia

El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de

variables categoacutericas utilizaraacutes la tabla de contingencias

Es una tabla resumen

Contaraacutes las observaciones de

cada grupo La frecuencia es el

nuacutemero de observaciones de

cada caso

Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)

Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2

Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde

te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos

Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas

graacuteficas maacutes interesantes iexclLetrsquos go

14

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DE LA EXPLORACIOacuteN

La herramientas graacuteficas indispensables explicadas

caso por caso

15

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea de la Exploracioacuten

Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la

informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras

En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y

hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz

Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder

resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar

Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos

- Cuando quieres explorar una uacutenica variable numeacuterica

- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica

- Cuando quieres explorar 2 o maacutes variable numeacutericas

- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica

- Cuando quieres explorar variables categoacutericas

Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro

Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas

entender queacute significan

iquestEmpezamos

16

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

iquestCoacutemo es la distribucioacuten de mi variable numeacuterica

Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las

edades de estos trabajadores

Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute

envejecida o no

En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten

17

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de

los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir

Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad

boxplot + stripcharthellip

Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o

raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10

cm iexclSe va de madre Es una altura rara o anoacutemala

Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un

poco maacutes

Resumen numeacuterico

Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las

principales son

o Valor central media y mediana

o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)

o Intervalo de confianza para la media

o Rangos valor maacuteximo y miacutenimo cuartiles

Graacuteficos de la distribucioacuten

Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son

o Histograma e histograma de densidad visualiza la forma de la distribucioacuten

o Boxplot visualiza los rangos y los valores anoacutemalos

o qq-plot visualiza si la distribucioacuten es normal o no

o Stripchart con el boxplot puntos + boxplot

18

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta

te quedaraacute maacutes grabado los graacuteficos que estoy nombrando

Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el

sonido del viacutedeo Fue una de los primeros que grabeacute jejeje

BOXPLOT +

HISTOGRAMA

HISTOGRAMA

DENSIDAD QQPLOT BOXPLOT +

STRIPCHART HISTOGRAM

A

19

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

iquestQueacute diferencias observas entre grupos de tu variable numeacuterica

Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos

que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la

segunda mitad del antildeo (de Julio a Diciembre)

Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del

antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)

20

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una

variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los

habitantes es diferente o no en funcioacuten de los paiacuteses

El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de

dos graacuteficos

Boxplot y stripchart por grupos

Histograma de densidad por grupos

Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que

indique el grupo puede ser interesante en estos casos

Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que

estaacuten al lado del boxplot

HISTOGRAMA DE

DENSIDAD POR

GRUPOS

BOXPLOT +

STRIPCHART POR

GRUPOS

21

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

iquestQueacute relacioacuten tienen las variables entre siacute

Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del

coche estaacute relacionado con el consumo de combustible

Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o

si no tienen nada que ver

22

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo

que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo

El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa

Esta herramienta se utiliza con 2 variables numeacutericas

Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas

mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten

Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de

relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar

en forma de matriz los valores de la correlacioacuten por parejas de variables

Diagrama de dispersioacuten o scatterplot

Matrixplot

Diagrama de correlacioacuten

Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten

Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 8: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

9

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

Tu base de datos es la puerta que comunica con el mundo real Tambieacuten puedes imaginarla como

la materia prima

Un proyecto de anaacutelisis de datos es un proceso de transformacioacuten de DATOS Algo asiacute como

empezar con una simple tabla y llegar a obtener informacioacuten uacutetil De DATOS a conclusiones

cristalinas que resolveraacuten gran parte de tus inquietudes

Los elementos de una tabla de datos

El punto de partida de un buen anaacutelisis

son tus DATOS limpios en forma de

tabla Vale pero iquestqueacute es una base de

datos De hecho ya te lo he definido

Es una tabla con filas y columnas Como

una matriz Y cada celda contiene un

coacutedigo alfanumeacuterico

Las filas son observaciones de

la realidad

Las columnas son variables

Las variables son caracteriacutesticas

Pueden ser longitud temperatura

densidad paiacutes de procedencia tipo de tratamiento calidad del tratamiento peso tipo de

enfermedad nivel de estreacutes nota final de la asignatura etc Todo aquello que puedas medir y listar

es una variable

Las observaciones son las distintas mediciones de las variables Pueden ser personas

animales insectos etc En general individuos O tambieacuten casos situaciones muestras Al final

para resumirlo observaciones de la realidad

Cuantas maacutes observaciones maacutes rica seraacute tu base de datos Maacutes grande seraacute Y maacutes informacioacuten

tendraacutes

En la praacutectica el nuacutemero de observaciones o el nuacutemero de individuos de una tabla de datos se

simbolizan con la letra n pequentildea

10

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

La clasificacioacuten de las variables

Clasificar las variables es muy uacutetil numeacutericas categoacutericas y ordinales

Variables numeacutericas de escala

Expresan cantidad y tienen unidades densidad (kgm3) temperatura (ordmC) peso (kg) longitud (m)

edad (antildeos) etc

A Numeacutericas continuas tienen decimales Como el peso la longitud o la densidad

B Numeacutericas discretas no tienen decimales Como la edad o el sueldo en miles de euros

Variables categoacutericas

Son etiquetas nominales y expresan grupos o nombres El paiacutes de procedencia geacutenero fumador

nombre del instituto

A Dicotoacutemicas identifican 2 grupos Fumador o NO fumador masculino y femenino alto y

bajo grande pequentildeo etc

B Politoacutemicas expresan muchos grupos Paiacutes de procedencia nombres de universidades

carrera estudiada

Variables Ordinales

Son un tipo de variables categoacutericas con un sentido de escala calidad del servicio puede ser malo

regular bueno muy bueno O la importancia de la enfermedad puede ser leve sin riesgo grave

muy grave

11

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

iquestCoacutemo puedo interpretar los datos

El Anaacutelisis de Datos tiene dos herramientas muy claras La exploracioacuten y el anaacutelisis

Y para miacute la exploracioacuten tiene un sentido muy muy importante

En pocas palabras explorar significa traducir tu tabla de datos en algo que se entienda En algo

visual como graacuteficos o en caracteriacutesticas sencillas de entender

12

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es

interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y

hablar el mismo idioma

Graacuteficos y caracteriacutesticas

El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas

numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google

translator Las herramientas de ED te ayudan a transformar tu tabla de datos en

Graacuteficos para poder visualizar filas y filas de tu tabla de datos

Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias

Tablas de frecuencias para contar las observaciones de cada grupo o intervalo

La distribucioacuten

Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en

forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena

una variable numeacuterica

Las dos caracteriacutesticas de una

distribucioacuten son

La Centralidad es el valor maacutes

ceacutentrico o doacutende se concentran

los valores La media y la

mediana miden esta

caracteriacutestica

La dispersioacuten es el ancho de

una distribucioacuten La desviacioacuten

estaacutendar y la varianza

cuantifican la dispersioacuten

13

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Las relaciones entre variables

Relacionar variables numeacutericas es una buena praxis El

objetivo es ver a simple vista si dos variables numeacutericas se

pueden relacionar entre siacute

Se utiliza el famoso scatterplot o diagrama de dispersioacuten

Son los valores de 2 variables en el plano 2D en forma de

puntos Para ver posibles relaciones entre ellas

Las tablas de contingencia

El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de

variables categoacutericas utilizaraacutes la tabla de contingencias

Es una tabla resumen

Contaraacutes las observaciones de

cada grupo La frecuencia es el

nuacutemero de observaciones de

cada caso

Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)

Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2

Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde

te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos

Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas

graacuteficas maacutes interesantes iexclLetrsquos go

14

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DE LA EXPLORACIOacuteN

La herramientas graacuteficas indispensables explicadas

caso por caso

15

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea de la Exploracioacuten

Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la

informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras

En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y

hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz

Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder

resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar

Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos

- Cuando quieres explorar una uacutenica variable numeacuterica

- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica

- Cuando quieres explorar 2 o maacutes variable numeacutericas

- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica

- Cuando quieres explorar variables categoacutericas

Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro

Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas

entender queacute significan

iquestEmpezamos

16

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

iquestCoacutemo es la distribucioacuten de mi variable numeacuterica

Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las

edades de estos trabajadores

Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute

envejecida o no

En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten

17

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de

los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir

Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad

boxplot + stripcharthellip

Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o

raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10

cm iexclSe va de madre Es una altura rara o anoacutemala

Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un

poco maacutes

Resumen numeacuterico

Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las

principales son

o Valor central media y mediana

o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)

o Intervalo de confianza para la media

o Rangos valor maacuteximo y miacutenimo cuartiles

Graacuteficos de la distribucioacuten

Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son

o Histograma e histograma de densidad visualiza la forma de la distribucioacuten

o Boxplot visualiza los rangos y los valores anoacutemalos

o qq-plot visualiza si la distribucioacuten es normal o no

o Stripchart con el boxplot puntos + boxplot

18

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta

te quedaraacute maacutes grabado los graacuteficos que estoy nombrando

Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el

sonido del viacutedeo Fue una de los primeros que grabeacute jejeje

BOXPLOT +

HISTOGRAMA

HISTOGRAMA

DENSIDAD QQPLOT BOXPLOT +

STRIPCHART HISTOGRAM

A

19

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

iquestQueacute diferencias observas entre grupos de tu variable numeacuterica

Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos

que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la

segunda mitad del antildeo (de Julio a Diciembre)

Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del

antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)

20

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una

variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los

habitantes es diferente o no en funcioacuten de los paiacuteses

El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de

dos graacuteficos

Boxplot y stripchart por grupos

Histograma de densidad por grupos

Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que

indique el grupo puede ser interesante en estos casos

Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que

estaacuten al lado del boxplot

HISTOGRAMA DE

DENSIDAD POR

GRUPOS

BOXPLOT +

STRIPCHART POR

GRUPOS

21

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

iquestQueacute relacioacuten tienen las variables entre siacute

Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del

coche estaacute relacionado con el consumo de combustible

Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o

si no tienen nada que ver

22

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo

que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo

El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa

Esta herramienta se utiliza con 2 variables numeacutericas

Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas

mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten

Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de

relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar

en forma de matriz los valores de la correlacioacuten por parejas de variables

Diagrama de dispersioacuten o scatterplot

Matrixplot

Diagrama de correlacioacuten

Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten

Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 9: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

10

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 2 ndash LA MATERIA PRIMA

La clasificacioacuten de las variables

Clasificar las variables es muy uacutetil numeacutericas categoacutericas y ordinales

Variables numeacutericas de escala

Expresan cantidad y tienen unidades densidad (kgm3) temperatura (ordmC) peso (kg) longitud (m)

edad (antildeos) etc

A Numeacutericas continuas tienen decimales Como el peso la longitud o la densidad

B Numeacutericas discretas no tienen decimales Como la edad o el sueldo en miles de euros

Variables categoacutericas

Son etiquetas nominales y expresan grupos o nombres El paiacutes de procedencia geacutenero fumador

nombre del instituto

A Dicotoacutemicas identifican 2 grupos Fumador o NO fumador masculino y femenino alto y

bajo grande pequentildeo etc

B Politoacutemicas expresan muchos grupos Paiacutes de procedencia nombres de universidades

carrera estudiada

Variables Ordinales

Son un tipo de variables categoacutericas con un sentido de escala calidad del servicio puede ser malo

regular bueno muy bueno O la importancia de la enfermedad puede ser leve sin riesgo grave

muy grave

11

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

iquestCoacutemo puedo interpretar los datos

El Anaacutelisis de Datos tiene dos herramientas muy claras La exploracioacuten y el anaacutelisis

Y para miacute la exploracioacuten tiene un sentido muy muy importante

En pocas palabras explorar significa traducir tu tabla de datos en algo que se entienda En algo

visual como graacuteficos o en caracteriacutesticas sencillas de entender

12

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es

interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y

hablar el mismo idioma

Graacuteficos y caracteriacutesticas

El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas

numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google

translator Las herramientas de ED te ayudan a transformar tu tabla de datos en

Graacuteficos para poder visualizar filas y filas de tu tabla de datos

Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias

Tablas de frecuencias para contar las observaciones de cada grupo o intervalo

La distribucioacuten

Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en

forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena

una variable numeacuterica

Las dos caracteriacutesticas de una

distribucioacuten son

La Centralidad es el valor maacutes

ceacutentrico o doacutende se concentran

los valores La media y la

mediana miden esta

caracteriacutestica

La dispersioacuten es el ancho de

una distribucioacuten La desviacioacuten

estaacutendar y la varianza

cuantifican la dispersioacuten

13

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Las relaciones entre variables

Relacionar variables numeacutericas es una buena praxis El

objetivo es ver a simple vista si dos variables numeacutericas se

pueden relacionar entre siacute

Se utiliza el famoso scatterplot o diagrama de dispersioacuten

Son los valores de 2 variables en el plano 2D en forma de

puntos Para ver posibles relaciones entre ellas

Las tablas de contingencia

El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de

variables categoacutericas utilizaraacutes la tabla de contingencias

Es una tabla resumen

Contaraacutes las observaciones de

cada grupo La frecuencia es el

nuacutemero de observaciones de

cada caso

Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)

Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2

Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde

te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos

Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas

graacuteficas maacutes interesantes iexclLetrsquos go

14

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DE LA EXPLORACIOacuteN

La herramientas graacuteficas indispensables explicadas

caso por caso

15

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea de la Exploracioacuten

Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la

informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras

En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y

hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz

Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder

resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar

Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos

- Cuando quieres explorar una uacutenica variable numeacuterica

- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica

- Cuando quieres explorar 2 o maacutes variable numeacutericas

- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica

- Cuando quieres explorar variables categoacutericas

Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro

Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas

entender queacute significan

iquestEmpezamos

16

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

iquestCoacutemo es la distribucioacuten de mi variable numeacuterica

Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las

edades de estos trabajadores

Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute

envejecida o no

En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten

17

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de

los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir

Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad

boxplot + stripcharthellip

Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o

raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10

cm iexclSe va de madre Es una altura rara o anoacutemala

Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un

poco maacutes

Resumen numeacuterico

Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las

principales son

o Valor central media y mediana

o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)

o Intervalo de confianza para la media

o Rangos valor maacuteximo y miacutenimo cuartiles

Graacuteficos de la distribucioacuten

Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son

o Histograma e histograma de densidad visualiza la forma de la distribucioacuten

o Boxplot visualiza los rangos y los valores anoacutemalos

o qq-plot visualiza si la distribucioacuten es normal o no

o Stripchart con el boxplot puntos + boxplot

18

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta

te quedaraacute maacutes grabado los graacuteficos que estoy nombrando

Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el

sonido del viacutedeo Fue una de los primeros que grabeacute jejeje

BOXPLOT +

HISTOGRAMA

HISTOGRAMA

DENSIDAD QQPLOT BOXPLOT +

STRIPCHART HISTOGRAM

A

19

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

iquestQueacute diferencias observas entre grupos de tu variable numeacuterica

Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos

que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la

segunda mitad del antildeo (de Julio a Diciembre)

Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del

antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)

20

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una

variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los

habitantes es diferente o no en funcioacuten de los paiacuteses

El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de

dos graacuteficos

Boxplot y stripchart por grupos

Histograma de densidad por grupos

Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que

indique el grupo puede ser interesante en estos casos

Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que

estaacuten al lado del boxplot

HISTOGRAMA DE

DENSIDAD POR

GRUPOS

BOXPLOT +

STRIPCHART POR

GRUPOS

21

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

iquestQueacute relacioacuten tienen las variables entre siacute

Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del

coche estaacute relacionado con el consumo de combustible

Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o

si no tienen nada que ver

22

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo

que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo

El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa

Esta herramienta se utiliza con 2 variables numeacutericas

Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas

mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten

Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de

relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar

en forma de matriz los valores de la correlacioacuten por parejas de variables

Diagrama de dispersioacuten o scatterplot

Matrixplot

Diagrama de correlacioacuten

Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten

Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 10: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

11

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

iquestCoacutemo puedo interpretar los datos

El Anaacutelisis de Datos tiene dos herramientas muy claras La exploracioacuten y el anaacutelisis

Y para miacute la exploracioacuten tiene un sentido muy muy importante

En pocas palabras explorar significa traducir tu tabla de datos en algo que se entienda En algo

visual como graacuteficos o en caracteriacutesticas sencillas de entender

12

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es

interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y

hablar el mismo idioma

Graacuteficos y caracteriacutesticas

El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas

numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google

translator Las herramientas de ED te ayudan a transformar tu tabla de datos en

Graacuteficos para poder visualizar filas y filas de tu tabla de datos

Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias

Tablas de frecuencias para contar las observaciones de cada grupo o intervalo

La distribucioacuten

Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en

forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena

una variable numeacuterica

Las dos caracteriacutesticas de una

distribucioacuten son

La Centralidad es el valor maacutes

ceacutentrico o doacutende se concentran

los valores La media y la

mediana miden esta

caracteriacutestica

La dispersioacuten es el ancho de

una distribucioacuten La desviacioacuten

estaacutendar y la varianza

cuantifican la dispersioacuten

13

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Las relaciones entre variables

Relacionar variables numeacutericas es una buena praxis El

objetivo es ver a simple vista si dos variables numeacutericas se

pueden relacionar entre siacute

Se utiliza el famoso scatterplot o diagrama de dispersioacuten

Son los valores de 2 variables en el plano 2D en forma de

puntos Para ver posibles relaciones entre ellas

Las tablas de contingencia

El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de

variables categoacutericas utilizaraacutes la tabla de contingencias

Es una tabla resumen

Contaraacutes las observaciones de

cada grupo La frecuencia es el

nuacutemero de observaciones de

cada caso

Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)

Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2

Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde

te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos

Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas

graacuteficas maacutes interesantes iexclLetrsquos go

14

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DE LA EXPLORACIOacuteN

La herramientas graacuteficas indispensables explicadas

caso por caso

15

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea de la Exploracioacuten

Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la

informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras

En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y

hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz

Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder

resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar

Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos

- Cuando quieres explorar una uacutenica variable numeacuterica

- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica

- Cuando quieres explorar 2 o maacutes variable numeacutericas

- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica

- Cuando quieres explorar variables categoacutericas

Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro

Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas

entender queacute significan

iquestEmpezamos

16

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

iquestCoacutemo es la distribucioacuten de mi variable numeacuterica

Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las

edades de estos trabajadores

Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute

envejecida o no

En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten

17

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de

los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir

Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad

boxplot + stripcharthellip

Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o

raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10

cm iexclSe va de madre Es una altura rara o anoacutemala

Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un

poco maacutes

Resumen numeacuterico

Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las

principales son

o Valor central media y mediana

o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)

o Intervalo de confianza para la media

o Rangos valor maacuteximo y miacutenimo cuartiles

Graacuteficos de la distribucioacuten

Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son

o Histograma e histograma de densidad visualiza la forma de la distribucioacuten

o Boxplot visualiza los rangos y los valores anoacutemalos

o qq-plot visualiza si la distribucioacuten es normal o no

o Stripchart con el boxplot puntos + boxplot

18

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta

te quedaraacute maacutes grabado los graacuteficos que estoy nombrando

Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el

sonido del viacutedeo Fue una de los primeros que grabeacute jejeje

BOXPLOT +

HISTOGRAMA

HISTOGRAMA

DENSIDAD QQPLOT BOXPLOT +

STRIPCHART HISTOGRAM

A

19

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

iquestQueacute diferencias observas entre grupos de tu variable numeacuterica

Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos

que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la

segunda mitad del antildeo (de Julio a Diciembre)

Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del

antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)

20

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una

variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los

habitantes es diferente o no en funcioacuten de los paiacuteses

El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de

dos graacuteficos

Boxplot y stripchart por grupos

Histograma de densidad por grupos

Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que

indique el grupo puede ser interesante en estos casos

Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que

estaacuten al lado del boxplot

HISTOGRAMA DE

DENSIDAD POR

GRUPOS

BOXPLOT +

STRIPCHART POR

GRUPOS

21

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

iquestQueacute relacioacuten tienen las variables entre siacute

Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del

coche estaacute relacionado con el consumo de combustible

Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o

si no tienen nada que ver

22

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo

que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo

El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa

Esta herramienta se utiliza con 2 variables numeacutericas

Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas

mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten

Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de

relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar

en forma de matriz los valores de la correlacioacuten por parejas de variables

Diagrama de dispersioacuten o scatterplot

Matrixplot

Diagrama de correlacioacuten

Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten

Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 11: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

12

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Has visto que la tabla de datos son nuacutemeros y letras ordenados en una tabla Bien Lo siguiente es

interpretar la informacioacuten escondida en esta tabla Es momento de entenderte con los DATOS y

hablar el mismo idioma

Graacuteficos y caracteriacutesticas

El objetivo principal de la estadiacutestica descriptiva (ED) es utilizar graacuteficos y caracteriacutesticas

numeacutericas sencillas para comunicarte con el mismo idioma que tus datos Es como un google

translator Las herramientas de ED te ayudan a transformar tu tabla de datos en

Graacuteficos para poder visualizar filas y filas de tu tabla de datos

Caracteriacutesticas numeacutericas para evaluar la posicioacuten centralidad dispersioacuten y frecuencias

Tablas de frecuencias para contar las observaciones de cada grupo o intervalo

La distribucioacuten

Las variables numeacutericas son filas infinitas de nuacutemeros Pero podemos reordenar estas filas en

forma de histograma y conseguir ver su distribucioacuten La distribucioacuten es la forma coacutemo se ordena

una variable numeacuterica

Las dos caracteriacutesticas de una

distribucioacuten son

La Centralidad es el valor maacutes

ceacutentrico o doacutende se concentran

los valores La media y la

mediana miden esta

caracteriacutestica

La dispersioacuten es el ancho de

una distribucioacuten La desviacioacuten

estaacutendar y la varianza

cuantifican la dispersioacuten

13

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Las relaciones entre variables

Relacionar variables numeacutericas es una buena praxis El

objetivo es ver a simple vista si dos variables numeacutericas se

pueden relacionar entre siacute

Se utiliza el famoso scatterplot o diagrama de dispersioacuten

Son los valores de 2 variables en el plano 2D en forma de

puntos Para ver posibles relaciones entre ellas

Las tablas de contingencia

El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de

variables categoacutericas utilizaraacutes la tabla de contingencias

Es una tabla resumen

Contaraacutes las observaciones de

cada grupo La frecuencia es el

nuacutemero de observaciones de

cada caso

Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)

Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2

Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde

te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos

Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas

graacuteficas maacutes interesantes iexclLetrsquos go

14

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DE LA EXPLORACIOacuteN

La herramientas graacuteficas indispensables explicadas

caso por caso

15

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea de la Exploracioacuten

Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la

informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras

En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y

hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz

Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder

resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar

Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos

- Cuando quieres explorar una uacutenica variable numeacuterica

- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica

- Cuando quieres explorar 2 o maacutes variable numeacutericas

- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica

- Cuando quieres explorar variables categoacutericas

Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro

Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas

entender queacute significan

iquestEmpezamos

16

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

iquestCoacutemo es la distribucioacuten de mi variable numeacuterica

Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las

edades de estos trabajadores

Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute

envejecida o no

En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten

17

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de

los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir

Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad

boxplot + stripcharthellip

Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o

raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10

cm iexclSe va de madre Es una altura rara o anoacutemala

Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un

poco maacutes

Resumen numeacuterico

Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las

principales son

o Valor central media y mediana

o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)

o Intervalo de confianza para la media

o Rangos valor maacuteximo y miacutenimo cuartiles

Graacuteficos de la distribucioacuten

Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son

o Histograma e histograma de densidad visualiza la forma de la distribucioacuten

o Boxplot visualiza los rangos y los valores anoacutemalos

o qq-plot visualiza si la distribucioacuten es normal o no

o Stripchart con el boxplot puntos + boxplot

18

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta

te quedaraacute maacutes grabado los graacuteficos que estoy nombrando

Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el

sonido del viacutedeo Fue una de los primeros que grabeacute jejeje

BOXPLOT +

HISTOGRAMA

HISTOGRAMA

DENSIDAD QQPLOT BOXPLOT +

STRIPCHART HISTOGRAM

A

19

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

iquestQueacute diferencias observas entre grupos de tu variable numeacuterica

Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos

que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la

segunda mitad del antildeo (de Julio a Diciembre)

Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del

antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)

20

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una

variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los

habitantes es diferente o no en funcioacuten de los paiacuteses

El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de

dos graacuteficos

Boxplot y stripchart por grupos

Histograma de densidad por grupos

Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que

indique el grupo puede ser interesante en estos casos

Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que

estaacuten al lado del boxplot

HISTOGRAMA DE

DENSIDAD POR

GRUPOS

BOXPLOT +

STRIPCHART POR

GRUPOS

21

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

iquestQueacute relacioacuten tienen las variables entre siacute

Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del

coche estaacute relacionado con el consumo de combustible

Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o

si no tienen nada que ver

22

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo

que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo

El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa

Esta herramienta se utiliza con 2 variables numeacutericas

Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas

mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten

Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de

relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar

en forma de matriz los valores de la correlacioacuten por parejas de variables

Diagrama de dispersioacuten o scatterplot

Matrixplot

Diagrama de correlacioacuten

Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten

Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 12: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

13

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 3 ndash LA EXPLORACIOacuteN

Las relaciones entre variables

Relacionar variables numeacutericas es una buena praxis El

objetivo es ver a simple vista si dos variables numeacutericas se

pueden relacionar entre siacute

Se utiliza el famoso scatterplot o diagrama de dispersioacuten

Son los valores de 2 variables en el plano 2D en forma de

puntos Para ver posibles relaciones entre ellas

Las tablas de contingencia

El histograma es de lejos la herramienta para resumir una variable numeacuterica Y en el caso de

variables categoacutericas utilizaraacutes la tabla de contingencias

Es una tabla resumen

Contaraacutes las observaciones de

cada grupo La frecuencia es el

nuacutemero de observaciones de

cada caso

Smoke indica fumador (yes) o no fumador (no) y Gender masculino (male) o femenino (female)

Dos variables categoacutericas dicotoacutemicas Es una tabla de contingencia 2x2

Te voy a dar acceso a un mini curso de 8 diacuteas y te voy a compartir la guiacutea de la exploracioacuten Donde

te resumireacute los graacuteficos maacutes utilizados y uacutetiles y cuando utilizarlos

Tienes contigo la guiacutea de la exploracioacuten para que veas caso por caso las herramientas estadiacutesticas

graacuteficas maacutes interesantes iexclLetrsquos go

14

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DE LA EXPLORACIOacuteN

La herramientas graacuteficas indispensables explicadas

caso por caso

15

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea de la Exploracioacuten

Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la

informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras

En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y

hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz

Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder

resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar

Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos

- Cuando quieres explorar una uacutenica variable numeacuterica

- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica

- Cuando quieres explorar 2 o maacutes variable numeacutericas

- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica

- Cuando quieres explorar variables categoacutericas

Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro

Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas

entender queacute significan

iquestEmpezamos

16

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

iquestCoacutemo es la distribucioacuten de mi variable numeacuterica

Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las

edades de estos trabajadores

Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute

envejecida o no

En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten

17

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de

los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir

Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad

boxplot + stripcharthellip

Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o

raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10

cm iexclSe va de madre Es una altura rara o anoacutemala

Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un

poco maacutes

Resumen numeacuterico

Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las

principales son

o Valor central media y mediana

o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)

o Intervalo de confianza para la media

o Rangos valor maacuteximo y miacutenimo cuartiles

Graacuteficos de la distribucioacuten

Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son

o Histograma e histograma de densidad visualiza la forma de la distribucioacuten

o Boxplot visualiza los rangos y los valores anoacutemalos

o qq-plot visualiza si la distribucioacuten es normal o no

o Stripchart con el boxplot puntos + boxplot

18

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta

te quedaraacute maacutes grabado los graacuteficos que estoy nombrando

Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el

sonido del viacutedeo Fue una de los primeros que grabeacute jejeje

BOXPLOT +

HISTOGRAMA

HISTOGRAMA

DENSIDAD QQPLOT BOXPLOT +

STRIPCHART HISTOGRAM

A

19

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

iquestQueacute diferencias observas entre grupos de tu variable numeacuterica

Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos

que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la

segunda mitad del antildeo (de Julio a Diciembre)

Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del

antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)

20

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una

variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los

habitantes es diferente o no en funcioacuten de los paiacuteses

El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de

dos graacuteficos

Boxplot y stripchart por grupos

Histograma de densidad por grupos

Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que

indique el grupo puede ser interesante en estos casos

Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que

estaacuten al lado del boxplot

HISTOGRAMA DE

DENSIDAD POR

GRUPOS

BOXPLOT +

STRIPCHART POR

GRUPOS

21

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

iquestQueacute relacioacuten tienen las variables entre siacute

Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del

coche estaacute relacionado con el consumo de combustible

Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o

si no tienen nada que ver

22

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo

que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo

El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa

Esta herramienta se utiliza con 2 variables numeacutericas

Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas

mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten

Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de

relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar

en forma de matriz los valores de la correlacioacuten por parejas de variables

Diagrama de dispersioacuten o scatterplot

Matrixplot

Diagrama de correlacioacuten

Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten

Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 13: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

14

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DE LA EXPLORACIOacuteN

La herramientas graacuteficas indispensables explicadas

caso por caso

15

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea de la Exploracioacuten

Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la

informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras

En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y

hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz

Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder

resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar

Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos

- Cuando quieres explorar una uacutenica variable numeacuterica

- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica

- Cuando quieres explorar 2 o maacutes variable numeacutericas

- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica

- Cuando quieres explorar variables categoacutericas

Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro

Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas

entender queacute significan

iquestEmpezamos

16

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

iquestCoacutemo es la distribucioacuten de mi variable numeacuterica

Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las

edades de estos trabajadores

Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute

envejecida o no

En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten

17

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de

los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir

Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad

boxplot + stripcharthellip

Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o

raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10

cm iexclSe va de madre Es una altura rara o anoacutemala

Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un

poco maacutes

Resumen numeacuterico

Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las

principales son

o Valor central media y mediana

o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)

o Intervalo de confianza para la media

o Rangos valor maacuteximo y miacutenimo cuartiles

Graacuteficos de la distribucioacuten

Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son

o Histograma e histograma de densidad visualiza la forma de la distribucioacuten

o Boxplot visualiza los rangos y los valores anoacutemalos

o qq-plot visualiza si la distribucioacuten es normal o no

o Stripchart con el boxplot puntos + boxplot

18

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta

te quedaraacute maacutes grabado los graacuteficos que estoy nombrando

Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el

sonido del viacutedeo Fue una de los primeros que grabeacute jejeje

BOXPLOT +

HISTOGRAMA

HISTOGRAMA

DENSIDAD QQPLOT BOXPLOT +

STRIPCHART HISTOGRAM

A

19

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

iquestQueacute diferencias observas entre grupos de tu variable numeacuterica

Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos

que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la

segunda mitad del antildeo (de Julio a Diciembre)

Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del

antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)

20

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una

variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los

habitantes es diferente o no en funcioacuten de los paiacuteses

El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de

dos graacuteficos

Boxplot y stripchart por grupos

Histograma de densidad por grupos

Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que

indique el grupo puede ser interesante en estos casos

Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que

estaacuten al lado del boxplot

HISTOGRAMA DE

DENSIDAD POR

GRUPOS

BOXPLOT +

STRIPCHART POR

GRUPOS

21

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

iquestQueacute relacioacuten tienen las variables entre siacute

Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del

coche estaacute relacionado con el consumo de combustible

Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o

si no tienen nada que ver

22

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo

que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo

El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa

Esta herramienta se utiliza con 2 variables numeacutericas

Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas

mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten

Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de

relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar

en forma de matriz los valores de la correlacioacuten por parejas de variables

Diagrama de dispersioacuten o scatterplot

Matrixplot

Diagrama de correlacioacuten

Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten

Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 14: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

15

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea de la Exploracioacuten

Una de las claves como analista de datos es poder visualizar tu tabla de datos y entender toda la

informacioacuten escondida dentro del montoacuten de filas de nuacutemeros y letras

En esta guiacutea pretendo darte las teacutecnicas estadiacutesticas maacutes importantes para visualizar tus datos y

hablar el mismo idioma Comunicarse con tu tabla de datos de manera eficaz

Si te acuerdas la estadiacutestica descriptiva es la encargada de poder ofrecerte estrategias para poder

resumir la informacioacuten de tus datos con graacuteficos y caracteriacutesticas numeacutericas faacuteciles de interpretar

Y para simplificar y ser maacutes ordenado he divido las teacutecnicas de exploracioacuten en 5 casos

- Cuando quieres explorar una uacutenica variable numeacuterica

- Cuando quieres explorar 1 variable numeacuterica por grupos de 1 variables categoacuterica

- Cuando quieres explorar 2 o maacutes variable numeacutericas

- Cuando quieres explorar 2 o maacutes variables numeacutericas por grupos de una variable categoacuterica

- Cuando quieres explorar variables categoacutericas

Durante la guiacutea no pretendo explicarte todos los detalles de todo porque dariacutea para un libro

Asiacute que lo que voy a hacer es nombrarte los graacuteficos y ponerte algunos links para que puedas

entender queacute significan

iquestEmpezamos

16

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

iquestCoacutemo es la distribucioacuten de mi variable numeacuterica

Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las

edades de estos trabajadores

Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute

envejecida o no

En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten

17

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de

los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir

Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad

boxplot + stripcharthellip

Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o

raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10

cm iexclSe va de madre Es una altura rara o anoacutemala

Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un

poco maacutes

Resumen numeacuterico

Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las

principales son

o Valor central media y mediana

o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)

o Intervalo de confianza para la media

o Rangos valor maacuteximo y miacutenimo cuartiles

Graacuteficos de la distribucioacuten

Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son

o Histograma e histograma de densidad visualiza la forma de la distribucioacuten

o Boxplot visualiza los rangos y los valores anoacutemalos

o qq-plot visualiza si la distribucioacuten es normal o no

o Stripchart con el boxplot puntos + boxplot

18

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta

te quedaraacute maacutes grabado los graacuteficos que estoy nombrando

Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el

sonido del viacutedeo Fue una de los primeros que grabeacute jejeje

BOXPLOT +

HISTOGRAMA

HISTOGRAMA

DENSIDAD QQPLOT BOXPLOT +

STRIPCHART HISTOGRAM

A

19

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

iquestQueacute diferencias observas entre grupos de tu variable numeacuterica

Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos

que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la

segunda mitad del antildeo (de Julio a Diciembre)

Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del

antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)

20

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una

variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los

habitantes es diferente o no en funcioacuten de los paiacuteses

El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de

dos graacuteficos

Boxplot y stripchart por grupos

Histograma de densidad por grupos

Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que

indique el grupo puede ser interesante en estos casos

Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que

estaacuten al lado del boxplot

HISTOGRAMA DE

DENSIDAD POR

GRUPOS

BOXPLOT +

STRIPCHART POR

GRUPOS

21

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

iquestQueacute relacioacuten tienen las variables entre siacute

Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del

coche estaacute relacionado con el consumo de combustible

Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o

si no tienen nada que ver

22

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo

que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo

El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa

Esta herramienta se utiliza con 2 variables numeacutericas

Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas

mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten

Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de

relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar

en forma de matriz los valores de la correlacioacuten por parejas de variables

Diagrama de dispersioacuten o scatterplot

Matrixplot

Diagrama de correlacioacuten

Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten

Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 15: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

16

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

iquestCoacutemo es la distribucioacuten de mi variable numeacuterica

Por ejemplo tienes un conjunto de 100 trabajadores Y quieres ver coacutemo es la distribucioacuten de las

edades de estos trabajadores

Es decir ver en que rango de edad es el maacutes comuacuten o si tu plantilla de trabajadores estaacute

envejecida o no

En este caso utilizaraacutes teacutecnicas para desvelar la forma de la distribucioacuten

17

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de

los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir

Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad

boxplot + stripcharthellip

Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o

raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10

cm iexclSe va de madre Es una altura rara o anoacutemala

Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un

poco maacutes

Resumen numeacuterico

Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las

principales son

o Valor central media y mediana

o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)

o Intervalo de confianza para la media

o Rangos valor maacuteximo y miacutenimo cuartiles

Graacuteficos de la distribucioacuten

Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son

o Histograma e histograma de densidad visualiza la forma de la distribucioacuten

o Boxplot visualiza los rangos y los valores anoacutemalos

o qq-plot visualiza si la distribucioacuten es normal o no

o Stripchart con el boxplot puntos + boxplot

18

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta

te quedaraacute maacutes grabado los graacuteficos que estoy nombrando

Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el

sonido del viacutedeo Fue una de los primeros que grabeacute jejeje

BOXPLOT +

HISTOGRAMA

HISTOGRAMA

DENSIDAD QQPLOT BOXPLOT +

STRIPCHART HISTOGRAM

A

19

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

iquestQueacute diferencias observas entre grupos de tu variable numeacuterica

Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos

que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la

segunda mitad del antildeo (de Julio a Diciembre)

Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del

antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)

20

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una

variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los

habitantes es diferente o no en funcioacuten de los paiacuteses

El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de

dos graacuteficos

Boxplot y stripchart por grupos

Histograma de densidad por grupos

Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que

indique el grupo puede ser interesante en estos casos

Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que

estaacuten al lado del boxplot

HISTOGRAMA DE

DENSIDAD POR

GRUPOS

BOXPLOT +

STRIPCHART POR

GRUPOS

21

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

iquestQueacute relacioacuten tienen las variables entre siacute

Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del

coche estaacute relacionado con el consumo de combustible

Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o

si no tienen nada que ver

22

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo

que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo

El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa

Esta herramienta se utiliza con 2 variables numeacutericas

Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas

mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten

Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de

relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar

en forma de matriz los valores de la correlacioacuten por parejas de variables

Diagrama de dispersioacuten o scatterplot

Matrixplot

Diagrama de correlacioacuten

Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten

Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 16: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

17

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

En este caso vas a observar variables numeacutericas Como por ejemplo la edad o el sueldo anual de

los trabajadores de una gran faacutebrica Con este caso tienes dos objetivos que cumplir

Descubrir la distribucioacuten de la variable mediante histograma histograma de densidad

boxplot + stripcharthellip

Encontrar los valores atiacutepicos (outliers) con el boxplot Los valores atiacutepicos o anoacutemalos o

raros son aquellos que se van de madre Por ejemplo un trabajador que mida 2 metros 10

cm iexclSe va de madre Es una altura rara o anoacutemala

Y para lograr esto tendraacutes dos estrategias El resumen numeacuterico y los graacuteficos Voy a contarte un

poco maacutes

Resumen numeacuterico

Se trata de observar valores como la centralidad y la dispersioacuten con caracteriacutesticas numeacutericas Las

principales son

o Valor central media y mediana

o Dispersioacuten desviacioacuten estaacutendar y rango intercuartiacutelico (cuartil 3 ndash cuartil 1)

o Intervalo de confianza para la media

o Rangos valor maacuteximo y miacutenimo cuartiles

Graacuteficos de la distribucioacuten

Ahora en lugar de calcular caracteriacutesticas vas a dibujar graacuteficos Los principales son

o Histograma e histograma de densidad visualiza la forma de la distribucioacuten

o Boxplot visualiza los rangos y los valores anoacutemalos

o qq-plot visualiza si la distribucioacuten es normal o no

o Stripchart con el boxplot puntos + boxplot

18

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta

te quedaraacute maacutes grabado los graacuteficos que estoy nombrando

Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el

sonido del viacutedeo Fue una de los primeros que grabeacute jejeje

BOXPLOT +

HISTOGRAMA

HISTOGRAMA

DENSIDAD QQPLOT BOXPLOT +

STRIPCHART HISTOGRAM

A

19

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

iquestQueacute diferencias observas entre grupos de tu variable numeacuterica

Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos

que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la

segunda mitad del antildeo (de Julio a Diciembre)

Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del

antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)

20

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una

variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los

habitantes es diferente o no en funcioacuten de los paiacuteses

El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de

dos graacuteficos

Boxplot y stripchart por grupos

Histograma de densidad por grupos

Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que

indique el grupo puede ser interesante en estos casos

Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que

estaacuten al lado del boxplot

HISTOGRAMA DE

DENSIDAD POR

GRUPOS

BOXPLOT +

STRIPCHART POR

GRUPOS

21

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

iquestQueacute relacioacuten tienen las variables entre siacute

Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del

coche estaacute relacionado con el consumo de combustible

Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o

si no tienen nada que ver

22

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo

que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo

El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa

Esta herramienta se utiliza con 2 variables numeacutericas

Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas

mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten

Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de

relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar

en forma de matriz los valores de la correlacioacuten por parejas de variables

Diagrama de dispersioacuten o scatterplot

Matrixplot

Diagrama de correlacioacuten

Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten

Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 17: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

18

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 1 ndash 1 VARIABLE NUMEacuteRICA

Para que entiendas lo que te estoy diciendo te voy a mostrar el aspecto de estos graacuteficos De esta

te quedaraacute maacutes grabado los graacuteficos que estoy nombrando

Nota puedes ver un ejemplo en R doacutende te explico estos graacuteficos uno por uno Disculpa por el

sonido del viacutedeo Fue una de los primeros que grabeacute jejeje

BOXPLOT +

HISTOGRAMA

HISTOGRAMA

DENSIDAD QQPLOT BOXPLOT +

STRIPCHART HISTOGRAM

A

19

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

iquestQueacute diferencias observas entre grupos de tu variable numeacuterica

Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos

que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la

segunda mitad del antildeo (de Julio a Diciembre)

Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del

antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)

20

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una

variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los

habitantes es diferente o no en funcioacuten de los paiacuteses

El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de

dos graacuteficos

Boxplot y stripchart por grupos

Histograma de densidad por grupos

Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que

indique el grupo puede ser interesante en estos casos

Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que

estaacuten al lado del boxplot

HISTOGRAMA DE

DENSIDAD POR

GRUPOS

BOXPLOT +

STRIPCHART POR

GRUPOS

21

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

iquestQueacute relacioacuten tienen las variables entre siacute

Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del

coche estaacute relacionado con el consumo de combustible

Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o

si no tienen nada que ver

22

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo

que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo

El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa

Esta herramienta se utiliza con 2 variables numeacutericas

Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas

mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten

Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de

relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar

en forma de matriz los valores de la correlacioacuten por parejas de variables

Diagrama de dispersioacuten o scatterplot

Matrixplot

Diagrama de correlacioacuten

Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten

Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 18: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

19

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

iquestQueacute diferencias observas entre grupos de tu variable numeacuterica

Por ejemplo quiero ver si la distribucioacuten de la nota final de mates es diferente entre los alumnos

que han nacido en la primera mitad del antildeo (de Enero a Junio) y los alumnos que nacieron en la

segunda mitad del antildeo (de Julio a Diciembre)

Fiacutejate que estoy comparando la nota final de mates (variable numeacuterica) en funcioacuten de la parte del

antildeo en que han nacido los alumnos (variable categoacuterica de 2 grupos)

20

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una

variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los

habitantes es diferente o no en funcioacuten de los paiacuteses

El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de

dos graacuteficos

Boxplot y stripchart por grupos

Histograma de densidad por grupos

Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que

indique el grupo puede ser interesante en estos casos

Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que

estaacuten al lado del boxplot

HISTOGRAMA DE

DENSIDAD POR

GRUPOS

BOXPLOT +

STRIPCHART POR

GRUPOS

21

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

iquestQueacute relacioacuten tienen las variables entre siacute

Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del

coche estaacute relacionado con el consumo de combustible

Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o

si no tienen nada que ver

22

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo

que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo

El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa

Esta herramienta se utiliza con 2 variables numeacutericas

Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas

mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten

Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de

relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar

en forma de matriz los valores de la correlacioacuten por parejas de variables

Diagrama de dispersioacuten o scatterplot

Matrixplot

Diagrama de correlacioacuten

Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten

Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 19: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

20

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 2 ndash 1 VARIABLE NUMEacuteRICA + 1 VARIABLE

CATEGOacuteRICA

En este caso vas a observar la variable numeacuterica por grupos O por categoriacuteas Tendraacutes una

variable numeacuterica con una categoacuterica Por ejemplo observar si la distribucioacuten de altura de los

habitantes es diferente o no en funcioacuten de los paiacuteses

El objetivo de este caso es observar diferencias entre distribuciones a simple vista con la ayuda de

dos graacuteficos

Boxplot y stripchart por grupos

Histograma de densidad por grupos

Como no quiero dejarte asiacute te muestro la pinta que tienen estos dos graacuteficos y coacutemo el color que

indique el grupo puede ser interesante en estos casos

Fiacutejate en la primera figura El boxplor es la caja con las ramas y el stripchart son los puntos que

estaacuten al lado del boxplot

HISTOGRAMA DE

DENSIDAD POR

GRUPOS

BOXPLOT +

STRIPCHART POR

GRUPOS

21

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

iquestQueacute relacioacuten tienen las variables entre siacute

Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del

coche estaacute relacionado con el consumo de combustible

Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o

si no tienen nada que ver

22

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo

que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo

El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa

Esta herramienta se utiliza con 2 variables numeacutericas

Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas

mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten

Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de

relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar

en forma de matriz los valores de la correlacioacuten por parejas de variables

Diagrama de dispersioacuten o scatterplot

Matrixplot

Diagrama de correlacioacuten

Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten

Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 20: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

21

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

iquestQueacute relacioacuten tienen las variables entre siacute

Por ejemplo Imagiacutenate que obtienes datos de 200 modelos de coches y quieres ver si el peso del

coche estaacute relacionado con el consumo de combustible

Quieres ver con un graacutefico de manera raacutepida si se ve alguna relacioacuten Si es decreciente creciente o

si no tienen nada que ver

22

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo

que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo

El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa

Esta herramienta se utiliza con 2 variables numeacutericas

Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas

mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten

Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de

relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar

en forma de matriz los valores de la correlacioacuten por parejas de variables

Diagrama de dispersioacuten o scatterplot

Matrixplot

Diagrama de correlacioacuten

Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten

Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 21: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

22

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

El objetivo de este caso es intuir posibles relaciones entre variables dos a dos Como el ejemplo

que te comentaba La relacioacuten entre el peso del coche y el consumo del mismo

El diagrama de dispersioacuten es la herramienta por excelencia de esta etapa

Esta herramienta se utiliza con 2 variables numeacutericas

Cuando utilizas maacutes de 2 variables puedes mostrar un diagrama de dispersioacuten por parejas

mediante un matrixplot Es una especie de matrix de diagramas de dispersioacuten

Otra herramienta muy famosa es el diagrama de correlacioacuten La correlacioacuten es un indicador de

relacioacuten lineal entre variables numeacutericas Si quieres saber maacutes te lo explico aquiacute Y puedes dibujar

en forma de matriz los valores de la correlacioacuten por parejas de variables

Diagrama de dispersioacuten o scatterplot

Matrixplot

Diagrama de correlacioacuten

Diagrama hiacutebrido de dispersioacuten histogramas de densidad y diagrama de correlacioacuten

Como en otros casos te voy a mostrar estos graacuteficos para que se te queden grabados

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 22: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

23

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 3 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS

A parte de los graacuteficos que te he comentado tambieacuten puedes hacer una especie de matrixplot pero

con los graacuteficos que has visto de una sola variable numeacuterica Por ejemplo

Matrixplot de los histogramas de todas las variables una a una

Matrixplot de los histogramas de densidad de todas las variables una a una

HISTOGRAMAS

INDIVIDUALES

HISTOGRAMAS DE

DENSIDAD

INDIVIDUALES

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 23: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

24

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

iquestQueacute relacioacuten hay entre variables numeacutericas y con los grupos

Imagiacutenate que eres bioacutelogo y tienes datos de plantas De las dimensiones de los peacutetalos y de los

seacutepalos de flores de 3 especies de plantas

Te interesa ver la relacioacuten que hay entre las dimensiones de los peacutetalos y los seacutepalos de las flores

y la influencia que puedan tener en cuanto al tipo de especies

Por un lado estaacuten las variables numeacutericas Dimensiones de las flores (variables numeacutericas) y por el

otro el tipo de especie (variable categoacuterica)

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 24: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

25

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 4 ndash 2 o MAacuteS VARIABLES NUMEacuteRICAS + 1

CATEGOacuteRICA

Como te deciacutea puede ser interesante ver la relacioacuten entre variables numeacutericas Por ejemplo las

dimensiones de las flores y las diferencias que hay en cuanto a los diferentes grupos Tipos de

plantas

En este caso no vas a ver nada nuevo sino que vas a jugar con los colores Los colores te

ayudaraacuten a diferenciar los grupos

Diagrama de dispersioacuten por colores

Matrixplot por colores

Histograma por colores

HISTOGRAMAS POR

GRUPOS

MATRIXPLOT POR

GRUPOS

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 25: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

26

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

iquestQueacute relacioacuten y queacute proporcioacuten tienen los grupos de mis variables

categoacutericas

Por ejemplo Imagiacutenate que eres meacutedico Y quieres ver si los grupos de fumadores tienen maacutes

tendencia a tener caacutencer de pulmoacuten o no

En este caso tienes dos variables categoacutericas Por un lado la variable dicotoacutemica que distingue los

fumadores de los no fumadores Y por el otro la variables categoacuterica de dos grupos que distingue si

los pacientes tienen caacutencer de pulmoacuten o no

En total dos variables categoacutericas con dos grupos cada una

iquestCoacutemo puedes explorar esta informacioacuten

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 26: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

27

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

CASO 5 ndash VARIABLES CATEGOacuteRICAS

Siguiendo el ejemplo que te acabo de contar lo primer que tienes que hacer es resumir las

variables categoacutericas en forma de frecuencias con la tabla de contingencias

Y despueacutes dibujar esta tabla de contingencias con la ayuda de graacuteficos Con barras colores etc

Estos son las herramientas maacutes interesantes

Tablas de contingencia

Balloon plot (representacioacuten graacutefica de la tabla de contingencias)

Diagrama de barras

Diagrama de sectores

Y como te he mostrado durante toda esta guiacutea te voy a dar la imagen de estas herramientas

graacuteficas para que entiendas lo que estoy diciendo

DIAGRAMA DE

PASTEL

DIAGRAMA DE

BARRAS

BALLOON PLOT

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 27: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

28

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

iquestQueacute teacutecnica estadiacutestica aplico en cada caso

Como te deciacutea en la plantilla anterior tienes dos herramientas muy importantes la exploracioacuten y el

anaacutelisis

Si la exploracioacuten te ayuda a entender tu tabla de datos El anaacutelisis te ayuda a sacar conclusiones

con evidencias estadiacutesticas

Con la ayuda de meacutetodos y caacutelculos estadiacutesticos vas a poder sacar informacioacuten uacutetil de tus datos

Que es de lo que se trata al final

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 28: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

29

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

Como te deciacutea al principio de esta guiacutea la preocupacioacuten que tienes ahora mismo es no saber queacute

teacutecnica estadiacutestica aplicar para aprovechar tus datos O dicho de otro modo queacute test estadiacutestico

utilizar en cada caso

Bien Espero que con las 3 primeras plantillas te haya situado y tengas un enfoque mucho maacutes

praacutectico Ahora intentareacute responder a tu inquietud nuacutemero 1

Estadiacutestica Inferencial

iexclSi El anaacutelisis estadiacutestico de siempre se basa en la estadiacutestica inferencial iquestEn queacute consiste En

obtener conclusiones generales (de una poblacioacuten) a partir de una pequentildea parte de esta

poblacioacuten (muestra) El verbo inferir significa extraer una conclusioacuten general a partir de datos

obtenidos de una muestra

La muestra es una parte pequentildea de una poblacioacuten iexclY claro Las conclusiones que saques

dependeraacuten de los datos que tengas O lo que es lo mismo de coacutemo hayas escogido tu muestra

Contraste de hipoacutetesis

Una de las teacutecnicas por excelencia de la estadiacutestica inferencial (EI) es el contraste de hipoacutetesis

(CH) Como es un concepto complicado te he preparado una ficha para explicaacutertelo un poco maacutes

en detalle Espero que esta ficha tengas claro queacute es y para queacute sirve el contraste de hipoacutetesis

Si quieres maacutes tambieacuten puedes echarle un ojo a este ejemplo

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 29: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

30

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

El nuacutecleo del Anaacutelisis

La clave del eacutexito con el uso de la estadiacutestica aplicada reside sin duda en entender queacute es un test

estadiacutestico o contraste de hipoacutetesis Es una herramienta muy poderosa Y no es faacutecil de entender

al principio

Con esta plantilla quiero que te quede lo maacutes claro posible No me voy a enrollar mucho y voy a ir

al grano

El contraste con fiebre

Para que entiendas queacute es un contraste de hipoacutetesis te voy a poner en una situacioacuten que seguro

que te ha pasado alguna vez

Imagina que te notas raro con calores extrantildeos la cabeza como un bombo y el cuerpo pesado

Tiene toda la pinta de fiebre iquestverdad

Sofaacute un teacute calentito y a descansar

Quizaacutes deberiacuteas tomar un Paracetamol pero como no te gusta medicarte a lo tonto quieres comprobar antes si estaacutes o no en lo cierto

Te pones el termoacutemetro y iexclTachaacuten

Marca maacutes de 37ordmC (la temperatura que te han dicho los meacutedicos a partir de la cual se considera que tienes fiebre)

Como tienes fiebre (seguacuten su criterio) te tomas tu Paracetamol

Bueno pues ahora que visualizas esta escena deacutejame decirte que ponerse el termoacutemetro

cuando crees tener fiebre es como realizar un contraste de hipoacutetesis en una investigacioacuten

cientiacutefica

De hecho es una pequentildea investigacioacuten en miniatura

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 30: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

31

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Hipoacutetesis de investigacioacuten H1

H1 ndash TENGO FIEBRE (estado que buscamos como investigador)

Hipoacutetesis Nula H0

H0 ndash NO TENGO FIEBRE (estado normal)

En el ejemplo que acabas de ver antes de empezar el estudio intuiacuteas un estado diferente ldquoParece

que tengo fiebrerdquo Esta es la hipoacutetesis de investigacioacuten o hipoacutetesis alternativa (H1) y vas a intentar

comprobarla con un test medir la temperatura con el termoacutemetro

La hipoacutetesis de investigacioacuten o H1 es un estado raro no frecuente y es lo que estaacutes

buscando ldquotengo fiebrerdquo

La hipoacutetesis nula o H0 es la contraria a la H1 y es el estado maacutes normal ldquoNO tengo

fiebrerdquo

Ya tienes lo maacutes complicado en tu mente

Un test estadiacutestico

El termoacutemetro es la herramienta que has utilizado para comprobar la hipoacutetesis de investigacioacuten

iquestverdad En la praacutectica estadiacutestica utilizaraacutes un ordenador

Con eacutel vas a calcular un test (un caacutelculo matemaacutetico) Con el resultado del test estadiacutestico vas a

decidir si tu hipoacutetesis de investigacioacuten es cierta o no

iquestY coacutemo seacute si la H1 es cierta Es una excelente pregunta

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 31: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

32

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

La incertidumbre y el p-valor

El resultado de un test estadiacutestico es el p-valor Todo test estadiacutestico calcula este p-valor Este

p-valor mide el grado de incertidumbre Es decir el grado de azar que envuelve tu hipoacutetesis de

investigacioacuten Me explico

Si el p-valor es grande quiere decir que tu H1 es por azar y no tiene mucho sentido

aceptarla

Si el p-valor es pequentildeo quiere decir que tu H1 no es por azar Hay una razoacuten de peso

para considerar que la H1 es cierta Y la vas a aceptar

El p-valor va de 0 a 1 O de 0 a 100 como prefieras Y la frontera para decidir si la H1 es

cierta es el 005 o el 5 (en el 99 de los casos praacutecticos se utiliza el 005 como frontera)

La Receta para no Fallar Nunca

Para responder a tu pregunta de investigacioacuten sigue esta receta

p-valor gt 005 entonces NO puedes rechazar la hipoacutetesis nula (ldquoNO tengo fiebrerdquo)

p-valor lt 005 entonces rechazas la hipoacutetesis nula (NO tengo fiebre) y aceptas tu

hipoacutetesis de investigacioacuten (Tengo fiebre)

p-valor cercano a 005 no tienes suficiente evidencia para rechazar la hipoacutetesis nula Mejor

no mojarse

Para reforzar un poquito esta receta (con otras palabras)

p-valor es pequentildeo y lt 005 la H1 no es debida al azar y puedes aceptarla

p-valor es grande y gt 005 El nivel de azar es grande y NO puedes rechazar la H0

p-valor cercano a 005 No te mojes demasiado

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 32: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

33

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

La Ficha del Contraste de Hipoacutetesis

Un ejemplo para acabar

Mejor acabar con un ejemplo muy simple

Eres bioacutelogo y quieres ver si hay diferencias entre dos tipos de plantas Y te interesa ver si la

longitud del peacutetalo de las flores es diferente

Primero necesitas datos Y consigues 30 observaciones de la longitud del peacutetalo de cada tipo de

planta Es tu muestra Ahora defines la hipoacutetesis de investigacioacuten

H1 (es el caso raro) la longitud del peacutetalo entre las dos especies es diferente

H0 (es el caso normal) las dos especies NO presentan diferencias en la longitud del peacutetalo

Metes los datos en el PC y escoges el test estadiacutestico maacutes apropiado yhellip calculas el p-valor

Resultado p-valor = 000345

iexclEs muy pequentildeo Quiere decir que el azar no tiene nada que ver Recuerda que el p-valor es iexclla

medida de azar

iexclEntonces mi H1 es cierta

Este es el proceso

1 Defines el problema quiero estudiar si la longitud del peacutetalo es diferente entre dos

especies de plantas

2 Defines las hipoacutetesis

a H1 las dos especies tienen la longitud del peacutetalo diferente

b H0 las dos especies NO tienen la longitud del peacutetalo diferente

3 Escoges el test estadiacutestico t-test

4 Calculas el p-valor 00035

5 Conclusioacuten las dos especies tienen la longitud del peacutetalo diferente con un grado de

significacioacuten del 035

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 33: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

34

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 4 ndash EL ANAacuteLISIS

2 Tipos de test estadiacutesticos

En la ficha del contraste de hipoacutetesis te explico queacute es un test estadiacutestico Existen dos tipos en la

praacutectica Los maacutes precisos pero con maacutes restricciones test o pruebas parameacutetricas

O los menos precisos pero con menos restricciones test o pruebas NO parameacutetricas Utiliza

siempre que puedas pruebas parameacutetricas

Pruebas Parameacutetricas basadas en distribuciones de probabilidad conocidas como la distribucioacuten

normal la t-student etc Utilizan paraacutemetros como la media la desviacioacuten estaacutendar etc como

comparadores Las restricciones que tienes que cumplir son la normalidad y la igualdad de

varianzas (a veces hay maacutes)

Pruebas NO Parameacutetricas basadas en rangos y frecuencias No utilizan las foacutermulas de

distribuciones sino que se basan en el rango En el orden de los datos Son menos precisas que

las parameacutetricas pero te pueden servir en muchas ocasiones

El Mapa Mental del Anaacutelisis

Me he dado cuenta las teacutecnicas de anaacutelisis de datos se pueden dividir en 6 tipos de problemas Te

he puesto el tipo de problema y un pequentildeo ejemplo de cada uno

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras Por

ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

Para solucionar estos problemas tipo hay un montoacuten de teacutecnicas y escoger la que maacutes te convenga

no es tarea faacutecil Entendiendo estos problemas tipos puedes escoger la teacutecnica apropiada sin

agobios

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 34: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

35

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

Por eso en los proacuteximos diacuteas te voy a dar acceso a un mini curso gratuito doacutende te podraacutes

descargar un resumen de las teacutecnicas maacutes comunes para solucionar estos 6 problemas tipo

Y poder utilizar por fin la estadiacutestica como una herramienta praacutectica

En la leccioacuten 3 del Fast Track te voy a explicar todo lo que necesitas saber para entender los 6

porblemas tipo de la estadiacutestica aplicada

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 35: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

36

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

LA GUIacuteA DEL ANAacuteLISIS

La visioacuten 360ordm de las teacutecnicas y meacutetodos estadiacutesticos

maacutes comunes en la praacutectica

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 36: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

37

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestEn queacute consiste la Guiacutea del Anaacutelisis

Una fase importantiacutesima en un proyecto de anaacutelisis de datos es sin duda la fase del anaacutelisis

Una vez ya hayas entendido las variables de tu tabla de datos hayas fijado un objetivo para tu

proyecto o estudio Y hayas explorado las variables con teacutecnicas de estadiacutestica descriptiva

Es momento de dar paso al anaacutelisis

La palabra ldquoanalizarrdquo significa encontrar resultados que te permitan extrapolar conclusiones maacutes

generales

Normalmente vas a trabajar con una muestra (un pequentildeo conjunto de datos de toda la poblacioacuten) y

vas a querer obtener inferir conclusiones generales a partir de esta muestra

La estadiacutestica inferencial es la herramienta por excelencia de esta guiacutea Y una de las teacutecnicas maacutes

comunes es el famoso contraste de hipoacutetesis

El contraste de hipoacutetesis es una estrategia de decisioacuten Pero para decidir necesitas calcular con

teacutecnicas estadiacutesticas Y hoy quiero compartir contigo las maacutes utilizadas

Y estas teacutecnicas las voy a clasificar en 6 problemas tipo Son los problemas maacutes comunes en la

praacutectica

Te voy a dar la visioacuten 360ordm del mapa de teacutecnicas Que te va a permitir darle un vuelco a coacutemo hoy

estaacutes viendo la estadiacutestica aplicada

Dentro de estos 6 problemas voy a listarte los test estadiacutesticos y las teacutecnicas estadiacutesticas maacutes

comunes que se utilizan en la praacutectica

No pretendo darte el rollo de todas las teacutecnicas Soacutelo las voy a nombrar

Lo que me interesa de verdad es que sepas que existen estas teacutecnicas y cuaacutendo se pueden utilizar

Pero para miacute lo maacutes importante es que te queden claros los 6 problemas tipo

iexclAtento porqueacute te voy a desvelar estos 6 problemas uno a uno Te los listo primero

1 Distinguir si un grupo es diferente a otro ldquoComparacioacuten de mediasrdquo

2 Distinguir si las proporciones son diferentes de un grupo al otro

3 Ver si los grupos tienen relacioacuten en la tabla de contingencias ldquoDependencia test Chi-

cuadradordquo

4 Analizar si hay relacioacuten entre variables numeacutericas ldquoAnaacutelisis de Correlacioacutenrdquo

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 37: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

38

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

5 Calcular un modelo matemaacutetico que permita predecir una variable en funcioacuten de otras

Por ejemplo ldquoRegresioacuten Lineal Simple o Logiacutesticardquo

6 Comprobar las restricciones de normalidad e igualdad de varianzas

iexclIMPORTANTE Lee atentamente en la primera paacutegina de cada problema porque te explico queacute

significa con un ejemplo

iquestLe damos cantildea

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 38: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

39

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

iquestCoacutemo de diferentes son las distribuciones de mi variable numeacuterica con

respecto a los grupos de mi variable categoacuterica

Este problema tambieacuten conocido como comparacioacuten de medias es muy habitual Y te voy a dar un

ejemplo muy faacutecil

Imagiacutenate que tienes un conjunto de 100 trabajadores 50 de ellos son hombres y las otras 50

mujeres Tu variable categoacuterica es el geacutenero Con dos grupos hombres y mujeres iquestSi

Y quieres ver si el sueldo anual es igual o diferente seguacuten el geacutenero Tu variable numeacuterica es el

sueldo anual

En este tipo de problemas vas a comparar el valor central de las dos distribuciones del sueldo

anual seguacuten sean hombres o mujeres Y vas a tener en cuenta su dispersioacuten De esta manera

podraacutes decidir si un grupo es maacutes grande que el otro o viceversa

O por el contrario son iguales y no hay diferencias

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 39: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

40

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas queacute test existen y puedas identificar el que te interese para tu caso

Te voy a poner otro ejemplo sobre este PR 1 ver si la presioacuten arterial es maacutes alta en un grupo de

pacientes con obesidad y los que no

Con esta figura quiero decirte que la distribucioacuten roja estaacute claramente alejada de la verde o la azul

Con los test del PR 1 vas a calcular estadiacutesticamente si esta distribucioacuten estaacute realmente alejada o

no de las otras

Este tipo de problema los puedes dividir en 5 casos Que ahora te voy a explicar un poquito maacutes

PR 11 ndash 1 variable numeacuterica con 1 valor conocido (univariante con un nuacutemero)

iquestEs el sueldo medio de la poblacioacuten maacutes alto que 1500euro Se trata de comparar la media de la

distribucioacuten de sueldos con el valor de 1500euro

Si la distribucioacuten es normal T-test con un valor (parameacutetrica)

Si la distribucioacuten NO es normal Wilcoxon con un valor (NO parameacutetrica)

PR 12 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica INDEPENDIENTE

(univariante con 2 grupos)

Es importante remarcar que independiente significa que no tiene una relacioacuten el tiempo como

podriacutea ser el peso antes y despueacutes de 3 meses de una dieta En este caso seriacutea variables

dependientes

Por ejemplo iquestes la capacidad pulmonar maacutes alta en un paciente fumador que en uno NO fumador

Si son normales por grupos

Varianzas Iguales T-test

Varianzas diferentes T-test correccioacuten Welch

Si NO son normales por grupos Wilcoxon

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 40: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

41

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 1 ndash DISTINGUIR SI UN GRUPO ES DIFERENTE A OTRO

PR 13 ndash 1 variable numeacuterica con 1 variable categoacuterica dictotoacutemica DEPENDIENTE (univariante

con 2 grupos)

Despueacutes de 2 meses de dieta iquestel peso de los pacientes ha disminuido El peso antes y

despueacutes es una variable dependiente

Si son normales por grupos T-test para grupos dependientes

Varianzas diferentes Wilcoxon para grupos dependientes

PR 14 ndash 1 variable numeacuterica con 1 variable categoacuterica (univariante con 3 o + grupos)

iquestEl peso de100 piezas de tres maacutequinas es el mismo La variable numeacuterica es el peso de las

piezas La categoacuterica es el nombre de la maacutequina

Son distribuciones normales por cada grupo y variable

Igualdad de Varianzas ANOVA

NO igualdad de Varianzas Welch One ndashway (ANOVA corregida)

Alguna NO es normal Kruskall Wallis

PR 15 ndash 2 variables numeacutericas con 1 variable categoacuterica (multivariante por grupos)

iquestEl peso y la altura de los pacientes influyen conjuntamente al tipo de tratamiento

Dos variables numeacutericas peso y altura y la variable categoacuterica es el tipo de tratamiento Con

este test vas a ver si las dos numeacutericas tienen influyen conjuntamente con el tipo de

tratamiento (variable categoacuterica)

Normalidad e igualdad de varianzas MANOVA

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 41: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

42

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

iquestCoacutemo de diferentes son las proporciones de mis grupos de variables

categoacutericas

Este problema tambieacuten conocido como comparacioacuten proporciones es un claacutesico Es el mismo

problema que el PR 1 pero con la particularidad que trabajaraacutes con variables categoacutericas

solamente

Imagiacutenate que tienes por un lado el porcentaje de fumadores y no fumadores de una poblacioacuten y el

porcentaje de la poblacioacuten que ha tenido caacutencer de pulmoacuten Puedes saber el porcentaje de

fumadores que tienen caacutencer y el porcentaje de no fumadores que tienen caacutencer

Comparar estas dos proporciones es el problema que te planteo Se trata de saber si las dos

proporciones tienen o no diferencias

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 42: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

43

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 2 ndash DISTINGUIR LAS DIFERENCIAS ENTRE LAS

PROPORCIONES

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

Este problema consiste en ver si hay diferencias entre proporciones El primer paso siempre es

calcular la tabla de contingencias Tiene la misma idea que el anterior pero ahora trabajaraacutes con

porcentajes (propociones) en lugar de distribuciones

Te muestro los casos maacutes relevantes y los test que se utilizan

PR 21 ndash 1 proporcioacuten con un valor conocido

iquestLos afectados por desahucios son mayor que el 5 de la poblacioacuten La proporcioacuten es el

porcentaje de desahuciados y el valor es el 5

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

PR 22 ndash 2 proporciones (tablas 2x2)

iquestEl porcentaje de caacutencer de pulmoacuten es mayor en fumadores que en NO fumadores Dos

categoriacuteas dicotoacutemicas Padece caacutencer o no y es fumador o no

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Si el 80 de las celdas gt5 Z test

En caso contrario test exacto de Fisher

PR 23 ndash 3 o + proporciones (tablas diferentes de 2x2)

iquestLa proporcioacuten de accidentes de moto es diferente por rangos de edad 15-20 20-25 25-30 y 30-

35 Tenemos 4 proporciones que queremos comparar

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

El test es el Z test

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 43: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

44

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

iquestQueacute dependencia tienen los grupos entre variables categoacutericas

Este problema tambieacuten conocido como test de independencia de Chi Cuadrado es otro claacutesico El

objetivo es ver si los grupos estaacuten relacionados entre variables categoacutericas

Te pongo un ejemplo y lo veraacutes maacutes claro Imagiacutenate que tienes datos de la reparticioacuten de tareas

en casa entre chicos y chicas de parejas que llevan 5 viviendo juntos Es decir tienes una variable

categoacuterica que tiene dos grupos ldquochicordquo y ldquochicardquo Y otra variable categoacuterica que es tareas de casa

con varios grupos ldquolavar la ropardquo ldquolavar los platosrdquo ldquococinarrdquo ldquohacer la comprardquo ldquoplanificar

vacaciones

El objetivo de este tipo de problemas es ver si hay relacioacuten entre ser chico o chica y el tipo de tarea

de casa iquestSe entiende

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 44: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

45

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 3 ndash VER SI LOS GRUPOS TIENEN RELACIOacuteN EN LA

TABLA DE CONTINGENCIAS

Ahora te listo los tipos de test y teacutecnicas No quiero que te agobies No quiero que sepas todos los

test de golpe Sino que sepas cuaacuteles existen y puedas identificar el que te interese para tu caso

El primer paso en este tipo de problemas es calcular la tabla de contingencias y despueacutes aplicar el

test correspondiente Estos son los casos que te encontraraacutes en la praacutectica

PR 31 ndash Dependencia de una tabla de contingencias independiente

iquestLa calidad del aire de Barcelona depende del grado de traacutefico de las calles

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 Categoacutericas dicotoacutemicas (tabla 4x4)

Con el 80 de las celdas con 5 o maacutes Chi Cuadrado

Caso contrario Chi Cuadrado con Correccioacuten de Yates

Categoacutericas Politoacutemicas Test de Chi Cuadrado con Correccioacuten de Yates

PR 32 ndash Dependencia de 2 grupos dependientes

iquestDespueacutes de 3 meses de tratamiento el paciente se siente con un grado de depresioacuten igual iquestO ha

mejorado

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

Test de McNemar

PR 23 ndash Dependencia de mediciones de un experimento

iquestHay relacioacuten en cuanto a la precisioacuten (buena regular mala) de un aparato de medida analoacutegico y

uno oacuteptico

Estadiacutestica descriptiva tabla de contingencias diagramas de barras y pastel

2 variable categoacutericas test Kappa de Cohen

3 o + variables categoacutericas test Kappa de Fleiss

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 45: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

46

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

iquestQueacute relacioacuten existe entre dos o maacutes variables numeacutericas

Este problema tambieacuten conocido anaacutelisis de correlacioacuten es muy utilizado Muchos lo engloban

como un problema de exploracioacuten porque requiere graacuteficos como el matrixplot y diagramas de

correlacioacuten

Pero es en el fondo un anaacutelisis Y es muy semejante al PR 3 de la dependencia de grupos de

variables categoacutericas

En este problema vas a ver si hay relacioacuten entre variables numeacutericas por parejas Por ejemplo

Tienes datos de 200 familias sobre las ganancias y los gastos iquestEs verdad que se cumple que

cuaacutento maacutes tienes maacutes gastas

Esta pregunta se puede resolver con un anaacutelisis de correlacioacuten y ver si dependen las ganancias

con las peacuterdidas

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 46: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

47

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 4 ndash ANALIZAR SI HAY RELACIOacuteN ENTRE VARIABLES

NUMEacuteRICAS

Este es un tipo de anaacutelisis muy interesante cuando tienes variables numeacutericas Puedes observar y

decidir queacute variables estaacuten relacionadas linealmente

El grado de dependencia lineal es la correlacioacuten Y para dar un sentido con un iacutendice se utiliza el

coeficiente de correlacioacuten Si quieres saber maacutes puedes leer este artiacuteculo

La estadiacutestica descriptiva juega un gran papel en este tipo de problema El diagrama de correlacioacuten

y el matrixplot son herramientas muy muy uacutetiles

PR 41 ndash 2 variables numeacutericas

iquestEl consumo medio del coche depende del peso del mismo En este caso utilizaraacutes una tabla de

datos de 300 modelos de coche y tendraacutes recogidas dos variables numeacutericas el consumo medio y

el peso del modelo

Correlacioacuten Simple

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

PR 42 ndash 3 o + variables numeacutericas

iquestEl consumo medio del coche tiene dependencia con el peso del mismo con la cilindrada o

ambos En este caso utilizaraacutes una tabla de datos de 300 modelos de coche y tendraacutes recogidas

tres variables numeacutericas el consumo medio el peso del modelo y la cilindrada

Correlacioacuten Muacuteltiple

Estadiacutestica descriptiva matrixplot plot de correlacioacuten

Coeficiente Parameacutetrico de Pearson

Coeficiente NO Parameacutetrico de Kendall o Spearman

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 47: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

48

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

iquestQueacute modelo matemaacutetico me permite predecir una variable en funcioacuten de la

otra

Hay muchas teacutecnicas y modelos matemaacuteticos para conseguir predecir una variable en funcioacuten de la

otra Pero primero es mejor entender que quiere decir un modelo de prediccioacuten Puedes leer esto a

lo mejor te ayuda

Es un caso meacutedico muy comuacuten conseguir un modelo que te permita calcular la frecuencia cardiacuteaca

maacutexima en funcioacuten de datos como la edad la presioacuten baja y alta el sexo la altura y el peso

Si el meacutedico tiene un modelo asiacute podraacute predecir con un margen de error aceptable la frecuencia

maacutexima de un paciente soacutelo utilizando su edad la presioacuten baja y alta la altura y el peso

De esta manera se evita realizar una prueba complicada y costosa de esfuerzo iquestSe ve

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 48: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

49

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 5 ndash PREDECIR CON UN MODELO MATEMAacuteTICO UNA

VARIABLE EN FUNCIOacuteN DE OTRAS VARIABLES

Para entender este tipo de problemas lo primero y maacutes importante es entender queacute es un modelo

de prediccioacuten Puedes leer este artiacuteculo que te puede ayudar

Despueacutes decirte que hay infinidad de posibilidad Existen tantos modelos matemaacuteticos como

imaginacioacuten tengamos Aquiacute entramos en el mundo de machine learning y modelos de prediccioacuten

lineal Y es un mundo muy muy grande

Pero para simplificar te voy a citar 2 modelos que son los que maacutes se han utilizado siempre Y son

de los maacutes simples Yo siempre digo que lo maacutes simple es lo que funciona mejor

PR 51 ndash 2 variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso del mismo En este caso tienes

dos variables numeacutericas La variable que predices es la y (el consumo del coche) en

funcioacuten de la variable x (el peso del mismo)

Estadiacutestica descriptiva scatterplot con liacutenea de regresioacuten

Anaacutelisis de Regresioacuten Simple Encontrar el modelo y = ax+b

PR 52 ndash 3 o + variables numeacutericas

iquestPuedo predecir el consumo del coche utilizando el peso y la cilindrada del motor

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

Anaacutelisis de Regresioacuten Muacuteltiple Encontrar el modelo y = a1x1 + a2x2 + hellip+ anxn +b

PR 53 ndash Variables numeacutericas + categoacutericas

iquestPuedo predecir la probabilidad de padecer un infarto sabiendo el peso la presioacuten arterial

maacutexima y miacutenima la edad y el geacutenero

Estadiacutestica descriptiva Matrixplot plot de correlacioacuten

El modelo es la Regresioacuten Logiacutestica

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 49: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

50

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

iquestComprobar baacutesicamente si las distribuciones son normales o si las varianzas

entre grupos son iguales

Los test parameacutetricos son los maacutes efectivos pero por el contrario necesitan superar una serie de

restricciones Normalmente son dos

Si las distribuciones numeacutericas son normales

Si las varianzas entre grupos son iguales

Para el PR 1 son esenciales estas restricciones

iexclAhora te cuento un poco maacutes

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 50: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

51

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PR 6 ndash CALCULAR LAS RESTRICCIONES MAacuteS TIacutePICAS DE

PRUEBAS PARAMEacuteTRICAS

Los test parameacutetricos tiene mucha maacutes veracidad que los no parameacutetricos Son maacutes robustos Para

utilizar un test parameacutetrico normalmente es necesario cumplir este tipo de restricciones

PR 61 ndash Normalidad de una distribucioacuten

Para que entiendas que es una distribucioacuten normal puedes ver este artiacuteculo que seguro te va a

ayudar

Descriptiva graacutefica histograma boxplot qqplot

Prueba Shapiro Wilk

PR 62 ndash Varianzas iguales entre grupos

Se trata de ver si la dispersioacuten es la misma para distintas distribuciones

2 grupos test F

3 o + grupos

o Si Distribuciones Normales Levene

o Alguna NO Normal Barlette

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 51: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

52

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

iquestQueacute software utilizo y coacutemo aprendo a manejarlo

Tener claras las etapas queacute es una tabla de datos la exploracioacuten y el anaacutelisis es muy muy

importante Pero la ejecucioacuten lo es mucho maacutes

Hoy quiero hablarte del software que yo utilizo y coacutemo empezar a manejarlo

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 52: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

53

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Si has llegado hasta aquiacute ya has ganado mucho Habraacutes visto que para llevar a la praacutectica todas

estas ensentildeanzas necesitas un PC y un software

Es momento de practicar con tus datos y empezar a utilizar la estadiacutestica en tu realidad como

profesional Y iquestcuaacutel es el siguiente paso Baacutesicamente son dos

1 iquestQueacute software utilizo

2 iquestCoacutemo utilizo el software

iquestQueacute software utilizo

Una preocupacioacuten muy normal derivada de la plantilla 3 y 4 es queacute herramienta o dicho de otro

modo queacute software es el mejor para ti Te lo voy a poner faacutecil Existen dos caminos

CAMINO 1 ndash El Investigador Cientiacutefico

No quiero programar y quiero utilizar un software sencillo para poder afirmar mis hipoacutetesis como

investigador sin complicarme la vida

R + RCommander ndash software libre con capacidad de calcular anaacutelisis estadiacutesticos sin

necesidad de programar Pero puede utilizar funcionalidades de R completas Porque

tambieacuten te permite antildeadir sentencias de coacutedigo

SPSS ndash software de pago y comercial con capacidad muy buena para calcular anaacutelisis

estadiacutesticos sin necesidad de programar No puedes crear rutinas repetitivas y tienes que

pagar para usarlo

CAMINO 2 ndash El Analista de Datos

Quiero convertirme en un Analista de Datos Aprender una herramienta que me permita crecer

como profesional y llegar a ser un teacutecnico e investigador adaptado a la era de los datos y con

mayor capacidad teacutecnica

R + RStudio ndash software libre con capacidad para crear anaacutelisis ad hoc seguacuten lo que

necesitas Es muy faacutecil de implementar la repetibilidad de tus anaacutelisis ya que se utilizan

coacutedigos programables y de faacutecil adaptacioacuten La robustez es la principal caracteriacutestica de

este software

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 53: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

54

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

PLANTILLA 5 ndash EL SOFTWARE

Yo soy partidario de utilizar el software libre Y me decanto por R De esta manera no dependes

de licencias comerciales

Fiacutejate que R cubre los dos caminos que te he planteado Es igual en que situacioacuten esteacutes

Para que me entiendas un poquito maacutes

R es el motor de caacutelculo

RStudio y RCommander son interfaces de usuario del motor de caacutelculo R

Puedes utilizar la que quieras o combinarlas si lo prefieres

RStudio necesita que tu entres los comandos a mano

RCommander funciona a base de clicks

Los caacutelculos son los mismos Aunque para utilizar R al maacuteximo potencial es mejor RStudio

Si quieres avanzar y ser un buen profesional en anaacutelisis de datos con capacidades maacutes avanzadas

te recomiendo utilizar R+RStudio Utilizaraacutes R a toda maacutequina

iquestCoacutemo utilizo el software

Es cuestioacuten de praacutectica Pero mejor empezar paso a paso Te he preparado una guiacutea de R para

que vayas paso a paso y te explico lo esencial para empezar con eacutexito

So no te la has descargado auacuten te dejo con una guiacutea para empezar con R sin morir en el intento

DESCARGA LA GUIacuteA PARA

EMPEZAR CON R SIN MORIR EN EL

INTENTO

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados

Page 54: LA GUÍA PARA NO PERDERTE NUNCAGuía...BONUS 1: LA GUÍA COMPLETA DEL ANALISTA DE DATOS LA GUÍA PARA NO PERDERTE NUNCA ¿En qué consiste esta guía? A ver si te suena esta situación:

55

BONUS 1 LA GUIacuteA COMPLETA DEL ANALISTA DE DATOS

LA GUIacuteA PARA NO PERDERTE NUNCA

iquestY AHORA QUEacute

iquestCoacutemo aplicar todo esto en tu base de datos

Te puedo ayudar Conmigo aprenderaacutes a utilizar todo lo que has visto en estas plantillas y superar

lo maacutes difiacutecil la curva de aprendizaje inicial Y te ayudareacute tanto a aprender la estadiacutestica maacutes

esencial como utilizarla en la praacutectica con el software de aplicacioacuten

Espera un poquito y llegareacute con la solucioacuten que andas buscando

iquestME AYUDAS A DIFUNDIR ESTA GUIacuteA

Comparte la guiacutea con tus colegas pinchando en el icono de tu red favorita

Jordi

PD por favor dime queacute te ha parecido esta guiacutea contaacutendome tu experiencia a jordiconceptosclaroscom

Asiacute podreacute mejorar el contenido y ser maacutes efectivo con mis mensajes

Ayudo a investigadores y profesionales teacutecnicos a

aprender herramientas de anaacutelisis de datos para

mejorar sus capacidades teacutecnicas y sentirse

mejores y maacutes valorados