tutorial introducción al análisis de datos con hojas de cálculo

12
Tutorial: introducción al análisis de datos con hojas de cálculo Elaborado por: Camila Salazar Cómo importar un archivo .csv a Excel Para este tutorial se utilizará la base de datos: “rendimientoacademico_chile.csv”, que contiene datos de alumnos aprobados, reprobados y retirados de centros educativos en todo Chile para el año 2012. El archivo se puede descargar de http://tinyurl.com/pxlqdm6. Para el ejemplo se utilizaron solamente los datos de aquellos centros educativos que tuvieran a más de 200 alumnos por nivel y de tres regiones del país, para simplificar los cálculos. La base original se puede descargar de: http://datos.gob.cl/datasets/ver/990 1. Abra su Excel y busque en la parte superior la pestaña de dice “Data” o “Datos”, seleccione la opción que dice “External Data Sources” y de clic en en “Text” o “Texto”. 2. Seleccione el archivo .csv que desee importar. 3. Seleccione la opción “Delimited” o “Delimitado”, dado que los archivos .csv se caracterizan por estar delimitados por algún signo de puntuación como comas, espacios, guiones, entre otros.

Upload: socialtic

Post on 23-Jan-2017

305 views

Category:

Data & Analytics


2 download

TRANSCRIPT

Page 1: Tutorial  introducción al análisis de datos con hojas de cálculo

   Tutorial:  introducción  al  análisis  de  datos  con  

hojas  de  cálculo    

Elaborado  por:  Camila  Salazar      

Cómo  importar  un  archivo  .csv  a  Excel    Para  este  tutorial  se  utilizará  la  base  de  datos:  “rendimientoacademico_chile.csv”,  que   contiene   datos   de   alumnos   aprobados,   reprobados   y   retirados   de   centros  educativos   en   todo   Chile   para   el   año   2012.     El   archivo   se   puede   descargar   de  http://tinyurl.com/pxlqdm6. Para  el   ejemplo   se  utilizaron  solamente   los  datos  de  aquellos  centros  educativos  que  tuvieran  a  más  de  200  alumnos  por  nivel  y  de  tres  regiones  del  país,  para  simplificar   los  cálculos.        La  base  original  se  puede  descargar  de:  http://datos.gob.cl/datasets/ver/990  

 1. Abra  su  Excel  y  busque  en   la  parte   superior   la  pestaña  de  dice   “Data”  o  

“Datos”,  seleccione  la  opción  que  dice  “External  Data  Sources”  y  de  clic  en  en  “Text”  o  “Texto”.        

   2. Seleccione  el  archivo  .csv  que  desee  importar.  

 3. Seleccione  la  opción  “Delimited”  o   “Delimitado”,  dado  que  los  archivos  

.csv  se  caracterizan  por  estar  delimitados  por  algún  signo  de  puntuación  como  comas,  espacios,  guiones,  entre  otros.      

Page 2: Tutorial  introducción al análisis de datos con hojas de cálculo

 

  2  

       

4. Seleccione  la  opción  del  delimitador  de  sus  datos.    Por  ejemplo,  en  el  caso  del  archivo  “rendimiento_academico.csv”  se  trata  de  una  coma,  mientras  que   en   otros   archivos   puede   ser   un   “|”,   “;”   u   otro   signo.     De   click   en  siguiente,  dos  veces.    

     

5. El  archivo  queda  listo  para  comenzar  a  trabajar.        

Page 3: Tutorial  introducción al análisis de datos con hojas de cálculo

 

  3  

Algunas  fórmulas  básicas    Una  vez  que  hemos  importado  la  base  de  datos  a  la  hoja  de  cálculo,  explorado  el  tipo   de   variables   que   contiene   y   planteado   las   preguntas   que   queremos  responder,  podemos  comenzar  el  análisis.        Uno  de  los  primeros  pasos  es  explorar  el  tipo  de  datos  que  tenemos  y  empezar  a  realizar   cálculos   generales   que   nos   permitan   entender   mejor   la   información.    Para  ello  podemos  utilizar  fórmulas  básicas.      Para  insertar  una  fórmula  en  Excel  se  digita  =  en  la  celda  seguido  de  la  fórmula  que   se   quiera   utilizar:     =NOMBREDELAFUNCION(Argumento).     A   continuación  hay  una  lista  de  algunas  de  las  funciones  comunes  o  de  uso  frecuente  cuando  se  trabaja  con  datos.        FORMULA  EN  INGLÉS   FÓRMULA  EN  

ESPAÑOL  DESCRIPCIÓN  

=SUM(A1:A5)*       =SUMA(A1:A5)    

Suma   los   valores   en   las  celdas  seleccionadas  

=AVERAGE(A1:A5)         =PROMEDIO  (A1:A5)    

Calcula   el   promedio  de   los  valores   de   las   celdas  seleccionadas  

=COUNT(A1:A5)   =CONTAR(A1:A5)    

Cuenta   el   número   de  observaciones  

=INT   =ENTERO(A1:A5)    

Devuelve   el   valor   entero  del  número,  eliminando  los  decimales  

=MEDIAN(A1:A5)   =MEDIANA(A1:A5)   Calcula   la   mediana   de   los  datos  seleccionados  

=MIN(A1:A5)   =MIN(A1:A5)   Calcula   el   valor  menor   del  rango  de  datos  

=MAX(A1:A5)   =MAX(A1:A5)   Calcula   el   valor  mayor   del  rango  de  datos  

=MODE(A1:A5)   =MODA(A1:A5)   Calcula   la   moda   del   rango  de  datos  

=PERCENTILE(A1:A25,  numero  de  percentil)  

=PERCENTIL(A1:A25,  numero  de  percentil)  

Calcula   el   percentil  deseado   a   un   rango   de  datos.     Por   ejemplo   si  queremos   el   25,   ponemos  en   número   de   percentil  0.25.  

*El   rango   A1:A5   se   usa   como   ejemplo,   hay   que   seleccionar   el   rango   correcto  según  el  cálculo  que  se  quiera  realizar.          

Page 4: Tutorial  introducción al análisis de datos con hojas de cálculo

 

  4  

Cómo  filtrar  datos  y  ordenar  variables    Otra   forma   de   explorar   la   información   es   utilizando   filtros   y   ordenando  variables.        Los   filtros   permiten   establecer   criterios   específicos   sobre   la   información   de  interés  que  estamos  buscando,  por  ejemplo  ordenar  los  datos  de  mayor  a  menor  o  seleccionar  solamente  unas  variables.        Para   aplicar   un   filtro,   posiciónese   sobre   la   primera   fila   en   el   encabezado  de   la  variable  que  desee  filtrar,  y  en  la  parte  superior  seleccione  la  figura  que  parece  un  embudo.    Luego  de  clic  en  el  triángulo  negro  que  aparece  debajo  de  la  celda.  

     En   este   ejemplo,   supongamos   que  queremos  ver  cuál  es  el  centro  educativo  con   mayor   cantidad   de   alumnos.    Seleccionamos   el   triángulo   que   aparece  en   la   celda  de   total_alumnos.    Al  dar   clic,  nos  aparece  un  recuadro  y  seleccionamos  la   opción   “Descending”   (Descendente)  para  ordenar  los  datos  de  mayor  a  menor.                          

Page 5: Tutorial  introducción al análisis de datos con hojas de cálculo

 

  5  

 También   podríamos   seleccionar  solo   aquellos   centros   educativos  de   enseñanza   media.     Para   ello,  aplicamos  el   filtro  en   la   columna  de   “nivel_ensenanza_agregado”   y  en  el  cuadro,  seleccione  la  opción  de   select   all   (para   deseleccionar  las   opciones)   y   luego   de   clic   en  enseñanza   media   (que   es   la  opción  que  queremos).      Si   quisiéramos   seleccionar  nuevamente   todas   las   opciones,  damos  clic  a  la  casilla  “Select  All”  (Seleccionar  todos).      

 Otra  forma  de  ordenar  los  datos:    

1. Posiciónese  sobre  una  celda  en  la  columna  que  quiere  ordenar.  2. En   la   parte   superior   de   la   hoja   de   cálculo   busque   este   símbolo   (o   uno  

similar)  .  

 En  el  caso  de  “Google  Sheets”  busque  en  la  parte  superior  donde  dice  “Data”  y  seleccione  “Short  sheet  by  column”  .  

 3. Seleccione  ordenar  de  la  A  –Z  (de  menor  a  mayor)  o  Z-­‐A  (de  mayor  a  

menor).      4. Una  vez  que  ordenó  verifique  la  información  y  asegúrese  de  que  se  haya  

ordenado   correctamente.     Algo   importante   a   tener   en   cuenta   es   que  cuando   se   ordena   una   columna   las   demás   deben   moverse   también   de  forma  que   las   observaciones   sean   las   correctas  para   cada   variable.     Por  ejemplo:  En   la   tabla   se   observa   que   la   persona   1   dedica   38   horas   a   labores  domésticas   y   1   al  mercado   laboral.     Al   ordenar   la   columna   “promedio   de  horas  semanales  que  dedican  al  mercado  laboral”  de  menor  a  mayor,  vemos  

Page 6: Tutorial  introducción al análisis de datos con hojas de cálculo

 

  6  

que   las   tres   columnas   cambian   de   orden   de   forma   que   las   observaciones  sigan  siendo  las  mismas  para  la  persona  1.    

 

     

Tablas  dinámicas  (pivot)  para  el  análisis     Las  tablas  dinámicas  o  pivot  son  una  herramienta  útil  y  fácil  de  usar  para  analizar  datos,  ya  que  permiten  cruzar  variables  y  realizar  cálculos  con  ellas.         ¿Cómo  crear  una  tabla  pivot?    

1. Lo  primero  es  seleccionar  todo  el  rango  de  datos  con  el  que  queremos  trabajar.     Para   el   ejemplo   vamos   a   trabajar   con   el   archivo  rendimientoacademico_chile.csv.   Para   seleccionar   podemos   usar  Ctrl+Shift  y  las  flechas  del  teclado  para  seleccionar  de  forma  rápida.        

2. Buscar   donde   dice   Data   y     dar   clic   en   el   ícono   que   diga   Pivot   Table.    Dependiendo  del  Excel  con  el  que  se  esté  trabajando  la  ubicación  puede  variar,   por   ejemplo   en   algunas   versiones   hay   que   buscar   Insertar   y  luego  dar  clic  en  Tabla  dinámica.      

     

Page 7: Tutorial  introducción al análisis de datos con hojas de cálculo

 

  7  

3. Una  vez  que  dimos  clic  a  tabla  Pivot  se  nos  abre  una  nueva  hoja  de  trabajo  con  el  organizador  de  tabla  dinámica  que  se  ve  así:  

 Independientemente   del   Excel   que   estemos   utilizando   las   tablas   pivot  tienen  en  común  que  se  componen  de  cuatro  elementos:  

• Filas:  en   las   filas  se   introducen  las  variables  con  las  que  queremos  realizar  cálculos.      

• Columnas:  al  igual  que  con  las  filas,  en  las  columnas  se  introducen  las  variables  con  las  que  queremos  realizar  cálculos.      

• Valores:  asigna  valores  y  funciones  a  las  filas  y  columnas.      • Filtros:   permite   desplegar   solamente   valores   o   categorías  

específicas   de   la   variable   que   queramos,   para   realizar   un   análisis  más  detallado.      

 

Page 8: Tutorial  introducción al análisis de datos con hojas de cálculo

 

  8  

4. Para  ver  cómo  funciona  la  tabla  lo  ideal  es  plantearse  las  preguntas  que  queremos  responder.    Por  ejemplo:    

¿Cuántos  centros  de  enseñanza  hay  en  cada  provincia?  Esta   es   una   pregunta   de   primer   nivel.     Para   responder   a   la   pregunta  arrastramos   desde   la   parte   superior   del   editor   de   tabla   dinámica   la   variable  “nombre_provincia”   hasta   el   campo   de   filas.     Luego   tomamos   la   variable  “nombre_establecimiento”  y  la  arrastramos  al  campo  de  valores.    En  el  campo  de  valores  debería  decir  “Count”    (Cuenta).      

   

    Al   hacer   esto   observamos   que   la   tabla   nos   permite   responder   a   la  pregunta   planteada.     Si   ahora   quisiéramos   ordenar   los   resultados   de  mayor   a  menor   para   saber   con   mayor   claridad   cual   es   la   región   con   más   centros  educativos,   nos   posicionamos   en   la   primera   fila   y   luego   en   la   parte   superior  

seleccionamos  el  símbolo            para  ordenar  los  datos.         También   en   el   campo   de   valores   podemos   realizar   otros   cálculos   como  mostrar   el   porcentaje   por   filas   o   columnas,   el   mínimo,   el   máximo,   promedio,  entre  otros.      

Page 9: Tutorial  introducción al análisis de datos con hojas de cálculo

 

  9  

  Por   ejemplo   si   quisiéramos   ver   la   proporción   respecto   al   total,  arrastramos   la  variable  a   la  que  queremos  calcular  el  nuevo  valor  al   campo  de  valores  y  damos  clic  en  la  esquina  derecha  de  la  variable  ubicada  en  el  campo  de  valor.   En   la   ventana   que   se   despliega   seleccionamos   “opciones”   y   luego  escogemos  el  cálculo  que  queremos    realizar,  por  ejemplo  calcular  el  porcentaje  con  respecto  al  total.      

 

     Si  tuviéramos  una  pregunta  como:    ¿Qué  tipo  de  dependencias  hay  en  cada  región?      Esta   sería     una   pregunta   en   la   que   se   combinan   dos   variables,   por   lo   que  necesitamos  construir  una  tabla  cruzada  en  la  que  se  coloca  una  variable  en  las  filas  y  otra  en  las  columnas.        Como  ya  habíamos  colocado  la  variable  de  nombre  de  región  en  las  filas,  lo  que  tenemos   que   hacer   es   colocar   la   variable   “dependencia”   en   el   campo   de  columnas.  

   

Page 10: Tutorial  introducción al análisis de datos con hojas de cálculo

 

  10  

     Si   quisiéramos   agregar   una  nueva   variable,   por   ejemplo   saber   cuántos   centros  están  en  zona  rural  y  cuáles  en  urbana,  según  el  tipo  de  dependencia  y  la  región,  podemos   agregar   la   variable   “área_geografica”   al   campo   de   filas   con   lo   que  obtendríamos  una  tabla  así:    

       

Page 11: Tutorial  introducción al análisis de datos con hojas de cálculo

 

  11  

Podemos  observar  que  según  cada  región  se  despliegan  aquellos  centros  en  zona  urbana  y  rural  y  los  clasifica  según  el  tipo  de  dependencia.        Otra  forma  de  responder  a  la  pregunta  es  agregando  la  variable  “área_geografica”  al  campo  de  filtros.    Los  filtros  funcionan  para  desplegar  en  la  tabla  las  categorías  de  la  variable  que  queramos.    La  variable  filtro  aparece  en  la  parte  superior  de  la  tabla  de  resultados  y  para  poder  filtrar  seleccionamos  el  triángulo  que  se  ubica  en  la  parte  superior  derecha.    

       Al  hacer  esto  se  despliega  un  recuadro  donde  aparecen  las  diferentes  categorías  de  la  variable,  por  lo  que  podemos  seleccionar  todas  o  solo  algunas.      Por  ejemplo  si   seleccionamos   los  centros  en  zona  rural,   solamente   los  hay  en   tres   regiones,  mientras  que  12  regiones  tienen  centros  educativos  en  áreas  urbanas.        

     

Page 12: Tutorial  introducción al análisis de datos con hojas de cálculo

 

  12  

   Así   dependiendo   de   la   pregunta   que   nos   formulemos   podemos   utilizar   las  diferentes  opciones  de   las   tablas  dinámicas.    Aquí  algunos  consejos  para  tomar  en  cuenta:  

1. Identifique  cuántas  variables   tiene  su  pregunta,  de  esta  manera  podrá  ver  cuáles  coloca  en  filas  o  columnas.    

2. Piense   qué   tipo   de   cálculos   puede   realizar   con   la   variable   que   está  ubicada   en   el   campo   de   valores.     Recuerde   verificar   qué   tipo   de  variables  son  (numéricas,  cualitativas).    Por  ejemplo  se  puede  calcular  una   frecuencia   del   tipo   de   centro   educativo   pero   no   un   promedio,  mientras  que  para  a  variable  de  total  de  alumnos  se  podría  calcular   la  diferencia  entre  los  centros  con  menos  y  más  alumnos  por  región.    

3. Una  vez  que  tenga  su  tabla   lista,  es  recomendable  pegarla  en  una  hoja  nueva.      

   Otros  tips     Para   seleccionar   muchos   datos   a   la   vez   de   forma   fácil,   posiciónese  sobre  la  primera  celda  y  use  Ctrl+Shift  y  las  flechas  del  teclado  para  seleccionar  de  forma  rápida.