introducción a r y r commander

56
Introducción a R y R Commander Probabilidades y Estadística Profesorado de Matemática 2013

Upload: leonel-g-guardia

Post on 18-Oct-2015

32 views

Category:

Documents


0 download

TRANSCRIPT

  • Introduccin a R y R Commander

    Probabilidades y Estadstica Profesorado de Matemtica2013

  • R es un poderoso lenguaje de programacin basado en el paradigma DOO (Diseo Orientado a Objetos), el cual se constituye adems como una poderosa herramienta informtica de tratamiento estadstico de los datos.

    El tratamiento estadstico de los datos supone:

    Estadstica Descriptiva Estadstica Inferencial

    Qu es R?

  • Fue inicialmente escrito por Robert Gentleman y Ross Ihaka del Departamento de Estadstica de la Universidad de Auckland en Nueva Zelanda. R actualmente es el resultado de un esfuerzo de colaboracin de personas del todo el mundo.

    Orgenes de R

  • Significa que cada persona puede generar un cdigo que implique una instruccin determinada dentro del programa, para ello, debe contar con conocimientos en Programacin como as tambin en el paradigma DOO, dentro de l, es el uso del objeto una entidad bsica. Cualquier expresin evaluada por R tiene como resultado un objeto. Cada objeto pertenece a una clase, de forma que las funciones pueden tener comportamientos diferentes en funcin de la clase a la que pertenece su objeto argumento.

    Qu significa que R sea un lenguaje de programacin?

  • Un software se considera libre cuando:

    Todos los usuarios que trabajan con l pueden introducir modificaciones en su cdigo fuente.Los usuarios crean nuevas funciones que realicen determinadas instrucciones especficas.No se debe pagar una licencia para su uso.

    Porqu decimos que es un software Libre?

  • Es una interfaz grfica de trabajo que pretende acercar ms al usuario, puesto que el trabajo en R como consola implica conocimientos de Programacin, trabajando con R Commander (su abreviatura es Rcmdr) estos conocimientos no son necesarios. Adems esta interfaz est en castellano lo que facilita an ms el trabajo estadstico.Adems de lo aclarado anteriormente el trabajo con Rcmdr supone servir como generador de instrucciones R. Es posible que muchos de nuestros alumnos no necesiten otro nivel de uso que el que proporciona Rcmdr, pero unos pocos y la mayora del personal investigador, una vez superado el respeto inicial a la herramienta, se decantarn por manejarse directamente con la consola de R.

    Qu es R Commander en el contexto de R?

  • La descarga de R en el equipo se efecta desde:

    http://cran.es.rproject.org/bin/windows/base/release.htm

    Instalacin en Windows

  • Luego se procede con la ejecucin, siguiendo las instrucciones.

    Para la instalacin de Rcmdr, se arranca R desde InicioTodos los programas R. A continuacin, PaquetesInstalar Paquete(s) y elegido el mirror desde el cual se quiere instalar el paquete, por ejemplo Spain (Madrid), se selecciona Rcmdr.

    Instalacin en Windows

  • Estadstica DescriptivaCmo cargar datos?

    Resumiendo la informacin: Tablas estadsticas

    Grficos estadsticos

    Parmetros de posicin y de dispersin

  • Cmo cargar datos?Para cargar datos en R tenemos dos opciones: La primera opcin consiste en realizar la carga a travs del mismo programa como se muestra a continuacin:Antes de comenzar a trabajar con los datos, debemos asegurarnos de haber cargado el paquete R commander, para ello haciendo click en la solapa Paquetes, opcin Cargar paquete, aparecern los diferentes paquetes que se pueden utilizar, de los cuales seleccionamos Rcmdr.

  • Luego que el paquete ha sido cargado aparecern dos ventanas, una que corresponde a la consola del R (R console) y otra correspondiente al R commander.

  • En la ventana correspondiente a la consola de R, se muestran las sentencias utilizadas para llamar a las funciones predefinidas en el programa; mientras que en la ventana del R commander podemos directamente llamar a las funciones pero no vemos su sintaxis (Interfaz para el usuario amigable). De igual forma, si el usuario est interesado en conocer cul es el cdigo y la sintaxis utilizada puede visualizarla a travs de la consola de R (R console), esta informacin aparece a medida que uno va llamando a cada una de las funciones que va necesitando en R commander. Para cargar los datos primeramente lo haremos desde R, introduciendo nosotros mismos uno por uno los datos con los cuales trabajaremos. Para ello comenzaremos con el siguiente ejemplo:

  • Ejemplo de aplicacin: Las siguientes fueron las notas obtenidas por un grupo de alumnos en un examen de la materia Estadstica en la carrera de Ingeniera:6-6-2-8-9-3-6-2-7-9-10-4-4-2-3-7-3-2-6-4-7-6-6-10-3-3-9-2-2-3 Para introducir estos datos en R, procederemos del siguiente modo: En R commander hacemos click en la solapa Datos, seleccionamos Nuevo conjunto de datos.

  • Una vez en la pantalla, el programa pedir asignar un nombre al conjunto de datos que vamos a cargar, es decir que aparecer la siguiente tabla:

  • Una vez que dimos click en Aceptar, aparecer el Editor de datos de R para cargar los datos en filas (puede que sea ms de un atributo), por eso, el programa tiene varias columnas para poder hacer referencia a las diferentes variables.

  • Una vez realizada la carga de los datos del ejemplo, quedarn de la siguiente manera:

  • Aclaracin: Para cambiar el nombre de cada variable interviniente, nos posicionamos sobre la celda referida a la misma, hacemos click con el botn derecho del mouse y aparecer un cuadro que nos pedir ingresar el nuevo nombre de la variable (renombrar) y el tipo de dato que albergar (numrico o carcter).

  • La segunda opcin para la carga de datos, puede realizarse importando los mismos, desde cualquier extensin de archivo que el programa soporte, en este caso la extensin de Excel es .xls. Para realizar esta carga hacemos click en Datos, seleccionamos la opcin de Importar datos y luego hacemos click desde conjunto de datos Excel

  • En la pantalla se visualizar (una vez cargado los datos desde el disco C, por defecto) la siguiente ventana:

  • Una vez cargado el conjunto de datos (por cualquiera de las dos maneras), los datos no aparecern en pantalla inmediatamente, por este motivo, si hacemos click en la solapa Visualizar conjunto de datos, podremos ver a nuestra derecha el conjunto de datos que ha sido cargado.

  • Resumiendo la informacin: Tablas Estadsticas Para trabajar con las tablas estadsticas, primeramente debemos convertir los datos numricos en factores, para ello seleccionamos de la solapa Datos la opcin Modificar variables del conjunto de datos activo, y hacemos click en Convertir variable numrica en factor

  • En la tabla anterior tildamos la opcin Utilizar nmeros, y hacemos click en Aceptar.

  • De esta manera la variable numrica queda convertida en factores. Podemos visualizar el conjunto de datos y veremos dos columnas de 30 filas cada una en la cual aparecern los datos en forma numrica y los que utilizamos convertidos en factores:

  • Para realizar la tabla de frecuencias, en la solapa Estadsticos, seleccionamos Resmenes y luego distribucin de frecuencias. La tabla correspondiente aparecer en la ventana de resultados.

  • Grficos EstadsticosPara realizar el grfico correspondiente al conjunto de datos cargados (variable cuantitativa discretizada): Notas, procederemos de la siguiente manera: En la pestaa Grficas, seleccionamos Grfica de Barras:

  • El grfico correspondiente ser: El grfico no aparecer en la ventana del R commander, sino en la ventana del RGui

  • Diagrama de Tallo y Hojas Otro grfico posible de poder realizar para la presentacin grfica de la informacin es el denominado Grfico de Tallo y hojas, este grfico adems es ideal cuando trabajamos con dos distribuciones y deseamos realizar comparaciones acerca de la misma (cuando son de la misma naturaleza) o de distinta naturaleza para visualizar como es la agrupacin de los datos.Para ello, en la solapa Grficas, debemos seleccionar Grfica de tallo y hojas, nos aparecern las variables que tengamos cargadas en el conjunto de datos y que sean de tipo numricas (no de tipo factor).

  • Nos aparecern las variables que tengamos cargadas en el conjunto de datos y que sean de tipo numricas (no de tipo factor).

  • Luego, seleccionaremos la variable en cuestin, en las opciones siguientes colocaremos:Partes por tallo: Automtico.Estilo de divisin de los tallos: Dgitos repetidos de los tallos. Opciones: Destildaremos la opcin que dice Mostrar niveles. Despus daremos aceptar, y en la ventana de resultados aparecer el grfico de tallo y hojas correspondiente:

  • Los ceros representan la frecuencia de repeticin de cada nota (que es el tallo)

  • Grfico de Caja y Bigotes (Boxplot)

    Este grfico es muy sencillo de realizar, como el anterior, solo trabaja con variable de tipo numrica (no de tipo factor). Para realizarlo, en la solapa Grficas debemos seleccionar Diagrama de cajas, nos aparecern las variables que tengamos cargadas en el conjunto de datos y que sean de tipo numricas (no de tipo factor).

  • Seleccionaremos la variable de inters y daremos aceptar, en R Guide aparecer la grfica correspondiente:

  • Histograma El histograma es el grfico que realizaremos cuando trabajemos con datos que deben ser agrupados por intervalos para su tratamiento, aunque el conjunto de datos en un principio se trate de igual manera que si no se necesitara agrupar por intervalos. Para construir el histograma, en la solapa Grficas seleccionamos Histograma y aparecer una ventana con las variables disponibles (de tipo numricas) para su grfica como as tambin diferentes opciones:

  • Seleccionamos la variable sobre la cual queremos obtener el histograma correspondiente y en las opciones, tildamos solo la que dice Recuentos de frecuencias, y damos aceptar, el histograma se presentar en la ventana R Guide

  • Histograma: IntervalosPara que R nos muestre los intervalos en los cuales ha sido dividido el conjunto de datos, es necesario que en la ventana de Instrucciones de R Commander, modifiquemos la funcin de creacin del histograma que es histogram(). Para que nos d la informacin buscada por consola, tendremos que declarar que no nos dibuje el histograma, esto se consigue con el argumento plot, es un argumento lgico, por defecto est en TRUE, quiere decir que siempre nos representa la grfica, en cambio si lo ponemos en FALSE, no nos representar el histograma de forma grfica pero s nos mostrar informacin por consola, adems de esto deberemos modificar la mayscula de Histogram por una minscula. .

  • Es decir que la instruccin anterior deber ser modificada por la siguiente:

  • Al seleccionar la nueva sentencia y hacer click en Ejecutar, en la ventana de resultados aparecer la informacin referida a los intervalos:

  • $breaks0 2 4 6 8 10

    $counts 15 2 1 2 3

    $intensities[1] 0.32608696 0.04347826 0.02173913 0.04347826 0.06521739

    $density 0.32608696 0.04347826 0.02173913 0.04347826 0.06521739

    $mids 1 3 5 7 9

    $xname"Calificaciones$NotasMia"

    $equidist TRUE

    attr(,"class")"histogram"

  • Podemos observar, que nos ofrece gran cantidad de informacin, empezando por lo intervalos de las clases en $breaksTambin nos informa de las frecuencias absolutas de cada intervalo en $countsOtra informacin que podemos obtener son las frecuencias relativas, tanto $intensities como $density nos la ofrece, ambas son lo mismo, simplemente se mantiene por compatibilidad con el lenguaje S, pero nos la da de una manera peculiar, nos ofrece la funcin de densidad, para obtener la frecuencia relativa debemos multiplicar estos elementos por el cociente entre el nmero de intervalos y 10.Tambin nos ofrece las marcas de los subintervalos en $midsY por ltimo, el campo $equidist, nos informa que los intervalos tienen la misma longitud, sto lo podemos cambiar a la hora de ejecutar la funcin hist()

  • Parmetros de Posicin y de DispersinPara poder obtener los parmetros de posicin y de dispersin, primeramente debemos tener en cuenta que la variable debe ser de tipo numrica, es decir, no puedo trabajar los datos como si fuesen factores, por esta razn, ser necesario agregar en el conjunto de datos una columna adicional con las mismas notas pero de tipo numricas. Para ello en la solapa Editar conjunto de datos, se abrir el conjunto de datos y podremos agregar una nueva columna designando a la nueva variable con otro nombre y aclarando que es de tipo numrico.

  • Para determinar los parmetros, nos posicionamos sobre la pestaa Estadsticos, luego resmenes y dentro de ello seleccionamos resmenes numricos. Podremos ver: Media Cuartiles Desviacin tpica

    Esto se muestra en las siguientes diapositivas:

  • Haciendo click en Aceptar, obtendremos en la ventana de resultado la informacin deseada:

  • *