libro resumenes v121114_1436

LIBRO DE RESÚMENES

IV JORNADAS DE USUARIOS DE RCREAL, BARCELONA

15 Y 16 DE NOVIEMBRE DE 2012

COMITÉS ORGANIZADOR Y CIENTÍFICO

http://r-es.org/4j

13 DE NOVIEMBRE DE 2012

© 2012 Organización de las IV Jornadas de Usuarios de R

Esta obra está bajo una licencia Reconocimiento-No comercial-Compartir bajo lamisma licencia 3.0 España de Creative Commons. Para ver una copia de esta licencia,visite:http://creativecommons.org/licenses/by-nc-sa/3.0/es/legalcode.es.

Usted es libre de copiar, distribuir y comunicar públicamente la obra, y hacer obrasderivadas bajo las condiciones siguientes:

Reconocimiento. Debe reconocer los créditos de la obra de la manera especi-ficada por el autor o el licenciador (pero no de una manera que sugiera que tienesu apoyo o apoyan el uso que hace de su obra).

No comercial. No puede utilizar esta obra para fines comerciales.

Compartir bajo la misma licencia. Si altera o transforma esta obra, o gene-ra una obra derivada, sólo puede distribuir la obra generada bajo una licenciaidéntica a ésta.

Al reutilizar o distribuir la obra, tiene que dejar bien claro los términos de la licenciade esta obra. Alguna de estas condiciones puede no aplicarse si se obtiene el permisodel titular de los derechos de autor. Nada en esta licencia menoscaba o restringe losderechos morales del autor.

I

http://creativecommons.org/licenses/by-nc-sa/3.0/es/legalcode.es

Índice general

Índice general III

Información General IX

Presentación X

Información útil XI

Comité organizador XIII

Comité científico XIV

Patrocinadores XV

Programa XVI

I Sesión de Comunicaciones I 1

1 Funciones geoestadísticas y funciones de base radial en el programa R: Pa-quete geospt 2Carlos Eduardo Melo Martínez, Oscar Orlando Melo Martínez, Sandra EsperanzaMelo MartínezUniversidad Distrital Francisco José de CaldasUniversidad Nacional de ColombiaUniversidad de Barcelona - España.

2 Investigación operativa reproducible. Aplicación a la optimización de sis-temas energéticos 3Emilio L. Cano, Javier M. MoguerzaDpto. Estadística e Investigación Operativa, Universidad Rey Juan Carlos

3 MicroDatosEs: un paquete para leer ficheros de microdatos públicos 4Carlos-J. Gil Bellostadatanalytics

III

ÍNDICE GENERAL

4 Flujo de trabajo reproducible con R 5Aureli AlabertUniversitat Autònoma de Barcelona

5 A study of poverty and income inequality in the EU countries 6Jitka Bartosova, Nicholas T. LongfordUniversity of Economics in Prague, Jindrichuv Hradec, Czech RepublicSNTL and UPF, Barcelona, Spain

II Sesión de Comunicaciones II 7

6 Caracterizacion Del Software Estadistico En Las Escuelas De EstadisticaDel Ecuador. Enfoque En El Software R 8Rubén Pazmiño MajiEscuela Superior Politécnica de Chimborazo

7 A cross-country air quality analysis using R 9Olga IvinaCollaborative statistician at CREAL. Research fellow at the University of Girona

8 Inferencia estadística para el equilibrio de Hardy-Weinberg en estudios degenotipado con Missing Data 10Milagros Sánchez Mayor, Jan GraffelmanDepartment of Statistics and Operations ResearchUniversitat Politècnica de CatalunyaBarcelona, Spain

9 Representación de las Dinámicas de Precios Hoteleros mediante R 12Ibai Roman, Igor Ibarguren, Jon Kepa Gerrikagoitia, Emilio Torres ManzaneraCICtourGUNE

10 El paquete complex.surv.dat.sim de R: Simulación de datos de superviven-cia complejos 13David Moriña, Albert NavarroCentre Tecnològic de Nutrició i SalutFacultat de Medicina, Universitat Autònoma de BarcelonaBioStatNet

11 De Excel a html utilizando knitr+markdown+googleVis . Un ejemplo 14José-Luis Cañadas RecheTécnico de Investigación en el Instituto de Estudios Sociales Avanzados IESA-CSIC

12 Programación Lineal y Programación Dinámica con R 15Beatriz González Pérez, Victoria López López, Juan Sampedro RuizFacultad de Matemáticas, Universidad Complutense de MadridFacultad de Informática, Universidad Complutense de MadridFacultad de Matemáticas, Universidad Complutense de Madrid

IV

Índice general

13 Selección de variables y modelizado predictivo en R 16Andrés Sanz-García, Fernando Antoñanzas-Torres, Enrique Sodupe-Ortega, ManuelJulian Alía-Martínez, Roberto Fernández-MartínezGrupo EDMANS, Universidad de La Rioja

14 Evaluación de modelos paramétricos de predicción de irradiación globalsolar mediante variables meteorológicas típicas 17Fernando Antoñanzas-Torres, Javier Martínez-de-Pisón, Andres Sanz-Garcia, OscarPerpiñan-LamigueiroGrupo EDMANS, Universidad de La RiojaUniversidad Politécnica de Madrid

15 Uso de métodos de interpolación espacial para la predicción de variablesen entornos vitivinícolas 19Roberto Fernandez Martinez, Julio Fernandez Ceniceros, Eduardo Alonso Garcia,Andres Sanz GarciaGrupo EDMANS, Universidad de La Rioja

IIISesión de Comunicaciones III 20

16 R como caja de herramientas para SIG y Teledetección: reflexiones a partirde experiencias 21Agustín LoboInstitut de Ciències del Terra Jaume Almera. Consejo Superior de InvestigacionesCientíficas

17 Simulación de perfiles genéticos de riesgo 22Víctor Urrea Gales, María Luz Calle RosinganaUniversidad de Vic

18 Construcción de un Índice Global de Valoración 23Ane Zarragoitia, Arantza Urkaregi, Jesús MoránUPV/EHU. Dpto de Matemática Aplicada, Estadística e I.O. (UPV/EHU)- Miembrode la red BIOSTATNETUnidad de Docencia Posgraduada Médica. Hospital Universitario de Cruces. Bara-kaldo. Bizkaia.

19 kerdiest:: An R Package for Distribution Function Estimation and Applica-tions 25Graciela Estévez-Pérez, Alejandro Quintela-del-RíoDepartamento de Matemáticas - Universidad de A Coruña

IVSesión de Comunicaciones IV 27

20 seq2R: Detección de puntos de cambio en secuencias genómicas. 28Nora M. Villanueva , Marta Sestelo, Javier Roca-PardiñasDepartamento de Estadística e Investigación OperativaUniversidad de Vigo

V

ÍNDICE GENERAL

21 Exploring bi-allelic genetic markers with the HardyWeinberg package 29Jan GraffelmanDepartament d,Estadística i Investigació OperativaUniversitat Politècnica de Catalunya

22 FWDselect: Selección de variables en modelos de regresión 31Marta Sestelo, Nora M. Villanueva, Javier Roca-PardiñasDepartamento de Estadística e Investigación OperativaUniversidad de Vigo

23 Reducción unidimensional de 12 items en la escala de sobrecarga de Zarit 32Borja Santos, Eduardo González, Javier BallesterosUniversidad del País Vasco (UPV), Departamento de Neurociencias y Beca de For-mación de Personal Investigador del Gobierno Vasco. (BFI-2011-212)Instituto de Investigaciones Psiquiátricas, Fundación Mª Josefa Recio.Universidad del País Vasco (UPV), Departamento de Neurociencias y Cibersam G-16.

24 The optimalAllocation package for longitudinal studies design with time-varying exposure 34Jose Barrera-Gómez, Xavier BasagañaCentre for Research in Environmental Epidemiology, Barcelona, Spain.IMIM (Hospital del Mar Research Institute), Barcelona, Spain.CIBER Epidemiología y Salud Pública (CIBERESP), Barcelona, Spain.

V Talleres 35

25 Web scraping con R 36Gregorio R. SerranoDpto. de Economía CuantitativaFctad. CC. Económicas y Empresariales, UCM

26 Informes dinámicos con LaTeX y R: utilización de Sweave y knitr. 37Francesc CarmonaDepartamento de Estadística. Universidad de Barcelona.

27 Interfaces Web 2.0 para R con Tiki 38Xavier de Pedro PuenteUnidad de Estadística y Bioinformática. Vall d’Hebron Research Institute (UEB-VHIR). Barcelona. http://ueb.vhir.org

28 Edición (y mucho más) potente en R con ESS (Emacs Speaks Statistics) 39Alex SánchezDepartament d’Estadística. Universitat de Barcelona. Barcelona, Espanya.Unitat d’Estadística i Bioinformàtica. Vall d’Hebrón Institut de Recerca.

29 Machine Learning in R 40Alexandros KaratzoglouTelefonica Investigación y Desarrollo

VI

Índice general

30 Introducción a las Reference Classes (programación orientada a objetos en R) 41Aleix Ruiz de VillaTSS - Transport Systems and Simulations

31 Introducción práctica a la librería ggplot2 y su integración con ggmap. 42Lluís Ramon, Andreu Vall, Roger BorràsOficina del Pla Català de Seguretat Viària, Servei Català de Trànsit, Generalitat deCatalunya. Miembro del R Users Group Barcelona.Asistente de investigación en IESE Business School, Departamento de Dirección deProducción, Tecnología y Operaciones. Miembro del R Users Group Barcelona.Departament de Cardiología. Hospital Clínic, Universitat de Barcelona. Catalunya.Miembro del R Users Group Barcelona.

Autores e Instituciones 43

Índice de autores 44

Índice de Instituciones 45

VII

Información General

IX

Presentación

Las IV Jornadas de Usuarios de R tendrán lugar en el Centro de Investigación enEpidemiología Ambiental (CREAL), ubicado en el Parque de Investigación Biomédicade Barcelona (PRBB), los días 15 y 16 de Noviembre de 2012. El parque incluye seiscentros de investigación que son un claro ejemplo de la importacia de R tanto en elámbito biomédico como el académico, ya que todos ellos utilizan este software parallevar a cabo sus estudios o formar a futuros investigadores. Las jornadas, como nopodría ser de otra forma, van a incluir trabajos de todos los ámbitos y están abiertastanto a usuarios como a entusiastas de R independientemente de su área de interés. Losobjetivos para estas jornadas serán los mismos que para las anteriores que tan buenosresultados obtuvieron. Estos objetivos incluyen:

Proporcionar un punto de encuentro a los usuarios de R

Fomentar la colaboración entre ellos en un ambiente multidisciplinar

Divulgar el conocimiento del lenguaje y sus posibilidades

Promover el uso de R

En esta edición, además de las ponencias invitadas, las presentaciones orales y lostalleres, se llevarán a cabo presentaciones breves donde el ponente expondrá de formaconcisa los resultados y conclusiones de alguna investigación llevada a cabo con R quepuedan ser de interés para otros colegas.

Desde el comité organizador nos gustaría destacar la excelente labor llevada a cabopor el comité científico, a los ponentes de los talleres y a todos los asistentes que hanpermitido confeccionar el programa que a continuación detallamos y esperamos quesea de vuestro interés.

Esperamos que las jornadas resulten lo más provechosas posibles y que disfrutéisde una confortable estancia en Barcelona.

X

http://www.creal.cat/es_index.html

http://www.creal.cat/es_index.html

http://www.prbb.org

http://www.prbb.org

Información útil

Ubicación de las jornadasLas jornadas se celebraran en el PRBB. En este enlace se puede ver cómo acceder

por transporte público.

Las comunicaciones orales y breves se llevarán a cabo en la sala Xipre situada en laprimera planta del edificio, justo donde se ubica el CREAL. Su situación estará señali-zada a la entrada del paque.

Para acceder al edificio cada participante se deberá identificar en recepción dondedisponen de una lista con todos los asistentes.

TalleresLos participantes a los talleres deben traer su propio ordenador portátil con las

herramientas que indiquen los responsables de talleres. La inscripción de los talleresse realizará tal y como indica la web de las jornadas . Dado el limitado número deplazas, se reservará plaza por orden de inscripción. Los talleres se desarrollarán en laSala Xipre (donde se lleva a cabo el congreso), y en la Sala Ramón y Cajal (jueves día15) y Sala Charles Darwin (viernes día 16), ambas situadas en la planta baja del edificio(locales interiores).

CertificadosLos certificados se enviarán por correo electrónico una vez pasadas las Jornadas.

XI

http://www.prbb.es/eng/part01/p11.htm

http://r-es.org/IV+Jornadas#Talleres

INFORMACIÓN ÚTIL

MaterialTodo el material, está disponible a través de la página web de las Jornadas . Adicio-

nalmente, se entregará a los inscritos una memoria USB con el material adicional quehaga falta para los talleres, así como la última versión disponbile del programa de lasjornadas y libro de comunicaciones, a fecha de grabado de las memorias USB.

XII

http://r-es.org/IV+Jornadas

Comité organizador

Juan R. González, (coordinador) y por orden alfabético,

Aleix Ruiz de Villa

Alex Sanchez

Carlos J. Gil Bellosta

Esteban Vegas

Llorenç Badiella

Lluis Ramon

Paco Carmona

Roger Borras

Xavier de Pedro

y el soporte técnico de Iolanda Molina (CREAL)

XIII

http://www.creal.cat/jrgonzalez/software.htm

http://www.datanalytics.com/

Comité científico

Juan José Gibaja (coordinador), y por orden alfabético:

Gregorio R. Serrano

Joan Vila

Jose Barrera

Miguel Ángel Rodríguez Muíños

Oscar Perpiñán Lamigueiro

Otto F. Wagner

Ramón Díaz Uriarte

Sandra Barragán

XIV

http://www.grserrano.es

http://www.epilinux.eu

http://procomun.wordpress.com

http://ligarto.org/rdiaz/

Patrocinadores

XV

Programa

JUEVES 15 DE NOVIEMBRE

• 09:00-09:30 Acreditación y recogida de información

• 09:30-09:45 Inauguración oficial de las Jornadas. J.R. González.

• 09:45-10:30 Conferencia Inaugural. J. Vila: Enseñando estadística: como me-jorar los conocimientos utilizando R para la creación de prácticas individua-lizadas.

• 10:30-12:00 Sesión de Comunicaciones (I) Moderador: G.R Serrano

◦ 10:30-10:45 C. E. Melo Funciones geoestadísticas y funciones de baseradial en el programa R: Paquete geospt

◦ 10:45-11:00 E. L. Cano Investigación operativa reproducible. Aplicacióna la optimización de sistemas energéticos

◦ 11:00-11:15 C. J. Gil MicroDatosEs: un paquete para leer ficheros de mi-crodatos públicos

◦ 11:15-11:30 A. Alabert Flujo de trabajo reproducible con R◦ 11:30-11:45 N. Longford A study of poverty and income inequality in

the EU countries

• 12:00-12:30 Café

• 12:30-14:00 Sesión de Comunicaciones (II) Moderador: A. Sánchez

◦ 12:30-12:45 R. Pazmiño Caracterizacion del software estadistico en lasescuelas de estadistica del Ecuador. Enfoque en el software R

◦ 12:45-13:00 O. Ivina A cross-country air quality analysis using R◦ Comunicaciones Breves

� 13:00-13:07 M. Sánchez Inferencia estadística para el equilibrio deHardy-Weinberg en estudios de genotipado con Missing Data

� 13:07-13:15 I. Roman Representación de las Dinámicas de PreciosHoteleros mediante R

� 13:15-13:22 D. Moriña El paquete complex.surv.dat.sim de R: Simu-lación de datos de supervivencia complejos

� 13:22-13:30 J-L. Cañadas De Excel a html utilizando knitr + mark-down + googleVis . Un ejemplo

� 13:30-13:37 B. González Programación Lineal y Programación Diná-mica con R

XVI

� 13:37-13:45 A. Sanz-García Selección de variables y modelizado pre-dictivo en R

� 13:45-13:52 F. Antoñanzas-Torres Evaluación de modelos paramétri-cos de predicción de irradiación global solar mediante variables me-teorológicas típicas

� 13:52-14:00 R. Fernández Uso de métodos de interpolación espacialpara la predicción de variables en entornos vitivinícolas

• 14:00-16:00 Comida

• 16:00-17:45 Talleres (I)

◦ G. R. Serrano Web scraping con R◦ F. Carmona Informes dinámicos con LaTeX y R: utilización de Sweave y

knitr.

• 17:45-18:15 Café

• 18:15-20:00 Talleres (II)

◦ X. de Pedro Interfaces Web 2.0 para R con Tiki◦ A. Sánchez Edición (y mucho más) potente en R con ESS (.Emacs Speaks

Statistics")

• 20:00-21:00 Asamblea Asociación “Comunidad R-Hispano”

• 21:30 Cena

VIERNES 16 DE NOVIEMBRE

• 10:00-11:00 Sesión de Comunicaciones (III) Moderador: F. Carmona

◦ 10:00-10:15 A. Lobo R como caja de herramientas para SIG y Teledetec-ción: reflexiones a partir de experiencias

◦ 10:15-10:30 V. Urrea Gales Simulación de perfiles genéticos de riesgo◦ 10:30-10:45 A. Urkaregi Construcción de un Índice Global de Valoración◦ 10:45-11:00 G. Estévez-Pérez kerdiest: An R Package for Distribution

Function Estimation and Applications

• 11:00-12:00 Sesión de Comunicaciones (IV) Moderador: Ll. Ramon

◦ 11:00-11:15 N. M. Villanueva seq2R: Detección de puntos de cambio ensecuencias genómicas

◦ 11:15-11:30 J Graffelman Exploring bi-allelic genetic markers with theHardyWeinberg package

◦ 11:30-11:45 M. Sestelo FWDselect: Selección de variables en modelos deregresión

◦ 11:45-12:00 B. Santos Reducción unidimensional de 12 items de la Es-cala de sobrecarga de Zarit en cuidadores de pacientes con demenciamediante teoría de respuesta a los ítems.

◦ 12:00-12:15 J. Barrera The optimal Allocation package for longitudinalstudies design with time-varying esposure

• 12:15-12:45 Café

• 12:45-14:30 Talleres (III)

XVII

PROGRAMA

◦ A. Karatzoglou Machine learning in R

• 14:30-16:15 Comida

• 16:15-18:00 Talleres (IV)

◦ A. Ruiz Introducción a las Reference Classes (programación orientada aobjetos en R)

◦ Ll. Ramon, R. Borras y A. Vall Introducción práctica a la librería ggplot2y su integración con ggmap

• 18:00-18:30 Café

• 18:30-19:00 Clausura Oficial de las IV Jornadas

XVIII

Sesión de Comunicaciones I

1

1 Funciones geoestadísticas y funcionesde base radial en el programa R:Paquete geospt

Carlos Eduardo Melo Martínez, Oscar Orlando Melo Martínez, Sandra EsperanzaMelo MartínezUniversidad Distrital Francisco José de CaldasUniversidad Nacional de ColombiaUniversidad de Barcelona - España.

Proponemos una serie de funciones que están diseñadas en el programa R. Estaspermiten un análisis geoestadístico más completo junto con la ayuda de paquetes pre-viamente diseñados en R, tales como: geoR, gstat y sgeostat, entre otros. De esta ma-nera, estas contribuciones son: una función para la construcción del variograma expe-rimental de la media recortada, una función para la construcción del pocketplot paradatos grillados (útil para el análisis de estacionariedad local), y funciones de base radial(multicuadrática, multicuadrática inversa, spline con tensión, completamente regula-rizada spline y spline capa delgada) con tendencia para optimizar, predecir y realizarvalidación cruzada en el espacio, una función para producir un gráfico que muestrael comportamiento del parámetro de suavizamiento “eta”, asociado con la función debase radial, y una función que genera una tabla con el resumen de las estadísticasde la validación cruzada para evaluar la exactitud de los métodos de interpolación(geoestadísticos y determinísticos) con base en los errores de predicción. Se describenbrevemente algunas de las funciones, y luego se ilustra su funcionamiento con variosejercicios. El paquete esta implementado en el programa (R Development Core Team(2012)) y se encuentra disponible en el Comprehensive R Archive Network (CRAN) enhttp://cran.r-project.org/web/packages/geospt.

2

2 Investigación operativa reproducible.Aplicación a la optimización desistemas energéticos

Emilio L. Cano, Javier M. MoguerzaDpto. Estadística e Investigación Operativa, Universidad Rey Juan Carlos

Cuando resolvemos problemas de optimización, antes de la llamada al soluciona-dor (solver) con el algoritmo adecuado, normalmente se deben realizar un conjuntode tareas diversas. Estas tareas incluyen preparación de datos, análisis estadístico, orepresentaciones gráficas, entre otras. Del mismo modo, una vez obtenida la solución,estos resultados pueden ser tratados y presentados de distintas formas. En este tra-bajo presentamos un método para aplicar las técnicas de investigación reproduciblea la toma de decisiones respecto a la optimización de sistemas energéticos a nivel deedificio. Se propone un marco de trabajo integrado utilizando el software estadístico ylenguage de programación R. Esta solución permite la representación de los modelos,la instancia del problema, y los resultados en distintos formatos, tanto para ser inter-pretados por las máquinas como por las personas. Este enfoque, frente al sistema decopiar-y-pegar, proporciona a los investigadores operativos una poderosa herramientapara incrementar su productividad y, por lo tanto, su competitividad.

2.1. BibliografíaEnRiMa. 2012. Energy efficiency and risk management in public buildings. www.enrima-

project.eu.Kallrath, Josef. 2012. Algebraic modeling languages: Introduction and overview.

Josef Kallrath, ed., AlgebraicModeling Systems, Applied Optimization, vol. 104. Springer Berlin Heidelberg,

3–10. doi:10.1007/ 978-3-642-23592-4 1.Knuth, Donald E. 1984. Literate programming. The Computer Journal 27(2) 97–111.Baggerly, Keith A., Kevin R. Coombes. 2009. Deriving chemosensitivity from cell

lines: Forensic bioinformatics and reproducible research in high-throughput biology.The Annals of Applied Statistics 3(4) 1309–1334.

Theussl, Stefan. 2012. CRAN Task View: Optimization and Mathematical Program-ming. Internet. URL http://cran.r-project.org/web/views/Optimization.html. [retrie-ved 2012-06-29].

3

3 MicroDatosEs: un paquete para leerficheros de microdatos públicos

Carlos-J. Gil Bellostadatanalytics

El paquete MicroDatosEs automatiza la lectura en R de ficheros de microdatos (pro-cedentes de encuestas, censos, etc.) que diversos organismos públicos españoles (comoel INE, el CIS, etc.) ponen a disposición de la ciudadanía y que tienen una gran impor-tancia tanto científica como social. Desafortunadamente, el formato en el que se publi-can, exige un penoso proceso de carga si se quieren importar a R (u otros programasde análisis estadístico).

El paquete MicroDatosEs combina los metadatos necesarios para realizar la impor-tación automática de dichos ficheros a R facilitando su análisis y fomentando así, engeneral, el uso de esa información por parte de los investigadores, medios de comuni-cación, etc. Trata de fomentar además el uso de R por parte de un sector de los usuariosde la estadística que, hasta la fecha, vienen prefiriendo el uso de otros paquetes de aná-lisis estadístico distintos de R.

La charla subraya en primer lugar la importancia de ese tipo de información asícomo la conveniencia de extender el uso de R en ámbitos como el de la estadísticapública y el periodismo de datos para pasar luego a una descripción de la estructuramodular del paquete y sus mecanismos de expansión para leer nuevos tipos de ficherosde microdatos.

4

4 Flujo de trabajo reproducible con R

Aureli AlabertUniversitat Autònoma de Barcelona

La reproducibilidad es clave tanto para el avance científico como para los análisisestadísticos. És también importante para facilitar el propio desarrollo de los análisis yevitar errores.

Recientemente han aparecido diversas herramientas que facilitan la generación au-tomática de informes estadísticos, siguiendo la filosofia literate programming, que au-tomatiza la generación simultánea de un código y de la documentación de ese código.

Se mostrará el uso de programas como markdown, pandoc, latex, etc, junto con elpackage de R knitr, para implementar esta idea en la práctica, produciendo informesreproducibles de calidad en html, pdf o slidy.

5

5 A study of poverty and incomeinequality in the EU countries

Jitka Bartosova, Nicholas T. LongfordUniversity of Economics in Prague, Jindrichuv Hradec, Czech RepublicSNTL and UPF, Barcelona, Spain

The European Union Statistics and Income and Living Conditions is a collectionof annual surveys in the country of EU. It has a cross-sectional and a longitudinalpart. The presentation will describe a comprehensive agenda for the analysis of thesesurveys, with a focus on the Lorenz curve and Gini coefficients in the countries, andfor some countries also in their regions. An integral part of the analysis are graphicaldisplays.

The analyses are implemented in user-defined (custom-written) functions in R witha link to the database which comprises Stata and Excel files. The functions are organi-sed in three sets. One set is for simple tasks, such as data input and reduction, gene-rating basic data summaries, and evaluation of the Lorenz curve for a country andyear. Another set combines several of these tasks; their main arguments are countryand year and they return a matrix or list of results. A third set of functions operateson these results to generate diagrams and to condense the results to objects that areeasy to inspect and comprehend. Together with a set of auxiliary functions they will beorganised in an R package.

The contribution was partially supported by project IG F6/3/2012 "QuantitativeStudy of the Social Situation of Juniors and Seniors.of the Internal Grant Agency ofUniversity of Economics in Prague, Czech Republic.

6

Sesión de Comunicaciones II

7

6 Caracterizacion Del SoftwareEstadistico En Las Escuelas DeEstadistica Del Ecuador. Enfoque EnEl Software R

Rubén Pazmiño MajiEscuela Superior Politécnica de Chimborazo

El día jueves 10 de Abril del 2008 se emitió el decreto 1014 por parte de la presi-dencia del Ec. Rafael Correa Delgado que promueve el uso de software libre en lasinstituciones públicas del Ecuador. Se han hecho algunos esfuerzos para impulsar suutilización. En las instituciones educativas de nivel bajo y medio se ha impulsado lautilización de software libre donando computadores con el sistema operativo Ubuntu,se ha apostado también a la capacitación de los docentes en la utilización de Libreof-fice y sus aplicaciones educativas. En el ámbito universitario cada institución definesus estrategias, pero no todas son claras ni explicitas en sus reglamentos y actividades.Con éste trabajo se desea caracterizar la utilización de Software Estadístico en el ca-so de todas las escuelas de Estadística del Ecuador. Haciéndose especial énfasis en lautilización del Software estadístico R. Además se comparte las primeras apreciacionespor parte de estudiantes universitarios en la utilización de R, como primer softwareestadístico de estudio.

8

7 A cross-country air quality analysisusing R

Olga IvinaCollaborative statistician at CREAL. Research fellow at the University of Girona

a macrolevel, quality of air at a given country depends on various factors. Amongthem are: country’s economic determinants, such as GDP per capita and its industrialprofile, as well as population determinants, such as quality of life and people’s edu-cation, infrastructure, climate and policies. This research makes use of the data fromthe World Bank and the IMD World Competitiveness Yearbook. Annual PM10 concen-trations across more than 50 countries have been taken up as a measure of air quality,since it is a common factor for all the countries that has been tracked by the WHO andthe World Bank.

A decision tree model based of the CART algorithm has been fitted for 2009 datawith the use of the rpart package. Descriptive statistics analysis has been performedwith the use of stats package functions.

7.1. Bibliografía1. Sergey Aivazian, On the Key Factors of Socio-Economic Policy and Institutio-

nal Development that Determine the Improvement of the Quality of Life. – AustrianJournal of Statistics, 2008, vol. 37 (1).

2. The IMD World Competitiveness Yearbook, 2009.3. Philip L. H. Yu, Wai Ming Wan and Paul H. Lee, Decision Tree Modeling for

Ranking Data, 2011, Preference Learning, Part 1, pages 83-1064. Terry M Therneau and Beth Atkinson, Package ‘rpart’, version 3.1-54, 2012.

9

8 Inferencia estadística para elequilibrio de Hardy-Weinberg enestudios de genotipado con MissingData

Milagros Sánchez Mayor, Jan GraffelmanDepartment of Statistics and Operations ResearchUniversitat Politècnica de CatalunyaBarcelona, Spain

El modelo de Hardy-Weinberg siendo una proposición teórica es muy valioso paraevaluar los factores evolutivos que están operando en las poblaciones. Si una pobla-ción no presenta estructura genética según este equilibrio, es porque están actuandoalgunos de los factores evolutivos. Según la relación entre homocigotos o heterocigo-tos, esperados y observados, se pueden deducir varias desviaciones. En términos demarcadores, entre ellos los SNPs, podemos remarcar 2 aplicaciones importantes en elEquilibrio de Hardy-Weinberg: (I) Con él detectar errores de genotipado. (II) Si un mar-cador está asociado a una enfermedad, se espera desequilibrio de Hardy-Weinberg, esdecir, el equilibrio de Hardy-Weinberg para un determinado marcador puede indicarque este marcador esté en un gen involucrado con la enfermedad. Cuando tenemospresente Missing Data la inferencia estadística sobre el equilibrio de Hardy-Weinbergen presencia de datos genotípicos puede estar sesgada, por lo que nos planteamos eva-luar la sensibilidad del coeficiente de endogamia (f) a través de distintos procedimien-tos de sustitución de datos omitidos, es decir, inferencia sobre f para HWE teniendoen cuenta los datos faltantes. Varios modelos de imputación han sido desarrollados endiferentes contextos. En general la estrategia para construir modelos de imputacióncaen en 2 categorías: (i) Modelación Conjunta, dentro de ésta encontramos los Mode-los de Localización General. (ii) Imputación Múltiple de Regresión Secuencial, SRMI:también referido como Imputación Múltiple a través de Chained Equations. Para elestudio usamos diferentes paquetes implementados en el software R. Estos son MICE,CAT y MIX. A través del curso del estudio, hicimos comparaciones de las diferentesmetodologías que usan cada paquete de estos. Llegamos a que la modelación usan-do MICE (imputación multivariada) y CAT (imputación univariada) incluyendo sóloSNPs tuvieron la misma tendencia, imputar sobre aquella categoría de mayor conteo.Los modelos implementados incluyendo las intensidades solamente a través de MICEy MIX, siguieron el mismo patrón de imputación, aumentar la categoría de los heteroci-gotos y los modelos donde incluimos tanto las intensidades como los SNPs observadosy no observados, sus categorías se equilibraban. De las varias alternativas, vimos cuál

10

de éstas completaba los datos faltantes y justificara mejor los fundamentos teóricos delos procedimientos aplicados, llegamos a que el Modelo de Localización General era lametodología más eficiente implementado en el programa MIX.

11

9 Representación de las Dinámicas dePrecios Hoteleros mediante R

Ibai Roman, Igor Ibarguren, Jon Kepa Gerrikagoitia, Emilio Torres ManzaneraCICtourGUNE

Al igual que en otras industrias, las técnicas de Revenue Managemet se están im-plantando en el sector hotelero. Estas técnicas permiten regular la oferta y la demandamaximizando el beneficio. Las habitaciones de los hoteles, como los asientos de unavión, son productos perecederos con altos costes fijos y bajos costes variables. Dichascaracterísticas junto con la reserva anticipada propician prácticas de Revenue Manage-ment relacionadas con las Dinámicas de Precios. La variación de los precios en tiempode reserva posibilita un gran flexibilidad a la hora de ofertar un producto más atractivoque el de la competencia.

Con el fin de estudiar esta estrategia comercial de los hoteles, se ha recopilado in-formación diaria de los sistemas de distribución on-line. En concreto, se han obtenidolos precios referentes todos los hoteles disponibles en España y Francia durante unaño, midiendo la variación de precios para las reservas realizadas con una antelaciónde hasta un mes. En total, el conjunto de datos suma 31 registros de precios para cadadía del año y más de 18.000 hoteles.

Para analizar la dinámica de precios y visualizar las diferentes estrategias de ven-ta, se ha utilizado el lenguaje y entorno de programación R. Mediante el empleo dela librería data.table, se han podido realizar agregaciones de forma eficiente, calcu-lando disponibilidades y medias geométricas de precios. Asimismo, se ha trabajadoen la representación de las Dinámicas de Precios y las diferentes estrategias de ventautilizando la librería ggplot2. Adicionalmente, con el objetivo de identificar eventosinfluyentes, se han realizado descomposiciones estacionales de series temporales.

Así, el entorno de programación R ha permitido completar el proceso de generaciónde conocimiento, desde los datos originales, hasta las representaciones gráficas quenos permiten el estudio de diferentes estrategias dentro de esta práctica de RevenueManagement.

12

10 El paquete complex.surv.dat.sim de R:Simulación de datos de supervivenciacomplejos

David Moriña, Albert NavarroCentre Tecnològic de Nutrició i SalutFacultat de Medicina, Universitat Autònoma de BarcelonaBioStatNet

Presentamos en este trabajo un paquete de R para la simulación de datos de super-vivencia complejos, cubriendo diversas situaciones incluyendo eventos recurrentes ymúltiples. La principal función del paquete permite al usuario introducir un númeroarbitrario de distribuciones, cada una de las cuales corresponde a un nuevo evento oepisodio, con sus parámetros, disponiendo de las distribuciones Weibull (y exponen-cial como caso particular), log-logística y log-normal. En comparación con la simula-ción de otros tipos de datos, el proceso de simulación de los datos de supervivenciarequiere ciertas consideraciones específicas. En primer lugar, para simular las obser-vaciones censuradas por la derecha, tenemos que simular un vector con la evolucióntotal del individuo y, de forma independiente, un vector de tiempos de censura. Porotro lado, existen varias situaciones que hacen que los datos reales de supervivenciasean mucho más complejos. El fenómeno de interés puede ocurrir más de una vez enun mismo individuo (eventos recurrentes), o quizás estemos interesados en el análisisinstantáneo de múltiples eventos de diferentes tipos. Por otra parte, se puede trabajarcon cohortes dinámicas en las que se puede incorporar a un individuo después del ini-cio del estudio, o un individuo puede ser incorporado durante el seguimiento despuésde haber estado a riesgo durante algún tiempo. Intervalos discontinuos de riesgo o laheterogeneidad individual (propensión de un individuo a sufrir un evento debida avariables ocultas) son otros fenómenos que implican situaciones que hacen la simula-ción de este tipo de datos aún más compleja. Aunque existe un interés y una necesidadcreciente de aplicar el análisis de supervivencia a conjuntos de datos con múltipleseventos y recurrencias, hay todavía pocos artículos publicados que hagan uso de lasimulación de datos de supervivencia complejos, posiblemente a causa de la falta deherramientas disponibles para facilitar tales simulaciones.

13

11 De Excel a html utilizandoknitr+markdown+googleVis . Unejemplo

José-Luis Cañadas RecheTécnico de Investigación en el Instituto de Estudios Sociales Avanzados IESA-CSIC

En colaboración con la Junta de Andalucía,el OPAM (Observatorio Permanente An-daluz de las Migraciones) presenta tanto trimestral como anualmente información re-lativa al fenómeno de la inmigración en Andalucía y España.Esta información se havenido presentando en formato excel o pdf. Un ejemplo son los datos de extranjeroscon certificado de registro o tarjeta de residencia en vigor. La información se obtienedel Ministerio de Empleo y Seguridad Social, que trimestralmente cuelga en su páginaweb un fichero excel con dicha información. Tradicionalmente esta información se tra-taba en hojas de cálculo para obtener las agrupaciones pertinentes y realizar gráficosestadísticos. La idea, es crear uno o varios scripts en R, que partiendo de ficheros en csv,calculen todas las tablas y gráficos que se venían realizando, y mediante la facilidaddel lenguaje markdown junto con el paquete knitr y googleVis obtener un fichero html.Una vez realizado el script, la tarea se reduce a preparar los ficheros csv originales ,oen su caso leerlos directamente de la web, reduciendo considerablemente el tiempode procesamiento y formateado de la información, así como una disminución drásticade errores. Se ha utilizado googleVis, por la interactividad que permite al usuario fi-nal, permitiéndole en algunos casos cambiar el tipo de gráfico mostrado u ordenar lastablas por alguna de sus columnas.

11.1. Bibliografía1. R Core Team (2012). R: A language and environment for statistical computing.

R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URLhttp://www.R-project.org/.

2. Yihui Xie (2012). knitr: A general-purpose package for dynamic report generationin R. R package version 0.8.1. http://yihui.name/knitr/

3. Markus Gesmann and Diego de Castillo. Using the Google Visualisation API withR. The R Journal, 3(2):40-44, December 2011.

4. JJ Allaire, Jeffrey Horner, Vicent Marti and Natacha Porte (2012). markdown:Markdown rendering for R. R package version 0.5.2.

14

12 Programación Lineal y ProgramaciónDinámica con R

Beatriz González Pérez, Victoria López López, Juan Sampedro RuizFacultad de Matemáticas, Universidad Complutense de MadridFacultad de Informática, Universidad Complutense de MadridFacultad de Matemáticas, Universidad Complutense de Madrid

Aunque R es un lenguaje de programación orientado principalmente al análisisestadístico y gráfico, al tener código libre, se realizan continuamente multitud de apor-taciones de diversos campos. La Investigación Operativa es una ciencia de naturale-za multidisciplinar y dado el interés que hay entre los docentes e investigadores pordesarrollar procedimientos que puedan ser aplicados de manera generalizada por es-tudiantes, profesionales y científicos, el uso de R es necesario para resolver problemasrelacionados con la optimización del funcionamiento de un sistema. Los algoritmos deProgramación Lineal y Programación Dinámica son una base imprescindible para eldesarrollo de algoritmos que resuelven otros problemas. Tienen una justificación teó-rica sencilla fundamentada en conceptos básicos de Álgebra y Geometría, por lo quesirven para motivar a los alumnos de Matemáticas, Informática e Ingeniería que losestudian por primera vez y necesitan programar sus propias funciones. En este traba-jo se desarrollan cuatro funciones que resuelven problemas estándar de ProgramaciónLineal y Programación Dinámica, y que se han utilizado en la enseñanza de la Inves-tigación Operativa y la Bioinformática en los cursos de Grado y Máster. Además, sedescriben algunas de las funciones disponibles en los paquetes de R para resolver estetipo de problemas.

15

13 Selección de variables y modelizadopredictivo en R

Andrés Sanz-García, Fernando Antoñanzas-Torres, Enrique Sodupe-Ortega, Ma-nuel Julian Alía-Martínez, Roberto Fernández-MartínezGrupo EDMANS, Universidad de La Rioja

La presente comunicación presenta un caso completo de aplicación del modeladopredictivo basado principalmente en el lenguaje R[2] con datos extraídos de una líneade producción de chapa de galvanizado en caliente.[3] Multitud de técnicas han sidodesarrolladas para la minería de datos y el modelado predictivo en procesos industria-les. Las técnicas tradicionales como los modelos de regresión múltiple suelen encontrarimportantes obstáculos debido a la falta de homogeneidad y normalidad en los datos,además de una alta correlación entre las variables independientes. Métodos más mo-dernos como redes neuronales, arboles de regresión o regresión sesgada pueden evitarconclusiones erróneas. La mayoría han sido implementados en R a traves de un eleva-do número de librerías; sin embargo, el paso clave para mejorar los resultados resideen la identificación de cuales son las variables de proceso relevantes (conjunto parsi-monio) dentro del conjunto de datos inicial.[1] En muchos trabajos la pre-selección nose realiza o la técnica no es la adecuada, lo que reduce la capacidad de predicción delmodelo. Las librerías empleadas reflejan el éxito y la eficiencia de llevar a cabo el tra-bajo de planta con R a pesar del elevado tamaño de las series temporales y la cantidadde ruido.

13.1. Bibliografía[1] GUYON, ISABELLE y ELISSEEFF, ANDRE: «An introduction to variable and feature

selection». J. Mach. Learn. Res., 2003, 3, pp. 1157–1182.

[2] HORNIK, KURT: «The R FAQ», 2011. ISBN 3-900051-08-9.http://CRAN.R-project.org/doc/FAQ/R-FAQ.html

[3] MARTÍNEZ-DE-PISÓN, F. J.; ALBA-ELÍAS, F.; CASTEJÓN-LIMAS, M. y GONZÁLEZ-RODRÍGUEZ, J. A.: «Improvement and optimisation of hot dip galvanising lineusing neural networks and genetic algorithms». Ironmaking and Steelmaking, 2006,33(4), pp. 344–352.

16

http://CRAN.R-project.org/doc/FAQ/R-FAQ.html

14 Evaluación de modelos paramétricosde predicción de irradiación globalsolar mediante variablesmeteorológicas típicas

Fernando Antoñanzas-Torres, Javier Martínez-de-Pisón, Andres Sanz-Garcia, Os-car Perpiñan-LamigueiroGrupo EDMANS, Universidad de La RiojaUniversidad Politécnica de Madrid

El objetivo de este trabajo es el análisis comparativo de veintidós modelos paramé-tricos clásicos para la predicción de la irradiación global solar a través de otras varia-bles meteorológicas típicas. El estudio se realiza en veintiún estaciones meteorológicasen La Rioja con cinco años de valores diarios de temperaturas máximas, mínimas, pre-cipitaciones y irradiación global solar. Los datos son de libre acceso a través de laswebs del Servicio de Información Agroclimática de La Rioja (SIAR) y de SOS Rioja. Elanálisis, llevado a cabo en R, emplea diferentes paquetes: solaR [2] para el cálculo de lageometría solar y el cálculo de la irradiación extraterrestre; rasterVis [3] para la visuali-zación de imágenes raster y optimx [1] para la calibración de los modelos. Se comienzamediante un preprocesado eliminando datos espurios y corrigiendo los errores de co-rrelación horaria inducidos por los relojes de las estaciones meteorológicas. Los datosquince minútales de las estaciones se transforman en datos diarios. Posteriormente,se desarrolla un estudio de estabilidad de los modelos ante pequeñas variaciones enlos datos de calibración mediante bootstrapping y cien iteraciones. Una vez calibradosy validados los modelos, se evalúa su comportamiento testeándolos con otro periodotemporal y comprobando su errores.

14.1. Bibliografía[1] NASH, JOHN C. y VARADHAN, RAVI: optimx: A Replacement and Extension of the

optim() Function, 2012.http://cran.r-project.org/web/packages/optimx/index.html

[2] PERPIÑÁN, OSCAR: «solaR: Solar Radiation and Photovoltaic Systems with R».Journal of Statistical Software, 2012, 50(9), pp. 1–32.http://www.jstatsoft.org/v50/i09/

17

http://cran.r-project.org/web/packages/optimx/index.html

http://www.jstatsoft.org/v50/i09/

14. EVALUACIÓN DE MODELOS PARAMÉTRICOS DE PREDICCIÓN DE IRRADIACIÓN GLOBALSOLAR MEDIANTE VARIABLES METEOROLÓGICAS TÍPICAS

[3] PERPIÑÁN, OSCAR y HIJMANS, ROBERT: rasterVis: Visualization methods for the rasterpackage, 2012. R package version 0.10-9.http://CRAN.R-project.org/package=rasterVis

18

http://CRAN.R-project.org/package=rasterVis

15 Uso de métodos de interpolaciónespacial para la predicción devariables en entornos vitivinícolas

Roberto Fernandez Martinez, Julio Fernandez Ceniceros, Eduardo Alonso Garcia,Andres Sanz GarciaGrupo EDMANS, Universidad de La Rioja

La presente comunicación presenta la primera parte de un caso de modelado pre-dictivo de varias variables significativas en la maduración de la uva en viñedos. Va-riables como el peso, el grado alcohólico probable, la acidez tartárica, el pH,. . . (Fer-nandez Martinez, 2011) son realmente importantes para poder conocer como se estadesarrollando la maduración de las bayas (Coombe, 1995) y para tener una orientaciónde cuando es la mejor fecha de vendimia para cada una de las parcela de la bodega.De manera que conociendo las fechas más idóneas se puedan organizar más efectiva-mente los recursos disponibles. Los datos utilizados han sido recogidos en viñedos yestaciones meteorológicas de la zona que comprende la Denominación de Origen Ca-lificada (DOC) Rioja durante ocho años en diferentes localizaciones. Con estos datosel objetivo es predecir las variables en estudio con tiempo suficiente para ayudar a losviticultores en la toma de decisiones ante una cercana vendimia. Ante la imposibilidadde situar una estación meteorológica es cada una de las parcelas en estudio, se de-ben utilizar las estaciones existentes en los puntos cercanos y a partir de ellas realizaruna estimación de los valores ambientales necesarios en cada parcela. Esta estimaciónpuede ser tan simple como asignar a la parcela el valor de la estación más cercana opueden mejorarse los resultados utilizando técnicas de predicción espacial (Laslett etal., 1987) como puede ser kriging (Krige, 1951; Matheron, 1963). El análisis, llevado acabo en R (R Development Core Team, 2012), emplea librerías para el uso de métodosde interpolación geoestadística como gstat (Pebesma, 2004). De esta manera, una vezinterpolados los valores meteorológicos en cada parcela se pueden predecirse los va-lores en estudio con más precisión que en el caso básico de asignar a cada una de lasparcelas la estación meteorológica más cercana.

19

Sesión de Comunicaciones III

20

16 R como caja de herramientas para SIGy Teledetección: reflexiones a partirde experiencias

Agustín LoboInstitut de Ciències del Terra Jaume Almera. Consejo Superior de InvestigacionesCientíficas

Si bien el papel inicial de R en el contexto de los Sistemas de Información Geo-gráfica y Teledetección consistió en proporcionar el entorno para el análisis de datospreviamente manipulados con otros programas específicos, rápidamente se produjoun desarrollo de paquetes que están convirtiendo R en una caja con herramientas an-tes exclusivas del software de GIS y Teledetección, lo que permite introducir en esteámbito formas y modos de trabajo concordes con los principios de “journaling andauditing” propios de R. Por un lado, el desarrollo de paquetes para análisis de datosespaciales y “geoestadística” indujo el desarrollo de otros paquetes capaces de forma-lizar y manipular como clases de R estructuras de datos vectoriales de SIG (incluyendolos formalismos geográficos de los Sistemas de Referencia de Coordenadas), y de pa-quetes capaces de importar y exportar los formatos específicos en el ámbito geográfico.Por otro lado, el gran volumen de datos propio de las capas raster constituyó duranteaños un serio problema para tratar estos datos como objetos en R, pero este problemaestá siendo brillantemente solucionado mediante otro paquete específico. Al mismotiempo, otros paquetes en R han permitido establecer puentes entre código R y otrossoftwares específicos de SIG y Teledetección, mientras que son menos conocidos losesfuerzos en sentido contrario en los que se abren canales hacia R desde entornos deproceso y visualización de datos geoespaciales. En esta comunicación pasaré revista,por medio de ejemplos, a diferentes aplicaciones de R en el ámbito del SIG y la Telede-tección desde la perspectiva del usuario de estos sistemas, señalando aquellos aspectosque a mi juicio todavía necesitan mejoras.

21

17 Simulación de perfiles genéticos deriesgo

Víctor Urrea Gales, María Luz Calle RosinganaUniversidad de Vic

En el ámbito de la epidemiología genética, uno de los objetivos principales es ladetección de variantes genéticas causales y/o el estudio de posibles interacciones entreellas. Éste es un campo que presenta grandes retos y que está en constante desarrollo,existiendo una actividad muy notable en el desarrollo de diferentes metodologías.

Para poder contrastar la eficacia de las distintas metodologías en la detección yanálisis de componentes genéticas es preciso realizar estudios sistemáticos con datossimulados. En este punto, es vital poder contar con conjuntos de datos que, aunque ar-tificiales, constituyan una buena imitación de datos reales. En epidemiología genéticahay dos aspectos clave a tener en cuenta para generar datos simulados similares a larealidad, la simulación de genotipos con sus posibles correlaciones, lo que en genéticase denomina “Linkage disequilibrium” (LD), y la simulación del fenotipo siguiendoun cierto modelo de relación entre genotipo y riesgo.

Aquí presentamos una estrategia implementada en R para generar conjuntos dedatos de genotipos, ya sean independientes o en LD, con perfiles genéticos de ries-go asociados a un fenotipo, que puede ser tanto una variable binaria, continua o desupervivencia.

22

18 Construcción de un Índice Global deValoración

Ane Zarragoitia, Arantza Urkaregi, Jesús MoránUPV/EHU. Dpto de Matemática Aplicada, Estadística e I.O. (UPV/EHU)- Miem-bro de la red BIOSTATNETUnidad de Docencia Posgraduada Médica. Hospital Universitario de Cruces. Ba-rakaldo. Bizkaia.

Disponemos de los datos relativos a un cuestionario de valoración de la formaciónrecibida en el programa MIR en un hospital de la CAV cada 2 años, entre 2004 y 2010. Elcuestionario consta de una serie de preguntas de valoración de diferentes aspectos dela formación y otras relativas al Servicio en el que se ha llevado a cabo la formación, eltiempo de permanencia en el mismo o el año de residencia. Nuestro objetivo es cons-truir un índice global que resuma la valoración del programa MIR. Para ello, hemosrealizado un Análisis de Correspondencias Múltiples (ACM) de estos datos, tomandocomo variables activas las preguntas de valoración de la encuesta. Al representar grá-ficamente las modalidades de las variables activas en el plano factorial definido porlos dos primeros ejes factoriales observamos que éstas describen una parábola. Es loque se llama efecto Guttman, que nos indica que el segundo eje es función del pri-mero, de forma que el primer eje factorial define una escala lógica y ordenada de lavaloración realizada. En base a esta idea, si asignamos a cada modalidad de las pre-guntas activas su primera coordenada factorial y obtenemos la media aritmética de lascoordenadas factoriales de las modalidades elegidas en las diferentes preguntas, estamedia nos proporciona una puntuación global de valoración que, mediante una trans-formación lineal, podremos convertir en un índice de valoración de 0 a 100. R disponedel paquete ca para la realización del ACM y crea un objeto en el que guarda las coor-denadas factoriales de cada modalidad. Hemos desarrollado un código R que, asignea cada modalidad su primera coordenada factorial y a partir de las respuestas de cadaindividuo, le asigne a éste la media tipificada de las coordenadas elegidas. A continua-ción transformamos esta puntuación asignada a cada individuo en un índice globalcuyos valores van de 0 a 100. Hemos comprobado la efectividad de este índice globalmediante su comparación con la pregunta de valoración global y hemos analizado lasventajas que presenta en relación al índice habitual de valoración obtenido a partir dela puntuación de cada una de las modalidades de respuesta (de 0 a 3). Mediante otrocódigo R hemos estudiado la evolución de este índice global en cada servicio a lo largode los años de realización de la encuesta, de forma que ésta se pueda convertir en uninstrumento de mejora del programa MIR.

23

18. CONSTRUCCIÓN DE UN ÍNDICE GLOBAL DE VALORACIÓN

18.1. BibliografíaGreenacre, M. (2008). La practica del analisis de correspondencias, Fundacion BB-

VA.Escofier, B., Pages, J. (1992). Analisis factoriales simples y multiples, Servicio Edito-

rial de la Universidad del Pais Vasco.Grande, I., Abascal, E. (2005). Analisis de encuestas, ESIC EDITORIAL.Pijoan, J.I., Urkaregi, A., Moran, J.M. (2001). Evaluacion por los medicos internos

residentes de la formacion recibida en los servicios hospitalarios: una herramienta demonitorizacion, Gac Sanit 2001; 15 (5): 432-440.

24

19 kerdiest:: An R Package forDistribution Function Estimation andApplications

Graciela Estévez-Pérez, Alejandro Quintela-del-RíoDepartamento de Matemáticas - Universidad de A Coruña

The Distribution Function Estimation is not only an interesting problem by itself,but also for the fact that it appears naturally in real problems of many scientific fields,such as seismology, hydrology, environmental sciences, etc. Thus, diverse methodolo-gies, based on nonparametric ideas, have emerged for attacking statistical problemsin these disciplines. In many cases, scientists are interested in knowing the risk of oc-currence of an earthquake of great magnitude, the probability of high wind speeds orhurricane occurrences, or the hazard of high flow levels. We cite, among others, thepapers of Elsner et al. (2006), Gomes et al. (2003), Katz et al. (2002), Kuchenhoff andThamerus (1996), Quintela-del Río and Francisco-Fernández (2011) and Scheitlin et al.(2010) for applications of the distribution function estimation to the different sciencesmentioned in the nature hazard setting.

A nonparametric estimator of the distribution function is the well-known kernelestimator, investigated, among others, by Nadaraya (1964), Reiss (1981) or Hill (1985).When working with this estimator two choices must be made: the kernel function (K)and the smoothing parameter or bandwidth (h). The selection of K is a problem of lessimportance, and different functions that produce good results can be used. However,in practice, the choice of an efficient method for the calculation of h, for an observeddata sample, is a more complex problem because of the effect of the bandwidth on theshape of the corresponding estimator. In the distribution estimation context only twokind of methods have been investigated: plug-in and cross-validation methods. Theplug-in bandwidth choice was studied, both theoretically and by simulation studies,by Altman and Leger (1995) and Polanski and Baker (2000). The least-squares cross-validation method was analyzed in Sarda (1993), but, as revealed in Altman and Leger(1995), it basically requires very large sample sizes to ensure good results. Hence, onlythe second approach, namely the modified cross-validation proposed in Bowman et al.(1998), is of interest for implementation in a language programming and for applica-tion to real data sets.

For the above reasons, we have implemented, in the package kerdiest, developedin the language R (R Development Core Team 2012), the Kernel Distribution FunctionEstimator, the three commented bandwidth selection procedures, and three interestfunctions in real applications: the exceedance, the mean return period and the returnlevel functions. The package also contains two application data sets, that show the

25

19. KERDIEST:: AN R PACKAGE FOR DISTRIBUTION FUNCTION ESTIMATION ANDAPPLICATIONS

features and capabilities of the package in practice. The package is available from theComprehensive R Archive Network at: http://CRAN.R-project.org/package=kerdiest(Estévez-Pérez and Quintela-del-Río, 2012).

26

Sesión de Comunicaciones IV

27

20 seq2R: Detección de puntos decambio en secuencias genómicas.

Nora M. Villanueva , Marta Sestelo, Javier Roca-PardiñasDepartamento de Estadística e Investigación OperativaUniversidad de Vigo

Identificar los procesos mutacionales que modelan la composición nucleotídica delas secuencias de ADN mitocondrial (ADNmt) es fundamental para comprender mejorcomo evolucionan los genomas mitocondriales. Durante años, la comunidad científicaha propuesto numerosas metodologías para analizar la composición de estas secuen-cias pero la mayoría de ellas carecen de soporte estadístico. En este trabajo se presentaun método sencillo para detectar cambios en la composición del ADNmt basado enmodelos de regresión no paramétrica y sus derivadas. La metodología desarrollada seha implementado en un nuevo paquete de R, seq2R, utilizando Fortran como lenguajede programación. La aplicación de dicha metodología se ilustra con una secuencia real.

28

21 Exploring bi-allelic genetic markerswith the HardyWeinberg package

Jan GraffelmanDepartament d,Estadística i Investigació OperativaUniversitat Politècnica de Catalunya

Modern genetic association studies often use large numbers of genetic markers ca-lled single nucleotide polymorphisms (SNPs). Most of these markers are bi-allelic andgive rise to only 3 types of individuals: AA, AB and BB. The Hardy-Weinberg law sta-tes that, in the absence of disturbing forces, these 3 genotypes will occur with relativefrequencies p², 2pq and q² respectively, where p is the allele frequency of A and q = 1-p.Hardy-Weinberg equilibrium (HWE) is achieved in one generation of random mating,and if unless disturbing forces stay absent, then genotype and allele frequencies willremain unchanged. Statistical tests for HWE play a role in genetic association studies.They are often used in an initial screening of the markers, with the purpose of detectinggenotyping error (often the confounding of homozygotes with heterozygotes). Signifi-cant markers that are suspect, especially if the also have a lot of missings, may then bediscarded prior to any further study (e.g. the HapMap project discards markers whosep-value of a HWE test is below 0.001).

Several statistical test procedures are in use to test markers for HWE. The classicalchi-square test for goodness-of-fit has been the most popular test for many years. Overthe last decade, the exact test for HWE has become more popular. The exact test isbased on the distribution of the number of heterozygotes given the observed allelecounts. A likelihood ratio test is also available, and Bayesian procedures to test forHWE are becoming more popular as well.

Because large amounts of markers are tested, graphical tools for summarizing testresults are needed. The R-package HardyWeinberg provides such tools, as well as fun-ctions that carry out the various tests for HWE. Interesting graphical tools in this con-text are ternary plots, log-ratio plots and Q-Q plots.

The ternary plot, a well-known tool in compositional data analysis, can be used torepresent the genotypic composition of a sample. The Hardy-Weinberg law describes aparabola inside the ternary diagram. The acceptance region of the different HWE testscan also be drawn inside the ternary diagram. This makes the ternary diagram par-ticular informative because genotype frequencies, allele frequencies and equilibriumstatus are all depicted in one single graph (Graffelman and Morales, 2008).

Q-Q plots of p-values or chi-square statistics constitute another useful tool that canhelp to judge whether a set of markers is compatible with HWE or not. For the chi-square test, a Q-Q plot of chi-square statistics may be used. Q-Q plots of p-values are

29

21. EXPLORING BI-ALLELIC GENETIC MARKERS WITH THE HARDYWEINBERG PACKAGE

more interesting, because they also allow results of multiple exact tests to be summa-rized. The distribution for the p-values under the null hypothesis of a HWE test is notuniform, due to the discrete nature of the data (Rohlfs and Weir, 2008). This distribu-tion typically has a spike close to the value of 1. However, for a given data set with agiven allele frequency distribution, the reference distribution for the p-values can becomputed, and a Q-Q plot of exact sample p-values against this reference distributioncan be used to gauge the degree of (dis)equilibrium in the database.

The different facilities of the HardyWeinberg package (testing markers, marker si-mulation, power computations, accounting for missing data, ternary plots, log-ratioplots and Q-Q plots) will be illustrated with empirical in the talk.

30

22 FWDselect: Selección de variables enmodelos de regresión

Marta Sestelo, Nora M. Villanueva, Javier Roca-PardiñasDepartamento de Estadística e Investigación OperativaUniversidad de Vigo

En modelos de regresión múltiple, cuando existen un gran número de variables ex-ploratorias p que pueden ser o no relevantes para la predicción de la respuesta, es útilser capaz de reducir el modelo. Para ello, es necesario determinar el mejor subconjuntoo subconjuntos de q (q < p) predictores con los que se establecerá el modelo o modeloscon la mejor capacidad de predicción. FWDselect, se presenta como una nueva apro-ximación a este problema, un nuevo paquete de R que introduce un método simplepara seleccionar el mejor modelo utilizando diferentes tipos de datos (binarios, gausia-nos o poisson) y aplicándolo en diferentes contextos (parametrico o no paramétrico).La metodología desarrollada incluye dos fases: i) seleccionar la mejor combinación deq variables utilizando un nuevo procedimiento de selección stepwise hacia delante, yquizás la más importante, ii) determinar el número de covariables que deben incluirseen el modelo utilizando para ello un contraste basado en técnicas bootstrap. El softwa-re se ilustra con datos de polución ambiental.

31

23 Reducción unidimensional de 12items de la Escala de sobrecarga deZarit en cuidadores de pacientes condemencia mediante teoría derespuesta a los ítems.

Borja Santos, Eduardo González, Javier BallesterosUniversidad del País Vasco (UPV), Departamento de Neurociencias y Beca de For-mación de Personal Investigador del Gobierno Vasco. (BFI-2011-212)Instituto de Investigaciones Psiquiátricas, Fundación Mª Josefa Recio.Universidad del País Vasco (UPV), Departamento de Neurociencias y CibersamG-16.

Introducción y objetivos: La escala de sobrecarga de Zarit es un instrumento psi-cométrico utilizado para medir el nivel de carga experimentado por un cuidador in-formal. Consta de 22 ítems en los que el sujeto puede responder mediante una escalaLikert de 0-4 (“nunca”-“casi siempre”) que ofrece una puntuación total (0-88). Sin em-bargo esta escala no es unidimensional, por lo que emplear la puntuación total puededistorsionar la interpretación de los resultados. Nuestro objetivo es obtener una reduc-ción unidimensional de la ZBI que permita una correcta interpretación de los resulta-dos. Para ello emplearemos técnicas de IRT (Teoría de Respuesta a los Ítems) y CFA(análisis factorial confirmatorio).

Métodos: La base de datos está compuesta de las respuestas de 241 cuidadores queparticipan en un ensayo clínico. El proceso de análisis consta de tres partes: i) MedianteIRT no paramétrico (Mokken analysis) se pretendió conocer las estructura dimensio-nal de la ZBI; ii) Las características de los ítems de la escala reducida se estudiaronmediante el modelo de IRT paramétrico de Samejima (GRM); iii) Finalmente se utili-zó CFA para confirmar la unidimensionalidad de la subescala. Los análisis se hicieroncon R v2.15.0 empleando las librerías: Mokken (Mokken analysis) [1], ltm (GRM) [2] ylavaan (CFA) [3].

Resultados: El análisis de Mokken reveló una estructura con tres subescalas, la pri-mera de ellas con 12 ítems cuya escalabilidad es media (H=0.44) con una fiabilidadmuy buena (alpha = 0.89) (Tabla). Las características de los ítems de la ZBI reducidaindican una discriminación y dificultad buenas (Figura). Por último los resultados delCFA establecen la unidimensionalidad de la subescala (CFI = 0.930; RMSEA = 0.078),lo que demuestra que evalúa un constructo unidimensional y por tanto es adecuada lautilización de la puntuación total de la subescala.

32

23.1. Bibliografía

Conclusiones: i) La versión reducida de la ZBI de 12 ítems resultante es unidimen-sional y mantiene las buenas propiedades psicométricas de la versión original. Su usoes recomendable. ii) R y las librerías Mokken (Mokken analysis), ltm (GRM) y lavaan(CFA) resultan óptimas para realizar este tipo de análisis psicométricos.

23.1. Bibliografía[1] L. Andries van der Ark (2012). New Developments in Mokken Scale Analysis in

R. Journal of Statistical Software, 48(5), 1-27.[2] Dimitris Rizopoulos (2006). ltm: An R package for Latent Variable Modelling

and Item Response Theory Analyses, Journal of Statistical Software, 17 (5), 1-25.[3] Yves Rosseel (2012). lavaan: An R Package for Structural Equation Modeling.

Journal of Statistical Software, 48(2), 1-36.

33

24 The optimalAllocation package forlongitudinal studies design withtime-varying exposure

Jose Barrera-Gómez, Xavier BasagañaCentre for Research in Environmental Epidemiology, Barcelona, Spain.IMIM (Hospital del Mar Research Institute), Barcelona, Spain.CIBER Epidemiología y Salud Pública (CIBERESP), Barcelona, Spain.

In the context of observational longitudinal studies, we obtained the optimal valuesof the number of participants and the number of repeated measurements that maximi-ze the power to detect the hypothesized effect, given the total cost of the study. Weconsidered two different models, one that assumes a transient effect of exposure andone that assumes a cumulative effect. Results were derived for a continuous responsevariable, whose covariance structure was assumed to be damped exponential, and abinary time-varying exposure. We derived closed-form expressions for the solution tothe problem in the particular case in which the covariance structure of the response isassumed to be compound symmetry. Results showed the importance of the intraclasscorrelation of the exposure in determining the optimal combination of the number ofparticipants and the number of repeated measurements, and therefore the optimizedpower. Thus, incorrectly assuming a time-invariant exposure leads to inefficient de-signs. We also analyzed the sensitivity of results to dropout, mis-specification of thecorrelation structure of the response and allowing a time-varying exposure prevalen-ce. We present here the optimalAllocation package which implements the methologydescribed above. The package contains an interactive graphical interface that helps todecide the value of the intraclass correlation of the exposure at the study design stage.The package also computes the optimal study design depending on the values of someparameters related to the covariance structure of the response, the mean and covarian-ce structure of the exposure, the financial conditions of the study and the expecteddropout level. In addition, the plot() function shows the impact of departures from theoptimal allocation in terms of power or cost.

24.1. BibliografíaBarrera-Gómez J, Basagaña X, Spiegelman D. Optimal combination of number of

participants and number of repeated measurements in longitudinal studies with time-varying exposure (under peer review), 2012.

34

Parte V

Talleres

35

25 Web scraping con R

Gregorio R. SerranoDpto. de Economía CuantitativaFctad. CC. Económicas y Empresariales, UCM

Dada la abundancia de datos disponibles en la red directamente insertados en pá-ginas web, para muchos trabajos se hace necesario leerlos y procesarlos hasta llegar auna estructura de datos susceptible de análisis estadístico. En este taller con las ma-nos en la masa veremos cómo utilizar los paquetes XML y RCurl para la extracción dedatos y diversas formas de proceso posterior con expresiones regulares y los paqueteszoo (series temporales) y tm (textos).

36

26 Informes dinámicos con LaTeX y R:utilización de Sweave y knitr.

Francesc CarmonaDepartamento de Estadística. Universidad de Barcelona.

En este taller se muestra la utilidad de la interacción entre LaTeX como procesa-dor de textos científicos y el lenguaje R de programación en estadística, que graciasa Sweave permite la generación automática de documentos con resultados y gráficosdinámicos. También se introduce el paquete knitr de reciente creación y que proponealgunas mejoras y muchas otras posibilidades.

37

27 Interfaces Web 2.0 para R con Tiki

Xavier de Pedro PuenteUnidad de Estadística y Bioinformática. Vall d’Hebron Research Institute (UEB-VHIR). Barcelona. http://ueb.vhir.org

Es fácil encontrarse con personas con nivel intermedio en el uso de R, pero que nosaben como crear una interfaz web dinámica a sus programas en R.

Existen algunas herramientas que permiten crear informes html de forma fácil des-de R (Pastell 2010 entre otros), pero no permiten al usuario poder modificar parámetrosy volver a generar dichos gráficos, tablas o informes con los nuevos datos o parámetrosescogidos por el usuario a través de la propia página web.

En jornadas de usuarios de R recientes se observó que hay muchos usuarios quetienen lagunas de conocimiento en lo referente Apache, PHP, Mysql (por ejemplo), y losprogramas web que se pueden ejecutar en ellos, usando herramientas libres madurasy gratuitas.

Así, en este taller (similar al de las ((III Jornadas|III Jornadas de usuarios de R encastellano)) los asistentes verán a vista de pájaro todo lo necesario para poder crearinterfaces web a sus programas en R. Para ello, al final del taller habrán aprendido:

qué es un servidor web (como Apache), una base de datos (como MySQL), ellenguaje de programación web (como PHP)

como usar PhpMyAdmin: un gestor de bases de datos MySQL a través de páginaweb

como instalar una aplicación en PHP-MySQL llamada Tiki en un servidor, queles permitirá crear y usar páginas web 2.0 dinámicas hechas con software libre ygratuito.

como instalar el PluginR para comunicar Tiki con R en el servidor.

como aplicar el perfil de configuración de Tiki R HeatMaps, para disponer deuna aplicación real y funcional como ejemplo de interfaz web a un paquete de Rusado en campo de la bioinformática (De Pedro y Sánchez 2011)

como modificar dicho ejemplo para crear un primer borrador de interfaz webpara el programa de interés del asistente al taller.

como exportar la base de datos mysql para poder migrar la web al servidor webque tenga contratado el asistente al taller o de su institución.

38

28 Edición (y mucho más) potente en Rcon ESS (Emacs Speaks Statistics)

Alex SánchezDepartament d’Estadística. Universitat de Barcelona. Barcelona, Espanya.Unitat d’Estadística i Bioinformàtica. Vall d’Hebrón Institut de Recerca.

El desarrollo de programas en R o el uso de sistemas de programación literariacomo Sweave o knitr pueden verse facilitados si se dispone de un editor o un entronoque permita usar las múltiples herramientas que intervienen en el proceso de formaintegrada, flexible y potente. ESS (Emacs Speaks Statistics) es una extensión del sistemaemacs que facilita el uso combinado de emacs, R (u otros entornos estadísticos) perotambién de latex (o html o markdown) y Sweave o knitr. En este taller se realizará unaintroducción al editor emacs y al uso de la extensión ESS para realizar algunas tareascomunes como la edición y depuración de un programa R o la creación y prueba deun documento de tipo .Rnw. Seún la dinámica de la sesión se discutiran otros aspectoscomo org-ode.

39

29 Machine Learning in R

Alexandros KaratzoglouTelefonica Investigación y Desarrollo

This is a hands on course on the Machine Learning functionality in R. The coursewill focus on popular Machine Learning methods such as: Naive Bayes Support VectorMachines PCA/Dimensionality Reduction Decision Trees Random Forests Clustering

A short introduction to each method will be provided along with a description andexamples on how to use the related functions in R. The course is a hands-on course sobring your own laptop with a recent installation of R and the Machine Learning andCluster task views.

install.packages(ctv) library(ctv) install.views(MachineLearning) install.views(Clus-ter)

40

30 Introducción a las Reference Classes(programación orientada a objetos enR)

Aleix Ruiz de VillaTSS - Transport Systems and Simulations

A medida que escribimos más código, éste se vuelve más complejo, más difícil deleer y comprender, y más sujeto a la introducción de errores. Para evitar los proble-mas que conlleva, es necesario que esté bien organizado y las funcionalidades de cadaparte estén bien definidas. La manera más generalizada de trabajar ordenadamente esutilizar objetos.

Las clases de objectos tradicionales en R son las S3 y S4. Recientemente se han intro-ducido las reference classes. El enfoque de estas últimas es totalmente diferente a susantecesoras. Su programación es mucho más familiar al tipo de programación orienta-da a objectos de lenguajes como C++, python o java.

Una de las ineficiencias de R a nivel de memoria es que las funciones siempre co-pian los objetos que se les pasan, y por tanto tenemos en memoria el mismo objetorepetido varias veces. El uso de las reference classes es una de las pocas maneras deevitar este problema.

41

31 Introducción práctica a la libreríaggplot2 y su integración con ggmap.

Lluís Ramon, Andreu Vall, Roger BorràsOficina del Pla Català de Seguretat Viària, Servei Català de Trànsit, Generalitat deCatalunya. Miembro del R Users Group Barcelona.Asistente de investigación en IESE Business School, Departamento de Direcciónde Producción, Tecnología y Operaciones. Miembro del R Users Group Barcelona.Departament de Cardiología. Hospital Clínic, Universitat de Barcelona. Catalunya.Miembro del R Users Group Barcelona.

Se propone un taller introductorio a las librerías ggplot2 y ggmap de R. La libreríaggplot2 está dedicada a la creación de gráficos de alta calidad. Fue creada por Had-ley Wickham en 2005 como una implementación del libro “The Grammar of Graphics”de Leland Wilkinson. La librería ggmap permite una fácil visualización de datos es-paciales usando ggplot2 con una cómoda integración a Google Maps, OpenStreetMap,Stamen Maps o CloudMade Maps.

42

Autores e Instituciones

43

Índice de autores

Alabert, Aureli, 5Alonso Garcia, Eduardo, 19Antoñanzas-Torres, Fernando, 16, 17

Ballesteros, Javier, 32Barrera-Gómez, Jose, 34Bartosova, Jitka, 6Basagaña, Xavier, 34Borràs, Roger, 42

Cañadas Reche, José-Luis, 14Carmona, Francesc, 37

de Pedro Puente, Xavier, 38

Eduardo Melo Martínez, Carlos, 2Esperanza Melo Martínez, Sandra, 2Estévez-Pérez, Graciela, 25

Fernández-Martínez, Roberto, 16Fernandez Ceniceros, Julio, 19Fernandez Martinez, Roberto, 19

Gil Bellosta, Carlos-J., 4González Pérez, Beatriz, 15González, Eduardo, 32Graffelman, Jan, 10, 29

Ibarguren, Igor, 12Ivina, Olga, 9

Julian Alía-Martínez, Manuel, 16

Karatzoglou, Alexandros, 40Kepa Gerrikagoitia, Jon, 12

L. Cano, Emilio, 3López López, Victoria, 15Lobo, Agustín, 21Luz Calle Rosingana, María, 22

M. Moguerza, Javier, 3M. Villanueva, Nora, 28, 31Martínez-de-Pisón, Javier, 17Morán, Jesús, 23Moriña, David, 13

Navarro, Albert, 13

Orlando Melo Martínez, Oscar, 2

Pazmiño Maji, Rubén, 8Perpiñan-Lamigueiro, Oscar, 17

Quintela-del-Río, Alejandro, 25

R. Serrano, Gregorio, 36Ramon, Lluís, 42Roca-Pardiñas, Javier, 28, 31Roman, Ibai, 12Ruiz de Villa, Aleix, 41

Sánchez Mayor, Milagros, 10Sánchez, Alex, 39Sampedro Ruiz, Juan, 15Santos, Borja, 32Sanz Garcia, Andres, 19Sanz-García, Andrés, 16Sanz-Garcia, Andres, 17Sestelo, Marta, 28, 31Sodupe-Ortega, Enrique, 16

T. Longford, Nicholas, 6Torres Manzanera, Emilio, 12

Urkaregi, Arantza, 23Urrea Gales, Víctor, 22

Vall, Andreu, 42

Zarragoitia, Ane, 23

44

Índice de Instituciones

Asistente de investigación en IESE Bu-siness School, Departamento deDirección de Producción, Tecno-logía y Operaciones. Miembro delR Users Group Barcelona., 42

Barcelona, Spain, 10BioStatNet, 13

Centre for Research in Environmental Epi-demiology, Barcelona, Spain., 34

Centre Tecnològic de Nutrició i Salut, 13CIBER Epidemiología y Salud Pública

(CIBERESP), Barcelona, Spain., 34CICtourGUNE, 12Collaborative statistician at CREAL. Re-

search fellow at the Universityof Girona, 9

datanalytics, 4Departament d’Estadística. Universitat

de Barcelona. Barcelona, Espan-ya., 39

Departament d,Estadística i InvestigacióOperativa, 29

Departament de Cardiología. HospitalClínic, Universitat de Barcelona.Catalunya. Miembro del R UsersGroup Barcelona., 42

Departamento de Estadística e Investi-gación Operativa, 28, 31

Departamento de Estadística. Universi-dad de Barcelona., 37

Departamento de Matemáticas - Univer-sidad de A Coruña, 25

Department of Statistics and OperationsResearch, 10

Dpto. de Economía Cuantitativa, 36

Dpto. Estadística e Investigación Opera-tiva, Universidad Rey Juan Car-los, 3

Escuela Superior Politécnica de Chim-borazo, 8

Facultad de Informática, Universidad Com-plutense de Madrid, 15

Facultad de Matemáticas, UniversidadComplutense de Madrid, 15

Facultat de Medicina, Universitat Autò-noma de Barcelona, 13

Fctad. CC. Económicas y Empresariales,UCM, 36

Grupo EDMANS, Universidad de La Rio-ja, 16, 17, 19

IMIM (Hospital del Mar Research Insti-tute), Barcelona, Spain., 34

Institut de Ciències del Terra "Jaume Al-mera". Consejo Superior de In-vestigaciones Científicas, 21

Instituto de Investigaciones Psiquiátri-cas, Fundación Mª Josefa Recio.,32

Oficina del Pla Català de Seguretat Vià-ria, Servei Català de Trànsit, Ge-neralitat de Catalunya. Miembrodel R Users Group Barcelona., 42

SNTL and UPF, Barcelona, Spain, 6

Técnico de Investigación en el Institutode Estudios Sociales AvanzadosIESA-CSIC, 14

45

Índice de Instituciones Índice de Instituciones

Telefonica Investigación y Desarrollo ,40

TSS - Transport Systems and Simulations,41

Unidad de Docencia Posgraduada Mé-dica. Hospital Universitario deCruces. Barakaldo. Bizkaia., 23

Unidad de Estadística y Bioinformática.Vall d’Hebron Research Institu-te (UEB-VHIR). Barcelona. http://ueb.vhir.org,38

Unitat d’Estadística i Bioinformàtica. Valld’Hebrón Institut de Recerca., 39

Universidad de Barcelona - España., 2Universidad de Vic, 22Universidad de Vigo, 28, 31Universidad del País Vasco (UPV), De-

partamento de Neurociencias yBeca de Formación de PersonalInvestigador del Gobierno Vas-co. (BFI-2011-212), 32

Universidad del País Vasco (UPV), De-partamento de Neurociencias yCibersam G-16., 32

Universidad Distrital Francisco José deCaldas, 2

Universidad Nacional de Colombia, 2Universidad Politécnica de Madrid, 17Universitat Autònoma de Barcelona, 5Universitat Politècnica de Catalunya, 10,

29University of Economics in Prague, Jin-

drichuv Hradec, Czech Republic, 6

UPV/EHU. Dpto de Matemática Apli-cada, Estadística e I.O. (UPV/EHU)-Miembro de la red BIOSTATNET,23

46

libro resumenes v121114_1436

Data & Analytics