La biblioteca, como espacio de investigación:
estudios analíticos y bibliominería
Maribel Alvarado Acuña
Santiago, 31 de Agosto 2016
Biblioteas UC
Big data y descubrimientoBig data es útil en la medida que las decisiones que se tomen con ellos sean útiles.
(Arash Nourian)
Hallazgos (Objetos y Eventos)
Clásicos (Clases,
Conductas, Reglas)
Asociaciones
Correlaciones (Patrones y
dependencias)
¿Cuánto valor puedo crear con mis datos?¿Cómo contribuyen a la solución de un problema?
Descubrimiento
Estudios analíticosDescriptivos
• Revisar y examinar los datos a fin de entenderlos y analizar el desempeño del negocio.
Diagnósticos
• Determinar qué ha sucedido y por qué.
Predictivos
• Analizar datos históricos y actuales para determinar lo que podría suceder o no.
Prescriptivos
• Desarrollar y analizar alternativas de cursos de acción.
Decisivos
• Visualizar información y recomendar cursos de acción .
Biblioteca
Actores en bibliotecas académicas
Admisión.Registro
Académico.Personal.
Colección presencial Acceso.
Servidores.Bases de
datos.
Colección electrónica
AdministraciónInformática
RendimientoMultidisciplinariedadGeográficos
Uso GéneroEdadCronológicosColegio provenienciaPSU
El problema
Biblioteca como factor influyente en el
rendimiento académico de los estudiantes UC.
Multidisciplinariedad de las consultas de
usuarios UC.
Objetivo
• Explorar y analizar la relación entre rendimiento académico de alumnos de pregrado, uso de las colecciones de biblioteca y multidisciplinariedad de las consultas, aplicando técnicas de minería de datos.
HipótesisH1: Los alumnos con mayor rendimiento son los que usan los servicios de la biblioteca por sobre el promedio.
H1: Existe relación entre las consultas a la colección electrónica y el uso de la biblioteca presencial.
H1: Menos del 50% de las consultas son multidisciplinarias.
AntecedentesRecopilación de
información
Herramientas para análisis:
Datos de transacciones 2010-2015.Base de datos proyecto Fondecyt 2012-2014
Excel, Rapid Miner, R
Análisis estadísticos, Test de proporciones, Correlación Pearson, Análisis de regresión, Análisis t, Test binomial, Entropía, Conjuntos frecuentes, Reglas de asociación, Clustering con K-means y DBSCAN
Técnicas usadas:
Población: 28.756 alumnos
Uso de servicios de biblioteca y notas
-10 -8 -6 -4 -2 0 2 4 60
20000
40000
60000
80000
100000
120000
140000
R² = 0.184268136204509
Uso de biblioteca 2012-2014
Zscore de notas
Canti
dad
de p
rést
amos
-10 -8 -6 -4 -2 0 2 4 60
20000
40000
60000
80000
100000
120000
140000
R² = 0.183970386137537
Duración de sesiones 2012-2014
Zscore de notas
Dura
ción
de la
s ses
ione
s-10 -8 -6 -4 -2 0 2 4 60
20000
40000
60000
80000
100000
120000
140000
R² = 0.137582061473433
Sesiones en colección electrónica 2012-2014
Zscore de notas
Canti
dad
de se
sione
s
Rendimiento académico y uso de biblioteca• Test de proporciones para notas y uso de biblioteca presencial
2012Promedios (sin uso cero) Zscore <0,02 Zscore >=0,02 Total x bca
Uso bca >=23 42.94% 57.06% 4229Uso bca<23 47.21% 52.79% 8803
Total x zscore 45.83% 54.17% 13032X-squared = 20.805, df = 1, p-value = 5.086e-062013
Promedios (sin uso cero) Zscore <0,01 Zscore >=0,01 Total x bcaUso bca >=22 45.28% 54.72% 9594Uso bca<22 47.66% 52.34% 20556
Total x zscore 46.91% 53.09% 30150X-squared = 10.16, df = 1, p-value = 0.0014352014
Promedios (sin uso cero) Zscore <0,02 Zscore >=0,02 Total x bcaUso bca >=22 43.90% 56.10% 10816Uso bca<22 47.06% 52.94% 22820
Total x zscore 46.05% 53.95% 33636X-squared = 29.48, df = 1, p-value = 5.65e-08
• Cluster con K-means
Rendimiento académico y uso de biblioteca
2012 2013 2014
Rendimiento académico y uso de colección electrónica• Test de proporciones para notas y cantidad de sesiones
2012Promedios Zscore <0.2 Zscore >=0.2 Total
Sesiones >=31 35.07% 64.93% 978Sesiones <31 46.46% 53.54% 3125Total x zscore 43.75% 56.25% 4103
X-squared = 38.823, df = 1, p-value = 4.64e-102013
Promedios Zscore <0.2 Zscore >=0.2 TotalSesiones >114 35.10% 64.90% 1057Sesiones <114 45.72% 54.28% 4368Total x zscore 43.65% 56.35% 5425
X-squared = 38.59, df = 1, p-value = 5.229e-102014
Promedios Zscore <0.2 Zscore >=0.2 TotalSesiones >=398 35.28% 64.72% 1437Sesiones <398 48.31% 51.69% 5483Total x zscore 45.61% 54.39% 6920
X-squared = 77.415, df = 1, p-value < 2.2e-16
• Test de proporciones para notas y duración de sesiones2012
Promedios Zscore <0.2 Zscore>=0.2 TotalDuración >=335 39,77% 60,23% 1222Duración <335 45,44% 54,56% 2881Total x zscore 43,75% 56,25% 4103
X-squared = 10.96, df = 1, p-value = 0.00093122013
Promedios Zscore <0.2 Zscore>=0.2 TotalDuración >=452 38,73% 61,27% 1575Duración <452 45,66% 54,34% 3850Total x zscore 43,65% 56,35% 5425
X-squared = 21.557, df = 1, p-value = 3.435e-062014
Promedios Zscore <0.2 Zscore>=0.2 TotalDuración >523 39,90% 60,10% 2080Duración <523 48,06% 51,94% 4840Total x zscore 45,61% 54,39% 6920
X-squared = 38.664, df = 1, p-value = 5.035e-10
Rendimiento académico y uso de colección electrónica
• Cluster con K-meansRendimiento académico y uso de colección electrónica
2012 2013 2014
Uso de biblioteca presencial y uso de colección electrónica
0 1 2 3 4 5 6 7 8 9 10 >100
5
10
15
20
25
30
35
Uso de biblioteca por año de carrera 2012-2014
2012 2013 2014
Años en la carrera
Canti
dad
de tr
ansa
ccio
nes
0 1 2 3 4 5 6 7 8 9 10 >100
50
100
150
200
250
300
Consultas colección electrónica por año de carrera 2012-2014
2012 2013 2014
Años en la carrera
Canti
dad
de C
onsu
ltas
Estadísticas Notas-Uso de biblioteca Notas-Sesiones Notas-DuraciónCoeficiente de correlación 0.03287 0.04827 0.09464Tamaño del efecto 0.00108 0.00233 0.00896
Uso de biblioteca presencial y uso de colección electrónica
• Correlación de uso de servicios y notas 2012-2014
Estadísticas 2012 2013 2014Coeficiente de correlación 0.0191 0.0380 0.0418Tamaño del efecto 0.0004 0.0014 0.0017R^2 ajustado 0.0003 0.0014 0.0017Error típico 23.07 47.44 54.96Observaciones 28756 28756 28756
0 2000 4000 6000 8000 10000 12000 14000 16000 18000 200000
200
400
600
800
1000
1200
1400
1600
1800
2000
R² = 0.00326660697687864R² = 0.00273662566317041
Consultas en colección electrónica y uso de biblioteca 2012-2014
Cantidad de sesiones
Canti
dad
de P
rést
amos
Multidisciplinariedad en la colección presencial
• Consultas por cantidad de áreas en la colección presencial
1 2 3 4 50
1000
2000
3000
4000
5000
6000
7000
Cantidad de áreas consultadas por año
2012 2013 2014
Cantidad de áreas consultadas
Canti
dad
de u
suar
ios
• Transacciones promedio por área del usuario y área del material 2012-2014
Multidisciplinariedad en la colección presencial• Conjuntos frecuentes de áreas consultadas
• Reglas de asociación de áreas consultadas
Multidisciplinariedad en la colección presencial
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Multidisciplinariedad de las consultas por Unidad Académica 2010-2014
Multidisciplinariedad Monodisciplinariedad
• Nivel de multidisciplinariedad de las consultas por unidad Académica
Multidisciplinariedad en colección presencialMultidisciplinariedad 2010 2011 2012 2013 2014
>50% 32,26% 32,26% 35,48% 35,48% 38,71%<50% 67,74% 67,74% 64,52% 64,52% 61,29%Media 40% 41% 46% 43% 43%Error típico 4% 5% 5% 4% 4%Mediana 39% 37% 45% 43% 42%Desviación estándar 25% 26% 27% 24% 24%Mínimo 4% 4% 5% 4% 4%Máximo 84% 87% 91% 88% 87%p-value (promedio) 2.2e-16 2.2e-16 2.2e-17 2.2e-16 2.2e-16
• El p-value para las consultas multidisciplinarias de los alumnos por Unidad Académica, es < 0.05, por lo que la diferencia se considera estadísticamente significativa.
Conclusiones Existe una relación entre uso de los servicios de la biblioteca y el rendimiento
académico de los estudiantes: Los alumnos con mayor rendimiento son los que usan los servicios de la biblioteca por sobre el promedio.
Existe una baja relación entre las consultas a la colección electrónica y el uso de la biblioteca presencial. El uso de la primera sube con los años y el uso de la segunda ha bajado. Son complementarias en los años de carrera.
Menos del 50% de las consultas son multidisciplinarias a nivel general. A
nivel de Unidades Académicas un 65% de ellas realiza consultas monodisciplinarias en Bibliotecas UC, y un 35% realiza consultas multidisciplinarias.
Sugerencias
Mejorar la experiencia de los
usuarios.
Incorporar nuevas herramientas para
análisis.
Gracias por su atención