valoraciÓn del impacto de la producciÓn cientÍfica … · bibliográficos y el resto de las...
TRANSCRIPT
V SEMINARIO INTERNACIONAL SOBRE ESTUDIOS CUANTITATIVOS Y CUALITATIVOS DE LA CIENCIA Y LA
TECNOLOGÍA ¨Prof. Gilberto Sotolongo Aguilar¨
VALORACIÓN DEL IMPACTO DE LA PRODUCCIÓN CIENTÍFICA
DEL ICIMAF DENTRO DEL PROGRAMA NACIONAL DE CIENCIAS
BÁSICAS
Autores: Lic. Ariagna Martínez Cuesta Dr. Armando Plasencia Salgueiro
Instituto de Cibernética, Matemática y Física (ICIMAF)
Email: ariagna @ icmf.inf.cu [email protected]
ANTECEDENTES
Se requiere gestionar el conocimiento generado por el ICIMAF, dentro del Programa Nacional de Ciencias Básicas.
Se desea conocer el impacto de la producción científica de este centro dentro de este mismo programa.
Carencia de una metodología y de herramientas adecuadas para la valoración de la producción científica del ICIMAF.
Carencia de una base de datos nacional que incluya las disciplinas contempladas en el Programa Nacional de Ciencias Básicas.
NECESIDAD DEL ESTUDIO
FACTOR DE IMPACTO
ORGANIZACIONES CIENTÍFICAS DEL CITMA
ORGANIZACIONES CIENTÍFICAS EMPRESARIALES,
UNIVERSITARIAS, ETC.
Publicaciones científicas
VALORACIÓN DE LA PRODUCCIÓN CIENTÍFICA
ESTADO ACTUAL
Proponer una
Metodología
fundamentada en:
Bibliometría
Cibermetría
Bibliominería
Cienciometría
SOLUCIÓN PROPUESTA AL PROBLEMA DE INVESTIGACIÓN
PASOS DE LA METODOLOGÍA A SEGUIR.
SELECCIÓNHERRAMIENTAS
IDENTIFICACIÓNALGORITMOS
APLICACIÓN CONTROL
CLUSTERING
REPRESENTACIÓNCLUSTERS
DOCUMENTOS
AGRUPAMIENTODOCUMENTOS
IDENTIFICACIÓNINDICADORES
BIBLIOMÉTRICOS
METODOLOGÍA
1
2
4
35
6
DE IMPACTO
DE ACTIVIDAD DE COLABORACIÓN
Factor de utilización Análisis de citas
FU = ∑ dc / R FI = A / B
INDICADORES BIBLIOMÉTRICOS
Centralidad de Grado
Agrupar documentos similares o relacionados en una clase , o cluster.
El agrupamiento mejora la efectividad de la recuperación basada en la hipótesis de cluster.
AGRUPAMIENTO DE DOCUMENTOS
JERARQUÍA DE LOS CLÚSTERES DE DOCUMENTOS.
x
x x
x
xx
x
x
xx
x
xx
xx
xx x
xxx
xx
x Hipercentroide
Centroide de ClusterSupercentroide
Super cluster
cluster
Promedio de m
Un Cluster Representativo – El Centroide.
El centroide de un cluster puede ser representado por cualquier documento localizado en el cluster. Es preferible construir un vector centroide especial que este localizado centralmente en el cluster.
La definición típica es:
Ck es el peso del término k-avo en el centroide Tik es el peso del término k-avo en el i-avo documento en el cluster. m es el número de documentos en el cluster.
k iki
m
C Tm
==∑1
1
[ T1,1 T1,2 … … T1,V ][ T2,1 T2,2 … … T2,V ]… … …[ Tm,1 Tm,2 … … Tm,V ]
Control del Proceso de ClusteringSimilitud por umbral para la formulación de clusters.
D1 D4
D3 D5 D2 D6
Umbral > 0.5
D1 D4
D3 D5 D2 D6
Umbral > 0.7
D1 D4
D3 D5 D2 D6
Umbral >= 0.5
D1 D2 D3 D4 D5 D6D1 - 0.3 0.5 0.6 0.8 0.9D2 0.3 - 0.4 0.5 0.7 0.8D3 0.5 0.4 - 0.3 0.5 0.2D4 0.6 0.5 0.3 - 0.4 0.1D5 0.8 0.7 0.5 0.4 - 0.3D6 0.9 0.8 0.2 0.1 0.3 -
Algoritmos utilizados en la aplicación de la Bibliominería
Algoritmo de Clasificación (PageRank)
Algoritmo de Agrupamiento (K-Medias)
La idea de Page Rank es asignar a cada página web una categoría basada en su estructura de hipervínculo y categorizar las páginas retornadas al realizar la solicitud de la búsqueda por las palabras claves.
Estas categorías a los efectos de la presente de investigación serán el factor de umbral D.
ALGORITMO DE CLASIFICACIÓN PageRank
Google (http://google.com)
Hace uso de estructuras adicionales presentes en el hipertexto para proporcionar mejores cualidades en los resultados de las búsquedas. Page Rank
Este tiene información local de todos los impactos y así el hace uso extensivo de la proximidad en la búsqueda.
La categoría de las páginas de Google (Google’s PageRank)
El impacto de un artículo es enjuiciado por la cantidad de artículos en los que aparece como cita.
Las citas se corresponden al juicio subjetivo de importancia de la gente.
En la web, el número de las conexiones de entrada de una página se relaciona con la importancia/cualidad de la página, lo cual determina el rango de la página PageRank
POSICIÓN DE LAS PUBLICACIONES EN FÍSICA TEÓRICA
Posición 1
Posición 2
Posición de las publicaciones del Departamento de Física Teórica durante el año 2009 de acuerdo con la categorización de Google
APLICACIÓN DEL ALGORITMO DE CATEGORIZACIÓN PageRank
Total: 10 publicaciones (publ)
8 publ2 publ
La idea es representar el agrupamiento de publicaciones de los investigadores (objetos) por el centroide de documentos que pertenecen al grupo o cluster. El centroide “c” del grupo “S” está definido por:
c = (1/|S|)ΣdS.d).
ALGORITMO DE AGRUPAMIENTO K-MEDIAS
Selección de la cantidad de k.
Uno de los problemas potenciales para la aplicación del algoritmo de k-mean es: ¿Quién decide que cantidad de clusters deberán buscarse? o sea ¿quien decide k?
A menos que el analista tenga un conocimiento a priori del número de los clusters subyacentes deberá de añadírsele un lazo externo al algoritmo que se ejecute con varios valores prometedores de k.
Las soluciones de agrupamiento para cada valor de k puede entonces compararse, con el valor de las k resultantes en la menos SSE que haya sido seleccionada.
JabRef
WEKA
HERRAMIENTAS SELECCIONADAS
(Programa para el trabajo con las Bases de datos en formato BibTex)
(Herramienta de Software Libre para el aprendizaje automático de la Minería de Datos)
1. La evaluación, análisis y toma de decisiones sobre la producción científica, es una tarea sumamente compleja que debe ser acometida con un enfoque sistémico, multidisciplinario y con el empleo de las técnicas de aprendizaje automático.
2. Los indicadores bibliométricos iniciales a tener en cuenta son empleados en la metodología propuesta.
3. La herramienta JabRef se utiliza como interfase entre los datos bibliográficos y el resto de las herramientas.
4. Se utilizaron los resultados del algoritmo de categorización de Google para obtener los pesos relativos al impacto de las publicaciones del ICIMAF.
5. Se utilizó el algoritmo de minería de datos k-means para determinar los centroides de documentos.
6. Con la utilización de las técnicas expuestas es posible elaborar una metodología que permita valorar la calidad de la producción científica del PNCB.
CONCLUSIONES