temas selectos de primo - wordpress.com...back office • es la interfaz del sistema primo, desde la...

38
Temas Selectos de Primo Manuel Alejandro Hernández Gutiérrez. 7ma. Reunión de Usuarios de Ex Libris Chile. Viña del Mar, Chile, 26 y 27 de julio de 2012.

Upload: others

Post on 03-Feb-2021

4 views

Category:

Documents


0 download

TRANSCRIPT

  • Temas Selectos de Primo

    Manuel Alejandro Hernández Gutiérrez.

    7ma. Reunión de Usuarios de Ex Libris Chile.

    Viña del Mar, Chile, 26 y 27 de julio de 2012.

  • Agenda

    • El registro PNX

    • DeDup

    • FRBR

    • Back Office

    • Primo Central

  • El registro PNX

    • PNX = Primo Normalized XML.

    • El “átomo” del sistema Primo.

    • Es el producto de las rutinas de normalización

    aplicadas sobre los metadatos de la fuente de

    información publicada en el sistema.

    • Está organizado en secciones, cada una de

    ellas contiene información utilizada en la

    búsqueda, despliegue y otras funcionalidades

    específicas disponibles en el sistema.

    3

  • • Las 12 secciones que integran el registro PNX

    son:

    4

    El registro PNX

    Control

    Display

    Links

    Search

    Facets

    Sort

    DeDup

    FRBR

    Delivery

    Ranking

    Enrichment

    Additional data

  • El registro PNX

    5

    book

    Introducing the UNIX system

    McGilton, Henry

    contributor>Morgan, Rachel coaut.

    New York McGraw-Hill

    c1983

    xix, 556 p. il.

    $$V0070450013

    UNIX (Sistema Operativo para Computador) eng

    puc_aleph

    $$IPUC$$LBGAU$$Savailable$$31$$40$$5N$$62$$XPUC50$$YBGAU$$ZCGE

    UNIX Systems

    $$IPUC$$Savailable

    available

  • El registro PNX

    6

    eng

    1983

    UNIX (Sistema Operativo para Computador)

    BGAU

    available

    books

    books

    McGilton, H

    Morgan, R

  • El registro PNX

    • El contenido del registro PNX se determina a

    través de la “Rutina de normalización”

    asociada a la fuente de datos.

    • Un proceso denominado Pipe se encarga de

    “cosechar” los datos desde su origen y

    procesarlos para publicarlos en Primo.

    7

  • El registro PNX

    8

  • El registro PNX

    9

  • El registro PNX

    10

  • El registro PNX

    11

  • DeDup

    • La identificación de registros duplicados, es

    una de las fases del proceso de publicación,

    que se realiza una vez que la información ha

    sido cargada en el sistema.

    • El proceso inicia con la creación de un “vector

    dedup” por cada registro PNX cargado en el

    sistema.

    • El “vector” tiene toda la información que

    requiere el “algoritmo de detección de

    duplicados”.

    12

  • DeDup

    • El algoritmo de detección de duplicados, para

    cualquier tipo de registro que no sean

    artículos, se compone de dos fases:

    • Fase de Selección de Candidatos.

    • Fase de Coincidencia de Registros.

    • En la fase de Selección de Candidatos, se

    asigna un puntaje al registro, según su

    contenido en campos específicos; la

    puntuación determina si el registro pasa a la

    segunda fase o es descartado.

    13

  • DeDup

    • En la fase de “Coincidencia de Registros”, los

    registros que resultaron “candidatos” en la

    primera fase también son puntuados para

    determinar la coincidencia o no del registro

    que esta siendo procesado con el registro

    “preferido” .

    14

  • DeDup

    15

    Normalización Carga en la base de datos Dedup

    PNX

    Vector

    Dedup

    Dedup

    matchid

    Vectores

    Dedup

    PNX

    Verificar en registros nuevos /

    actualizados / borrados

    Encontrar candidatos

    Encontrar coincidentes

    Crear grupo

    Crear registro fusionado

  • DeDup

    16

  • DeDup

    17

  • DeDup

    18

  • DeDup

    19

  • FRBR

    • Primo cuenta con la funcionalidad para

    agrupar registros con base en el estándar

    “Functional Requirements for Bibliographic

    Records” publicado por el IFLA Study Group.

    • La rutina de normalización asociada a cada

    fuente de datos cuenta con rutinas para la

    creación de la sección “” del registro

    PNX.

    • El propósito de estas rutinas, es la creación de

    un vector por cada registro de la fuente de

    datos que se cargó en la base de datos del

    sistema.

    20

  • FRBR

    • El vector que se genera tiene varias llaves que

    sirven de identificación para el grupo.

    • Cuando un registro coincide con una de las

    llaves de un grupo, el registro pasa a formar

    parte del grupo y se le asigna el número de ID

    que identifica a dicho grupo.

    • Cada registro puede pertenecer únicamente a

    un grupo FRBR.

    • El grupo se contabiliza como un solo registro,

    tanto en la lista de resultados como en las

    facetas.

    21

  • FRBR

    22

  • FRBR

    23

  • FRBR

    24

  • FRBR

    25

  • FRBR

    26

  • FRBR

    27

  • Back Office

    • Es la interfaz del sistema Primo, desde la que

    se llevan a cabo las siguientes tareas:

    • Configurar la apariencia de la interfaz para el

    usuario también llamada Front End.

    • Configuración y gestión del flujo de los procesos

    de la plataforma de publicación.

    • Monitoreo de los procesos del sistema.

    28

  • Back Office

    29

  • Back Office

    30

  • Back Office

    31

  • Primo Central

    • Es un índice centralizado de Primo que incluye

    millones de registros.

    • Los registros son cosechados desde editores

    primarios y secundarios, agregadores de

    importancia regional y global.

    • El número de registros crece constantemente,

    también se añaden nuevas fuentes de datos.

    • Ex Libris se encarga de mantenerlo, se aloja

    en un entorno de nube de cómputo y se ofrece

    como servicio a los usuarios de sus sistemas

    MetaLib y Primo.

    32

  • Primo Central

    • Permite presentarle al usuario, una lista de

    resultados consolidada y ordenada por

    relevancia.

    33

  • Primo Central

    34

    Usuario de Primo

    Front End

    Búsqueda profunda

    Adaptador de

    Primo Central

    Primo Central Interfaz de servicios web

    Basada en IP

    50M registros

    50M registros

    Recursos locales

    50M registros

  • Primo Central

    Nombre de la fuente No. de registros Nombre de la fuente No. de registros

    BioMed Central

    ≈ 62.000

    Gale + 95.000.00

    CrossRef ≈ 40.000.000

    HathiTrust ≈ 600.000

    Dialnet

    ¿? MEDLINE ≈ 18.550.000

    DOAJ ≈ 352.000

    Springer ¿?

    ERIC ¿? Wiley ¿?

  • Primo Central

    36

  • Primo Central

    37

  • ¡Gracias!

    [email protected]

    aleph_mahg [email protected]

    mailto:[email protected]