artículo - el profesional de la informaciónel profesional de la información, v. 15, n. 4,...

12
El profesional de la información, v. 15, n. 4, julio–agosto 2006 278 1. Introducción La world wide web representa en la actualidad el mayor espacio de información existente debido a su constante y exponencial crecimiento. A pesar de que este volumen le confiere un gran valor informativo, conlleva una problemática correlacionada: el incre- mento para el usuario de la dificultad para encontrar y localizar información relevante que satisfaga sus nece- sidades de información. No es de extrañar, por tanto, que la investigación en técnicas de recuperación de in- formación (RI) haya experimentado un gran auge a partir del surgimiento de la www. Los sistemas de RI basados en querying –en los que el usuario debe introducir una serie de términos de búsqueda para que reciba una lista de resultados orde- nada por relevancia respecto a la consulta– son los que mayor atención han recibido hasta la fecha por parte de la comunidad científica dedicada a investigar el te- ma. Este hecho ha originado que actualmente exista multitud de implementaciones prácticas de gran utili- dad para el usuario final, siendo el motor de búsqueda Artículo Interfaz visual para recuperación de información basada en análisis de metadatos, escalamiento multidimensional y efecto ojo de pez Por Yusef Hassan–Montero y Víctor Herrero–Solana Resumen: En el presente trabajo se propone un modelo origi- nal de interfaz visual para la recuperación de información o VI- RI (visual information retrieval interface), orientada a sitios web descritos por metadatos. Además, se explica un prototipo experi- mental basado en dicho modelo resultado de la combinación de tres métodos: minería de metadatos, escalamiento multidimen- sional o MDS (multidimensional scaling), y una técnica de fo- cus+context denominada “ojo de pez”. Por último se lleva a ca- bo un test de usuarios sobre el citado prototipo. Los resultados sugieren que el modelo de VIRI propuesto resulta útil para la ex- ploración y recuperación de información, así como satisfactorio para el usuario final. Palabras clave: Visualización de información, Minería de datos, Escalamiento multidimensional, Focus+context, Ojo de pez. Title: Information retrieval interface based on metadata mining, multidimensional scaling and fisheye technique Abstract: This paper proposes an original model of the visual information retrieval interface (VIRI), aimed at websites de- scribed by metadata. The paper also describes the development of an experimental prototype based on the proposed model. The applied methodology for the prototype’s development is a combination of three methods: Metadata mining, Multidimen- sional scaling (MDS), and a Focus+Context technique called Fisheye. Finally, a user test is conducted, whose results sug- gest that the proposed model of VIRI is useful for information browsing and retrieval, and is satisfying for the end–user as well. Keywords: Information visualisation, Data mining, Multidimensional scaling, Focus+context, Fisheye. Hassan–Montero, Yusef; Herrero–Solana, Víctor. «Interfaz visual para recuperación de información basada en análi- sis de metadatos, escalamiento multidimensional y efecto ojo de pez». En: El profesional de la información, 2006, ju- lio–agosto, v. 15, n. 4, pp. 278–289. Yusef Hassan Montero es licenciado en biblioteconomía y do- cumentación, e investigador contratado por el grupo SCImago en la Universidad de Granada, con cargo al proyecto Atlas of Science. Sus líneas de investigación se centran en la interac- ción persona–ordenador, visualización y recuperación de in- formación. Además es co–editor de NoSoloUsabilidad.com, magazín electrónico sobre diseño web centrado en el usuario, usabilidad y arquitectura de la información. Víctor Herrero–Solana, doctor en documentación. Profesor de la Facultad de Documentación de la Universidad de Granada e investigador del Grupo SCImago. Artículo recibido el 19–03–06 Aceptación definitiva: 31–05–06

Upload: others

Post on 16-Mar-2020

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Artículo - El Profesional de la InformaciónEl profesional de la información, v. 15, n. 4, julio–agosto 2006 279 Googleel que mayor éxito ha cosechado debido, entre otras razones,

El profesional de la información, v. 15, n. 4, julio–agosto 2006278

1. Introducción

La world wide web representa en la actualidad elmayor espacio de información existente debido a suconstante y exponencial crecimiento. A pesar de queeste volumen le confiere un gran valor informativo,conlleva una problemática correlacionada: el incre-mento para el usuario de la dificultad para encontrar ylocalizar información relevante que satisfaga sus nece-sidades de información. No es de extrañar, por tanto,que la investigación en técnicas de recuperación de in-

formación (RI) haya experimentado un gran auge apartir del surgimiento de la www.

Los sistemas de RI basados en querying –en losque el usuario debe introducir una serie de términos debúsqueda para que reciba una lista de resultados orde-nada por relevancia respecto a la consulta– son los quemayor atención han recibido hasta la fecha por partede la comunidad científica dedicada a investigar el te-ma. Este hecho ha originado que actualmente existamultitud de implementaciones prácticas de gran utili-dad para el usuario final, siendo el motor de búsqueda

ArtículoInterfaz visual para recuperación de informaciónbasada en análisis de metadatos, escalamiento

multidimensional y efecto ojo de pezPor Yusef Hassan–Montero y Víctor Herrero–Solana

Resumen: En el presente trabajo se propone un modelo origi-nal de interfaz visual para la recuperación de información o VI-RI (visual information retrieval interface), orientada a sitios webdescritos por metadatos. Además, se explica un prototipo experi-mental basado en dicho modelo resultado de la combinación detres métodos: minería de metadatos, escalamiento multidimen-sional o MDS (multidimensional scaling), y una técnica de fo-cus+context denominada “ojo de pez”. Por último se lleva a ca-bo un test de usuarios sobre el citado prototipo. Los resultadossugieren que el modelo de VIRI propuesto resulta útil para la ex-ploración y recuperación de información, así como satisfactoriopara el usuario final.

Palabras clave: Visualización de información, Minería de datos,Escalamiento multidimensional, Focus+context, Ojo de pez.

Title: Information retrieval interface based onmetadata mining, multidimensional scaling andfisheye technique

Abstract: This paper proposes an original model of the visualinformation retrieval interface (VIRI), aimed at websites de-scribed by metadata. The paper also describes the developmentof an experimental prototype based on the proposed model. Theapplied methodology for the prototype’s development is a combination of three methods: Metadata mining, Multidimen-sional scaling (MDS), and a Focus+Context technique called Fisheye. Finally, a user test is conducted, whose results sug-gest that the proposed model of VIRI is useful for information browsing and retrieval, and is satisfying for the end–useras well.

Keywords: Information visualisation, Data mining, Multidimensional scaling, Focus+context, Fisheye.

Hassan–Montero, Yusef; Herrero–Solana, Víctor. «Interfaz visual para recuperación de información basada en análi-sis de metadatos, escalamiento multidimensional y efecto ojo de pez». En: El profesional de la información, 2006, ju-

lio–agosto, v. 15, n. 4, pp. 278–289.

Yusef Hassan Montero es licenciado en biblioteconomía y do-cumentación, e investigador contratado por el grupo SCImagoen la Universidad de Granada, con cargo al proyecto Atlas ofScience. Sus líneas de investigación se centran en la interac-ción persona–ordenador, visualización y recuperación de in-formación. Además es co–editor de NoSoloUsabilidad.com,magazín electrónico sobre diseño web centrado en el usuario,usabilidad y arquitectura de la información.

Víctor Herrero–Solana, doctor en documentación. Profesor dela Facultad de Documentación de la Universidad de Granada

e investigador del Grupo SCImago.

Artículo recibido el 19–03–06Aceptación definitiva: 31–05–06

Page 2: Artículo - El Profesional de la InformaciónEl profesional de la información, v. 15, n. 4, julio–agosto 2006 279 Googleel que mayor éxito ha cosechado debido, entre otras razones,

El profesional de la información, v. 15, n. 4, julio–agosto 2006 279

Google el que mayor éxito ha cosechado debido, entreotras razones, a la precisión y continua optimizaciónde su algoritmo de ordenación de resultados.

Sin embargo, por definición, estos sistemas nopueden resultar igualmente útiles y satisfactorios paratodos los tipos de necesidades informativas. Cuando elusuario no tiene completamente claro qué está buscan-do, o cuando no es capaz de expresar con precisión susnecesidades de información mediante el lenguaje deconsulta, requiere sistemas de RI alternativos que envez de interrogarle sobre qué necesita, le permitan re-conocer visualmente la información buscada y el mo-do de acceder a ella.

La principal alternativa a los sistemas basados enquerying es aquella representada por las denominadosInterfaces Visuales de Recuperación de Información oVIRIs (Visual Information Retrieval Interfaces), queposibilitan al usuario localizar y recuperar informaciónmediante una estrategia de browsing o exploración vi-sual–espacial. De esta forma, a través de abstraccionesgráficas del conjunto documental, el usuario puedepredecir visualmente qué información podrá encontrary reconocer intuitivamente cuál es el camino para sa-tisfacer sus necesidades informativas.

Los sistemas basados en browsing gráfico, comolos VIRIs, presentan no obstante algunos inconvenien-tes como la posibilidad de ocasionar en el usuario dis-tracción respecto a su objetivo inicial (Marchionini,1995); pero suponen un complemento a los sistemasbasados en querying, debido a las ventajas exclusivasque presentan para la recuperación de informaciónque, atendiendo a los trabajos de Lin (1997) y Mar-cos–Mora (2004) podemos resumir en las siguientes:

—La posibilidad de representar una gran cantidadde información en un espacio (visual) limitado.

—La capacidad de revelar relaciones semánticasentre documentos y términos.

—La facilidad de la exploración visual y la infe-rencia perceptiva del interfaz.

—Gran similitud con la forma de buscar informa-ción en el mundo físico.

—Propician el hallazgo de información de interésde manera fortuita.

En el presente trabajo se propone un modelo origi-nal de interfaz visual para la recuperación de informa-ción sobre sitios web descritos por metadatos. El estu-

Page 3: Artículo - El Profesional de la InformaciónEl profesional de la información, v. 15, n. 4, julio–agosto 2006 279 Googleel que mayor éxito ha cosechado debido, entre otras razones,

El profesional de la información, v. 15, n. 4, julio–agosto 2006280

Yusef Hassan–Montero y Víctor Herrero–Solana

dio se encuentra estructurado en los siguientes aparta-dos: (2) descripción de un modelo metodológico parala producción de VIRIs; (3) especificación de los obje-tivos generales y específicos perseguidos; (4) metodo-logía y materiales empleados; (5) presentación de losresultados en forma de prototipo funcional de la inter-faz; (6) descripción de los resultados obtenidos tras laevaluación del prototipo mediante un test de usuarios;(7) resumen de las conclusiones y futuras vías de in-vestigación.

2. Modelo metodológico

Existen varios trabajos que describen marcos me-todológicos para la producción de VIRI: Börner;Chen; Boyack, 2003; Herrero–Solana, 2000 y Mar-cos–Mora, 2004. En el presente estudio se utilizará eldescrito por Herrero–Solana y Hassan–Montero(2006), donde se analizan y comparan los diferentesmétodos y algoritmos para la producción de VIRI cla-sificándolos según la etapa del proceso en la que inter-vienen:

a. Análisis y transformación de los datos

Consiste en la indización automática del espaciodocumental, comúnmente en base al modelo de espa-cio vectorial propuesto por Salton (1989). El objetivoes permitir tanto la clasificación automática del con-junto documental como el descubrimiento de relacio-nes estructurales subyacentes. Se utilizan técnicas deminería de datos, ya sea de forma individual o combi-nada, entre las que podemos distinguir procedimientosde minería de contenido, de estructura y de uso (Bae-za–Yates, 2004).

b. Algoritmos de clasificación y distribución vi-sual

Reduce estructuras de datos multidimensionales aun número de dimensiones comprensibles y percepti-bles por el ojo humano (1D, 2D ó 3D). El resultado vi-sual de esta etapa puede ser considerado como la abs-tracción gráfica de este espacio vectorial. Las técnicasy algoritmos de mayor popularidad son: clustering oanálisis de conglomerados (Hartigan, 1975); de podacomo el escalamiento de red pathfinder o Pfnets (Sch-vaneveldt, 1990) y de posicionamiento de los nodoscomo el de Kamada y Kawai (1989); estadísticasmultivariantes tales como el escalamiento multidimen-sional o MDS (multidimensional scaling) (Kruskal;Wish, 1978); y redes neuronales como el modelo demapas auto–organizativos o SOM (self–organizingmap) (Kohonen; 1989). Todos ellos pueden ser consi-derados complementarios ya que ofrecen diferentessoluciones para un mismo problema (Herrero–Sola-na, 2000).

c. Transformación visual

Tiene su razón de ser cuando la representación grá-fica obtenida de la anterior etapa no resulta de fácil ex-ploración debido a su tamaño y complejidad, provo-cando lo que ha venido a denominarse como “sobre-carga visual”. En este caso las posibles técnicas a em-plear podemos clasificarlas entre las no orientadas a ladistorsión visual (Panning, Zooming y Detail+over-view) y las orientadas a la distorsión visual(Focus+context).

El trabajo de Herrero–Solana y Hassan–Monte-ro (2006) concluye con el análisis de qué combina-ciones entre las técnicas de la segunda y tercera etaparesultan más adecuadas según su compatibilidad (ta-bla 1).

Tabla 1. Leyenda: u Combinación adecuada– Adecuada pero con reservas2 Combinación inadecuada. Herrero–Solana; Hassan–Montero, 2006.

3. Objetivos

Debido a la cantidad de combinaciones posibles detécnicas, algoritmos y tipos de análisis a emplear en lageneración de interfaces visuales para la recuperaciónde información, es lógico que no todas ellas hayan si-do suficientemente exploradas y/o investigadas. Poresta razón, los objetivos generales marcados en el pre-sente trabajo son:

—Proponer un modelo de interfaz visual para re-cuperación de información en espacios web descritospor metadatos.

—Desarrollar un prototipo funcional en base a es-te modelo.

—Evaluar el modelo propuesto sobre el prototipodesarrollado.

El modelo de VIRI planteado es resultado de las si-guientes técnicas:

—Etapa de análisis y transformación de los datos:minería de meta–contenido mediante el análisis de laco–ocurrencia de palabras clave en el conjunto docu-mental.

—Etapa de aplicación de los algoritmos de clasifi-cación y distribución visual: aplicación de MDS parala visualización del espacio documental a través de larepresentación bidimensional de las palabras clavemás representativas.

Page 4: Artículo - El Profesional de la InformaciónEl profesional de la información, v. 15, n. 4, julio–agosto 2006 279 Googleel que mayor éxito ha cosechado debido, entre otras razones,

El profesional de la información, v. 15, n. 4, julio–agosto 2006 281

Interfaz visual para recuperación de información basada en análisis de metadatos, escalamiento multidimensional y efecto ojo de pez

—Etapa de técnicas de transformación visual: apli-cación de interactividad a la representación, así comode la distorsión visual ojo de pez (fisheye), con el ob-jetivo de facilitar la exploración visual de la interfaz.

El modelo presentado no pretende ser únicamenteoriginal por la combinación de técnicas propuesta, si-no también en cuanto al método elegido para su apli-cación. Por ello, en el presente trabajo se marcaron lossiguientes objetivos específicos:

—Exponer un método de análisis de meta–conte-nido que permita determinar el grado en que cada do-cumento es representado por cada palabra clave, asícomo cuáles son las más representativas del conjuntodocumental.

—Desarrollar un método de aplicación del efectode ojo de pez para representaciones visuales de disper-sión.

4. Métodos y materiales

4.1. Muestra documental

Consta de 269 documentos obtenidos del sitio webUseit, pertenecientes a su sección alertbox y publica-dos entre junio de 1995 y junio de 2003. La temáticageneral del conjunto documental está referida al estu-dio de la usabilidad, la interacción persona–ordenador(IPO) y el diseño web, áreas en las que su autor (Ja-kob Nielsen) es un reconocido investigador. Todos losdocumentos se encuentran en formato html y tienenaplicados aquellos metadatos básicos para la descrip-ción de su contenido que este lenguaje de marcadopermite: título, palabras clave y resumen.http://www.useit.com

4.2. Vectorización y análisis de meta–contenido

En esta etapa se extrae, representa y analiza la me-ta–información que en la muestra documental se des-cribe mediante etiquetas html para metadatos. Comose demuestra en estudios sobre el uso de metadatos enla web (O’Neill; Lavoie; Bennett, 2003), la aplicaciónde este modelo de análisis sería perfectamente aplica-ble sobre un gran porcentaje de la red.

Para vectorizar la muestra documental se progra-mó un script en lenguaje php que automatiza la indi-zación. De esta forma se genera un número de vecto-res n, siendo n el número de palabras clave diferentesencontradas en el conjunto documental. Los vectorestendrán tantos componentes como número de docu-mentos en los que aparezca cada palabra clave. Es de-cir, siendo X = {x1,...,xm} el conjunto de documentosde la muestra, e Y = {y1,...,yn} el conjunto de palabrasclave, la matriz R # X 2 Y representaría las relacio-nes de correspondencia binaria entre X e Y.

En la muestra documental estudiada, formada por269 documentos (m = 269), se encontraron 2.161 pala-bras clave diferentes (n = 2.161). Con el objetivo deque puedan ser empleadas para la recuperación de in-formación, en este modelo son consideradas como ca-tegorías en sí mismas, y cada aparición de una de ellasen la descripción de un documento será consideradacomo una relación de pertenencia de éste a la catego-ría.

Dado que el número de categorías es muy amplio,para aumentar la cobertura de cada una (contabilizadaen número de documentos) se propone un procedi-miento que calcule el grado de pertenencia entre docu-mento y categoría teniendo en cuenta más variablesque la simple aparición de la palabra clave en la des-cripción del documento.

El funcionamiento de este procedimiento se basaen una serie de condicionales que determinarán el gra-do de pertenencia entre documento y categoríaGP(x,y) (siendo x el documento e y la categoría) de lasiguiente forma:

—Si en el documento x apareciera la palabra claveo categoría y, el GP(x,y) tomará un valor igual a 0,5(igual a 0 en caso contrario), sin perjuicio de que en lossiguientes condicionales pueda incrementarse.

—Si en el título del documento x apareciera la pa-labra clave y, el GP(x,y) determinado en el primer con-dicional se incrementaría en 0,5 no teniéndose encuenta los siguientes condicionales.

—Si en el resumen del documento x apareciera lapalabra clave y, el GP(x,y) determinado en el primercondicional se incrementaría en 0,25, y no se tendríanen cuenta los siguientes condicionales.

—Si en el cuerpo del documento x apareciera lapalabra clave y, el GP(x,y) determinado en el primercondicional se incrementaría en 0,125.

Tras aplicar esta serie de condicionales se obtieneuna matriz GP = 7X 2 Y, GPxy8, donde a diferencia dela matriz R, las relaciones entre categorías y documen-tos ya no se representan de forma binaria, sino de for-ma ponderada con valores que oscilan entre 0 y 1,siendo 0 un GP(x,y) nulo, mientras que 1 sería el ma-yor GP(x,y) posible.

Sobre esta matriz se realiza un ajuste de los gradosde pertenencia de acuerdo con la siguiente premisa:cuanto mayor número de relaciones de pertenencia acategorías diferentes tenga un documento, menor de-bería ser su grado de pertenencia hacia cada una de es-tas categorías. Este ajuste se obtiene mediante la fór-mula 1. En ella GP(x,y) es el grado de pertenencia deldocumento x a la categoría y; por su parte NC(x) es el

Page 5: Artículo - El Profesional de la InformaciónEl profesional de la información, v. 15, n. 4, julio–agosto 2006 279 Googleel que mayor éxito ha cosechado debido, entre otras razones,

El profesional de la información, v. 15, n. 4, julio–agosto 2006282

Yusef Hassan–Montero y Víctor Herrero–Solana

número de categorías diferentes a las que pertenece eldocumento x.

GP(x,y)ajustado = GP(x,y)NC(x)

Fórmula 1

Una vez realizado el ajuste se procede a calcular elgrado de representatividad de cada categoría, con elobjetivo de utilizar esa variable como criterio para laelección de las 100 categorías finales que conformaránla representación visual perseguida.

A diferencia de la cobertura de cada categoría, quecomo indicábamos con anterioridad sería cuantificablepor el número de documentos que presentasen algúngrado de pertenencia hacia ella, el grado de represen-tatividad de cada una (GR) debería tener en cuenta,además, la suma de los grados de pertenencias entresus documentos y el total de categorías a las que per-tenecen. La razón de este procedimiento se fundamen-ta en que no sólo de debe ‘premiar’ a la categoría pornúmero de documentos representados, sino tambiénpor el grado de dificultad para que esos documentossean representados por otras categorías. Finalmente, lafunción con la que se calcula el GR es una adaptaciónde la fórmula de pesos tf, idf (fórmula 2) y en donde:

Fórmula 2

—GR(y) es el grado de representatividad de y.

—GP(x,y) es el grado de pertenencia de x a y.

—y es un elemento del conjunto de categorías Y.

—x es un elemento del conjunto de documentos X.

—m es el número total de documentos.

—n es el número total de categorías.

Se probaron diversas fórmulas, incluso algunasmás complejas. Sin embargo ésta fue la que mejoresresultados dio en términos de cobertura y capacidad deinclusión de documentos para la muestra documentalestudiada.

En función del cálculo del GR(y) para cada cate-goría, se seleccionan las 100 categorías más represen-tativas del conjunto documental, que podemos ver or-denadas según su grado de representatividad en el ane-xo I.

Anexo ILista ordenada de las categorías más representativas

1 Web design....................................................0,97922 Content ..........................................................0,89303 Search ..........................................................0,85734 Pages ............................................................0,78635 Email ............................................................0,75646 Time ..............................................................0,70067 Bandwidth ......................................................0,66188 Web usability..................................................0,60119 Messages ......................................................0,593110 Advertising ....................................................0,586911 1996 ............................................................0,558712 User testing ....................................................0,545813 Guidelines ......................................................0,541414 Change..........................................................0,538515 E-commerce ....................................................0,538016 Browsers ........................................................0,533217 History ..........................................................0,533018 Hypertext........................................................0,521119 Micropayments................................................0,516520 Designing ......................................................0,513021 Link................................................................0,498522 Slate redesign ................................................0,495923 Wap ..............................................................0,492124 Data ..............................................................0,487825 Information architecture....................................0,486226 Linking ..........................................................0,485227 Animation ......................................................0,479228 Software ........................................................0,473329 Scrolling ........................................................0,440930 Traffic ............................................................0,437731 International usability ......................................0,436332 Home page ....................................................0,433233 Sales..............................................................0,426034 Intranet ..........................................................0,416635 Research ........................................................0,411036 Internationalization ..........................................0,409937 Security ..........................................................0,403538 Amazon.com ..................................................0,402639 Pay ................................................................0,401840 Intranets ........................................................0,400641 Mobile internet access ....................................0,399542 Engagement....................................................0,394543 Browser navigation feature ..............................0,392944 Devices ..........................................................0,390545 Web pages ....................................................0,388746 Standards ......................................................0,386447 Structure ........................................................0,383248 Writing ..........................................................0,382149 Predictions ......................................................0,379750 Feedback ......................................................0,378051 Examples........................................................0,371752 Www ............................................................0,369253 Surveys ..........................................................0,366654 Zipf distribution ..............................................0,364855 Url ................................................................0,363856 Portals............................................................0,362557 Pdf ................................................................0,359458 Multimedia ....................................................0,356959 Video ............................................................0,354560 Frames ..........................................................0,352861 Disabilities ......................................................0,352662 Intranet portals ................................................0,351663 Response time ................................................0,350264 Linkrot ............................................................0,349265 Customization ................................................0,3456

Page 6: Artículo - El Profesional de la InformaciónEl profesional de la información, v. 15, n. 4, julio–agosto 2006 279 Googleel que mayor éxito ha cosechado debido, entre otras razones,
Page 7: Artículo - El Profesional de la InformaciónEl profesional de la información, v. 15, n. 4, julio–agosto 2006 279 Googleel que mayor éxito ha cosechado debido, entre otras razones,

El profesional de la información, v. 15, n. 4, julio–agosto 2006284

Yusef Hassan–Montero y Víctor Herrero–Solana

Por último se comprueba que todos los documen-tos de la muestra pertenecen al menos a alguna de lascategorías finalmente seleccionadas. De hecho, comohemos visto, el éxito de la función para la elección delas categorías finales viene dado por su capacidad pa-ra determinar cuáles son las más inclusivas (coberturay representatividad).

4.3. Reducción de la dimensión

Con el objetivo de representar visualmente el con-junto de categorías seleccionadas y sus relaciones enun espacio bidimensional, se aplicó la técnica de re-ducción dimensional MDS, que ha demostrado am-pliamente su validez como herramienta de visualiza-ción (McQuaid, et al.; 1999).

Para ello se utilizó el paquete estadístico SPSS, alque se alimentó con la matriz de grados de pertenenciaentre documentos y categorías que habíamos generadoen la etapa anterior. Para calcular la matriz de (di)si-milaridades entre categorías se utilizó la función decorrelación r de Pearson. La aplicación de la técnicaMDS sobre esta matriz de distancias entre categorías,nos ofrece como resultado las posiciones o coordena-das en un espacio bi–dimensional para las diferentescategorías.

Para su implementación en un prototipo funcionalconsultable vía web, se representaron visualmente losrótulos de cada categoría en dichas posiciones o coor-denadas mediante el lenguaje de etiquetado SVG (sca-lable vector graphics) (Ferraiolo; Jun; Jackson,2003).

4.4. Interactividad y efecto ojo de pez

Una vez que se genera la representación visual enforma de agrupaciones de categorías es necesario do-tarla de cierta interactividad para que pueda funcionarcomo interfaz de recuperación de información. Su fun-cionamiento consiste básicamente en que cuando elusuario hace clic sobre el rótulo de una categoría, ob-tiene como resultado una lista de aquellos documentospertenecientes a ella, ordenados por su grado de perte-nencia.

Para ello la interfaz principal invoca a otro scripten lenguaje php que genera la lista de resultados, mos-trando para cada documento su título, resumen y gra-do de pertenencia a la categoría en forma de porcenta-je. Al hacer clic sobre el título de cada documento pre-sentado el navegador se redirigirá al url correspon-diente.

«Cuando el usuario no tieneclaro qué está buscando

requiere sistemas alternativosque le permitan reconocervisualmente la información

buscada y el modo de accedera ella»

A la interfaz principal se le ha provisto de un me-canismo de distorsión visual basado en el efecto ojo depez, originalmente propuesto por Furnas (1986), conel objetivo de facilitar la exploración visual del con-junto de categorías. Es una técnica tipo Focus+con-text, que consiste en distorsionar una representaciónvisual haciendo más visible el foco y minimizando lazona visual contextual o periférica (Herrero–Solana;Hassan–Montero, 2006). Furnas (1986) fue quien loformalizó a través de su función de grado de interés oDOI (degree of interest), que asigna a cada elementovisual un valor que representa el interés del usuario envisualizarlo (fórmula 3).

DOI(x,y) = API(x) – D(x,y)

Fórmula 3

DOI(x,y) es el grado de interés que para el usuariotiene x, cuando el elemento foco que se está visuali-zando es y. API(x) es el valor global de la importancia

66 State ..............................................................0,345567 Archives ........................................................0,345268 Microtransactions ............................................0,345069 Future ............................................................0,343770 Clickthrough ..................................................0,341971 1997 ............................................................0,337272 Mobile devices................................................0,337073 Outsourcing ....................................................0,331874 Usability guideline ..........................................0,330875 Bass curve ......................................................0,327376 TV..................................................................0,327377 Ecommerce ....................................................0,324678 Size ..............................................................0,324479 Monitor ..........................................................0,324180 Text................................................................0,323081 Bookmarks......................................................0,322582 Mobile internet................................................0,318683 Hypertext links ................................................0,317684 Media............................................................0,316785 1995 ............................................................0,316286 1999 ............................................................0,315987 Europe ..........................................................0,315088 Windows........................................................0,314789 Recruiting ......................................................0,314690 Affiliates programs ..........................................0,313591 Computers ......................................................0,311292 Increasing returns ............................................0,311093 Reach ............................................................0,309994 Roi ................................................................0,306695 Publishing ......................................................0,306396 Staff ..............................................................0,304297 Html ..............................................................0,303198 Redesign ........................................................0,298999 Preference ......................................................0,2982100 Television........................................................0,2974

Page 8: Artículo - El Profesional de la InformaciónEl profesional de la información, v. 15, n. 4, julio–agosto 2006 279 Googleel que mayor éxito ha cosechado debido, entre otras razones,

El profesional de la información, v. 15, n. 4, julio–agosto 2006 285

Interfaz visual para recuperación de información basada en análisis de metadatos, escalamiento multidimensional y efecto ojo de pez

a priori (a priori importance) que tiene el elemento x,y D(x, y) la distancia existente entre el elemento x y elelemento focal y.

Lo que se pretende es que cuando el usuario so-brevuele con el puntero el rótulo de una categoría (ele-mento focal), como consecuencia se produzca unatransformación del tamaño y posición de los rótulos delas categorías. El rótulo de la categoría focal sería elque adquiriera mayor tamaño, mientras que el del res-to de rótulos se calcularía en una relación inversamen-te proporcional a su distancia con respecto a la catego-ría focal, es decir, a más distancia menor tamaño.

Con relación a las posiciones, mientras que el ele-mento focal no cambia de posición, las del resto de ca-tegorías variarán alejándose de manera inversamenteproporcional a su distancia original frente al elementofocal. Este desplazamiento está justificado porque, encaso contrario, el aumento de los tamaños de los rótu-los más cercanos al elemento focal produciría un sola-pamiento entre rótulos que impediría su lectura.

El mecanismo aquí propuesto es una adaptación dela función original DOI, donde el grado de interés delelemento x cuando el elemento focal es y se corres-ponde con la distancia euclídea entre x e y, dado queen una representación MDS esta distancia indica elgrado de similaridad entre elementos (fórmula 4).

DOI(x,y) = D(x,y)

Fórmula 4

La transición entre vista original y vista distorsio-nada, de cara al usuario se realiza en forma de anima-ción mediante una transformación progresiva de tama-ños y posiciones. Como indican Lamping, Rao y Pi-rolli (1995), las transiciones animadas ayudan al usua-rio a asimilar los cambios entre vistas. Además, estecomportamiento visual favorecerá minimizar el pro-blema de la preservación del mapa mental que el usua-rio adquiere en la visualización previa a la distorsión(Herrero–Solana; Hassan–Montero, 2006).

5. Resultados

El aspecto final de la interfaz podemos apreciarloen la figura 1. Cuando el usuario se ayuda del ratón ensu exploración visual, sobrevolando con el puntero elrótulo de una categoría (elemento focal), se produce ladistorsión visual de ojo de pez. Se puede observar enla serie de capturas de pantalla de la figura 2, donde elelemento focal sobrevolado es la categoría roi (returnof investment).

Una vez que el usuario hace clic sobre una catego-ría, el sistema le ofrece como resultado una lista conlos documentos ordenados por su grado de pertenen-cia, facilitando además un mecanismo de regreso a lainterfaz principal en forma de enlace (map index), co-mo podemos observar en la figura 3.

6. Evaluación

En la literatura científica sobre visualización de in-formación, en concreto la orientada al diseño de VIRI,

Figura 1. Interfaz principal del prototipo desarrollado

Page 9: Artículo - El Profesional de la InformaciónEl profesional de la información, v. 15, n. 4, julio–agosto 2006 279 Googleel que mayor éxito ha cosechado debido, entre otras razones,

El profesional de la información, v. 15, n. 4, julio–agosto 2006286

Yusef Hassan–Montero y Víctor Herrero–Solana

es muy frecuente encontrar trabajos en los que las in-terfaces o propuestas de modelos no se evalúan ni va-lidan de forma alguna. A pesar de que esta situaciónparece estar cambiando, lo hace lentamente y en casostodavía muy esporádicos (Chen; Czerwinski, 2000).

En el presente trabajo se ha realizado un estudio deevaluación preliminar para descubrir carencias, fallosy posibles mejoras del modelo de interfaz propuesto.La metodología de evaluación empleada ha sido el testbasado en usuarios reales y el análisis cualitativo delos resultados. Se pretende de esta forma determinar suusabilidad y la del modelo de aplicación del efecto deojo de pez empleado.

a. Participantes y preparación

Se contó con cinco hombres y cinco mujeres, estu-diantes del programa de doctorado de documentación

Figura 2. Transición de vista original a vista distorsionada en el prototipo desarrollado

Figura 3. Resultados para la categoría ‘ROI’ en el prototipodesarrollado

Page 10: Artículo - El Profesional de la InformaciónEl profesional de la información, v. 15, n. 4, julio–agosto 2006 279 Googleel que mayor éxito ha cosechado debido, entre otras razones,
Page 11: Artículo - El Profesional de la InformaciónEl profesional de la información, v. 15, n. 4, julio–agosto 2006 279 Googleel que mayor éxito ha cosechado debido, entre otras razones,

El profesional de la información, v. 15, n. 4, julio–agosto 2006288

Yusef Hassan–Montero y Víctor Herrero–Solana

e información científica del Departamento de Biblio-teconomía y Documentación de la Universidad deGranada. Como paso previo a la conducción del testse les impartió una sesión preparatoria en la que se ex-plicaron los principios básicos de la recuperación deinformación por browsing y se describió la interfaz ysu funcionamiento, haciendo especial hincapié en elefecto visual de ojo de pez.

b. Tareas y procedimiento

La prueba fue realizada por todos los participantesde forma individual con el fin de poder observar sucomportamiento en la interacción, su reacción ante eluso de la interfaz, así como también las dudas que seplanteaban durante la realización de las tareas.

La labor encomendada consistió en la recupera-ción de dos documentos, uno de ellos mediante la in-terfaz propuesta en este trabajo, y el otro mediante lamisma interfaz pero con el efecto de ojo de pez desac-tivado.

Los dos documentos a localizar, que eran los mis-mos para todos los participantes, extraídos del conjun-to documental de forma aleatoria, se les entregaban sintítulo ni resumen antes de comenzar el test. A cada unose le dio el tiempo que estimara necesario para su lec-tura y comprensión para que posteriormente procedie-ran a realizar la búsqueda. En la mitad de los casos tu-vieron que buscar el primer documento mediante la in-terfaz con ojo de pez (figura 2), y el segundo docu-mento a través de la otra (figura 1). El resto de los par-ticipantes lo hicieron de forma inversa.

«El efecto de ojo de pez es unatécnica tipo focus+context queconsiste en distorsionar una

representación visual haciendomás visible el foco y

minimizando la zona visualcontextual o periférica»

Para cada tarea se contabilizó el tiempo que cadausuario tardó en encontrar el documento, además deanalizar su comportamiento frente a la interfaz, loserrores que cometió, y las estrategias utilizadas en labúsqueda. Al finalizar se les pidió que comentaran có-mo había sido su experiencia con ambas interfaces.

c. Resultados e interpretación

Los tiempos empleados en la realización de la bús-queda no muestran diferencias significativas entre am-bos casos, lo que sugiere que el empleo de la técnicade ojo de pez no parece influir en la eficiencia de la in-teracción. Un fenómeno observado durante la prueba

es que los participantes utilizaron estrategias de explo-ración y navegación muy diferentes, condicionadaspor la existencia o no del efecto de ojo de pez. Cuandose encontraban frente a la interfaz con dicho efecto,dedicaban más tiempo a la exploración visual y, segúnse observó, sólo seleccionaban una categoría para versus resultados cuando tenían cierta seguridad de queésa era la categoría adecuada. La razón de este com-portamiento puede deberse, en parte, al carácter inte-ractivo del efecto visual y la distracción que puedeocasionar la animación; pero también, a que una vezresaltadas ciertas categorías, se disminuye la sobrecar-ga visual siendo más fácil explorar visualmente la in-terfaz y tomar decisiones sobre qué categoría puede re-sultar más afín temáticamente al documento buscado.

Cuando se encontraban frente a la interfaz despro-vista del efecto de ojo de pez, realizaban una navega-ción más compulsiva y poco meditada, es decir, unanavegación por ensayo y error, en la que hacían cliccon mayor frecuencia en las categorías para observarqué documentos se mostraban. Una posible interpreta-ción es que el número elevado de categorías presentesprovoque sobrecarga visual y el usuario prefiera pro-bar con la primera categoría que crea puede llevarle asu objetivo, en vez de explorar más detenidamente lainterfaz.

Como resultado de este comportamiento los usua-rios solían cometer más errores (entendiendo éstos co-mo la exploración de categorías incorrectas) cuandousaban la interfaz sin ojo de pez. Este comportamientoparece demostrar que el efecto ojo de pez propuestomejora la eficacia en la consecución de tareas de brow-sing aplicadas a la recuperación de información.

Al finalizar la prueba los usuarios expresaron sugrado de satisfacción en el uso de las dos interfaces,valorando de forma mucho más positiva el empleo dela interfaz con ojo de pez. Tan solo uno la valoró deforma negativa, alegando que la animación de los ró-tulos de las categorías le producía un cierto mareo. Porsu parte, en la mayoría de los casos valoraron comomuy útil o útil la interfaz con ojo de pez.

¿Recibes ya EPI en casa?

Por sólo 75 euros + 4% IVA

puedes tener todos los meses

tu copia particular y leerla có-

modamente cuando quieras.

Page 12: Artículo - El Profesional de la InformaciónEl profesional de la información, v. 15, n. 4, julio–agosto 2006 279 Googleel que mayor éxito ha cosechado debido, entre otras razones,

El profesional de la información, v. 15, n. 4, julio–agosto 2006 289

Interfaz visual para recuperación de información basada en análisis de metadatos, escalamiento multidimensional y efecto ojo de pez

7. Conclusiones y trabajos futuros

En el presente trabajo se ha propuesto un modelode interfaz mediante una combinación metodológicahasta la fecha no estudiada en la literatura científica:análisis de meta–contenido, escalamiento multidimen-sional o MDS, y efecto de distorsión visual de ojo depez, y se ha desarrollado un prototipo funcional.

Los resultados sugieren que el modelo propuestopara realizar el análisis de meta–contenido resulta vá-lido tanto para determinar el grado en el que cada do-cumento se encuentra representado por una palabraclave o categoría, como para determinar cuál es el gru-po de categorías más representativas del conjunto do-cumental.

Otro aspecto importante a señalar es la utilidad delMDS como técnica de clasificación y distribución vi-sual. Como indicábamos, su elección se basó en la va-lidez demostrada como herramienta de visualización ytras la evaluación con usuarios se ha comprobado queéstos no han encontrado problemas para comprender lametáfora visual resultante de su aplicación. Sin em-bargo, la técnica de MDS, por su carácter iterativo, tie-ne el inconveniente de que a mayor número de dimen-siones originales a reducir, mayor tiempo de procesa-miento. Por esta razón, esta técnica no resultaría viableen la generación dinámica de representaciones visua-les para conjuntos documentales de gran tamaño.

Respecto al efecto ojo de pez, si nos atenemos a losresultados del test con usuarios, podemos concluir quela propuesta de aplicación supone, en términos de efi-cacia y satisfacción de uso, una mejora significativapara la interfaz. Aun así creemos que, en próximos tra-bajos, sería necesario evaluarla con mayor número departicipantes y perfiles más heterogéneos, para com-probar si los resultados corroboran los obtenidos en lapresente evaluación.

Además, la propuesta de aplicación de ojo de pezcreemos sería susceptible de mejoras. En concreto, és-ta no hace uso de la variable API (a priori importan-ce), que en el trabajo original de Furnas (1986) se cal-culaba en base al nivel jerárquico de cada elemento.En estructuras de datos multidimensionales donde noexisten relaciones de jerarquía, Chen (1998) proponesu cálculo según el número de accesos o visitas deusuario recibidas para cada elemento, considerandoque es un buen indicador de su importancia. En el con-texto de este trabajo una posible opción sería determi-nar el API de cada categoría basándose en el númerode sus documentos representados. Esta opción, así co-mo otras posibles, deberán ser consideradas y estudia-das en futuros trabajos.

8. Bibliografía

Baeza–Yates, R. «Excavando la web». En: El profesional de la informa-ción, 2004, enero–febrero, v. 13, n. 1, pp. 4–10.

Börner, K.; Chen, C.; Boyak, K. W. «Visualizing knowledge domains».En: Annual review of information science and technology, 2003, n. 37,pp. 179–255.

Chen, C. «Generalised similarity analysis and pathfinder network sca-ling». En: Interacting with computers, 1998, n. 10, pp. 107–128.

Chen, C.; Czerwinski, M. P. (2000). «Empirical evaluation of informa-tion visualizations: an introduction». En: International journal of hu-man–computer studies, 2000, n. 53, pp. 631–635.

Ferraiolo, J.; Jun, F.; Jackson, D. Scalable vector graphics (SVG) 1.1Specification. W3C Recommendation 14 January 2003.http://www.w3.org/TR/2003/REC–SVG11–20030114/

Furnas, G. W. «Generalized fisheye views». En: Mantei, Marilyn; Or-beton, Peter (eds.). Proceedings of the Sigchi conference on human fac-tors in computing systems, 1986, pp. 16–23.

Hartigan, J. A. Clustering algorithms. New York: John Wiley & Sons,1975.

Herrero–Solana, V. Modelos de representación visual de la informaciónbibliográfica: aproximaciones multivariantes y conexionistas. Tesis doc-toral. Granada: Universidad, Departamento de Biblioteconomía y Docu-mentación, 2000.

Herrero–Solana, V.; Hassan–Montero, Y. «Metodologías para el desa-rrollo de interfaces visuales de recuperación de información: análisis ycomparación». En: Information research, 2006, April, v. 11, n. 3.http://informationr.net/ir/11–3/paper258.html

Kamada, T.; Kawai, S. «An algorithm for drawing general undirectedgraphs». En: Information processing letters, 1989, n. 31, pp. 7–15.

Kohonen, T. Self–organization and associative memory. 3rd Edition.Berlin: Springer–Verlag, 1989.

Kruskal, J. B.; Wish, M. Multidimensional scaling (quantitative applica-tions in the social sciences). Newbury Park: SAGE, 1978.

Lamping, J.; Rao, R.; Pirolli, P. «A focus+context technique based onhyperbolic geometry for visualizing large hierarchies». En: Proceedingsof the ACM Sigchi conference on human factors in computing systems.New York: ACM Press, 1995, pp. 401–408.

Lin, X. «Map displays for information retrieval». En: Journal of the Ame-rican Society for Information Science, 1997, v. 48, n. 1, pp. 40–54.

Marchionini, G. Information seeking in electronic environments. NewYork: Cambridge University Press, 1995.

Marcos–Mora, M. C. Interacción en interfaces de recuperación de infor-mación: conceptos, metáforas y visualización. Gijón: Ediciones TREA,2004.

McQuaid, M. J., et al. «Multidimensional scaling for group memory vi-sualization». En: Decision support systems, 1999, n. 27, pp. 163–176.

O’Neill, E. T.; Lavoie, B. F.; Bennet, R. «Trends in the evolution of thepublic web». En: D–lib magazine, 2003, April, v. 9, n. 4. http://www.dlib.org/dlib/april03/lavoie/04lavoie.html

Salton, G. Automatic text processing: the transformation, analysis andretrieval of information by computer. Reading, MA: Addison Wesley,1989.

Schvaneveldt, R. (ed.). Pathfinder associative networks: studies in know-ledge organization. Norwood, NJ: Ablex, 1990.

Yusef Hassan–Montero y Víctor Herrero–Solana, GrupoSCImago, [email protected]@ugr.es