tesis rafa v1 - cenidet felip… · dr. juan gabriel gonzález serna-secretario dr. hugo estrada...
Post on 16-Jul-2020
5 Views
Preview:
TRANSCRIPT
cenidet
Centro Nacional de Investigación y Desarrollo Tecnológico
Departamento de Ciencias Computacionales
TESIS DE MAESTRÍA EN CIENCIAS
Extracción de Información Basada en Técnicas de Alineamiento de Ontologías
presentada por
Felipe Antonio Román Albores Lic. en Sistemas Computacionales por la Universidad Autónoma de Chiapas
como requisito para la obtención del grado de: Maestría en Ciencias en Ciencias Computacionales
Director de tesis:
Dra. Azucena Montes Rendón
Co-Director de tesis: MC. José Alejandro Reyes Ortiz
Cuernavaca, Morelos, México. 28 de octubre de 2011
cenidet
Centro Nacional de Investigación y Desarrollo Tecnológico
Departamento de Ciencias Computacionales
TESIS DE MAESTRÍA EN CIENCIAS
Extracción de Información Basada en Técnicas de Alineamiento de Ontologías
presentada por
Felipe Antonio Román Albores Lic. en Sistemas Computacionales por la Universidad Autónoma de Chiapas
como requisito para la obtención del grado de: Maestría en Ciencias en Ciencias Computacionales
Director de tesis: Dra. Azucena Montes Rendón
Co-Director de tesis:
MC. José Alejandro Reyes Ortiz
Jurado: Dr. David Eduardo Pinto Avendaño-Presidente Dr. Juan Gabriel González Serna-Secretario
Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente
Cuernavaca, Morelos, México. 28 de octubre de 2011
Dedicatoria
A Dios
Porque este triunfo no sería lo mismo si no tuviera la fé que tengo en él,
así como también la salud y bienestar que me ha brindado.
A mi madre
Rocío Albores Millares†, porque siempre ha estado conmigo todos los
días de mi vida ya que sin su ayuda, apoyo y fé en ella no hubiese
logrado llegar hasta este punto de mi vida. Y que en los momentos más
importantes ha estado ahí para ayudarme a escoger la mejor opción y
por colocar en mi camino siempre a las personas correctas para
ayudarme en este largo caminar de la vida.
A ella
Flor de Margarita Nucamendi González (Maggy) por devolverme esa luz
de esperanza que había perdido; por llegar en un momento muy difícil de
mi vida ya que con su amor y cariño me ha devuelto la alegría y felicidad
todos los días.
Agradecimientos
Esta tesis de maestría no hubiese sido posible sin la ayuda de mi directora de tesis la Dra.
Azucena Montes Rendón y mi codirector el M.C. José Alejandro Reyes Ortiz que han empleado
tiempo y esfuerzo para verla culminada. A ellos mis más sinceros agradecimientos; sin embargo,
existen otras personas e instituciones que hicieron posible este esfuerzo conjunto las cuales nombraré
a continuación:
Al Consejo Nacional de Ciencia y Tecnología (CONACYT) por el apoyo económico que me
brindó durante mis estudios de posgrado.
Al Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET) por la preparación
que los profesores-investigadores de esta institución me brindaron en la maestría, ya que su
aportación se ve reflejada en esta tesis.
A mi Madre Roció Albores Millares† por darme la vida y la ayuda necesaria en los momentos
que más lo necesito. Así mismo agradezco a sus hermanos que sin saberlo siempre han estado ahí
para mí, aportándome la ayuda necesaria para ver terminado un logro más.
A mis revisores de tesis, Dr. Hugo Estrada Esquivel, Dr. Juan Gabriel González Serna y por
último al Dr. David Eduardo Pinto Avendaño por ser parte de este logro así como sus comentarios
sugerencias y correcciones que hicieron posible para que esta tesis fuese terminada.
Al Ing. Juan Aniceto Orantes Grajales por brindarme su amistad, consejos y apoyo para
emprender una aventura que se ve finalizada con esta tesis, ya que sin su consejo de realizar la
maestría en CENIDET no hubiera aprendido y vivido cosas que me cambiaron completamente la vida.
Le agradezco la confianza que me brindó para desempeñarme como desarrollador en su empresa
HighBits.
A mis compañeros de maestría, que con la convivencia casi diaria me lograron enseñar el
valor de la amistad, a todos ellos gracias, pero sobre todo a Ricardo Estrada, Nazir Molina, Everardo
Munguía, Carlos Méndez, Karen Hernández y Emmanuel Vásquez.
Me gustaría nombrar a cada una las personas que tocaron lo más profundo de mis
pensamientos, sentimientos y acciones en mi corta vida pero son tantas que no terminaría de
nombrarlos a todos, algunos de las cuales ya no se encuentran vivos, sin embargo, les agradezco
todo lo que me enseñaron al hacerme parte de su vida en el tiempo que nos conocimos.
¡A todos, Gracias Totales!
Resumen
La Web es una de las herramientas actuales más importantes para obtener conocimiento,
debido a la enorme cantidad de información existente en ella, la cual es objeto de una evolución
constante. Esto ha convertido a la Web en una excelente fuente de investigación en diferentes áreas
de la computación.
Debido a la gran información existente en la Web y a los resultados insatisfactorios que
ofrecen los buscadores actuales, Tim Berners Lee propuso: “La nueva información debe ser reunida
de forma que un buscador la pueda comprender, en lugar de ponerla simplemente en una lista. La
Web Semántica sería una red de documentos más inteligentes que permitan, a su vez, búsquedas
más inteligentes” (Berners-Lee, 2000).
El desarrollo de la Web Semántica requiere la utilización del lenguaje estructurado XML
(Extensible Markup Language), el lenguaje RDF (Resource Description Framework) y el lenguaje OWL
(Web Ontologie Language) que dotan a cada recurso de la Web de significado, logrando con esto que
un buscador semántico puede explotar.
Actualmente en el Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET) se
encuentra en proceso de desarrollo un buscador semántico, que como primera etapa, compete al
módulo de tratamiento de lenguaje natural derivada de la tesis “Traductor de consultas en lenguaje
natural a SPARQL para realizar búsquedas sobre ontologías” de (Vázquez, 2010). Esta tesis es la
primera fase del buscador y ataca la complejidad de las consultas en lenguaje natural para
formalizarla y generar como resultado una tripleta formada por sujeto, predicado, objeto y una consulta
en SPARQL.
El presente trabajo de investigación consiste en la segunda parte del buscador semántico, el
cual es responsable de realizar la extracción de información mediante el uso de técnicas de
alineamiento de ontologías. Esto se realiza para hacer coincidir (mediante similitud sintáctica) las
entidades que conforman a la tripleta con otras estructuras existentes en las ontologías del repositorio.
Esto último es necesario para obtener información relevante al contexto de la búsqueda semántica de
información; es decir, que los alineamientos que se obtengan entre las entidades de una ontología y
las tripletas serán la información concerniente al contexto de la consulta.
Para lograr desarrollar esta segunda etapa del buscador semántico, se propone crear algunos
submódulos que se describen a continuación: a) repositorio de ontologías el cual contiene un número
finito de ontologías, b) alineamiento de ontologías con las tripletas, el cual se realiza con el fin de
obtener resultados de la consulta de entrada, c) filtro de resultados este se encarga de obtener la
respuesta correcta de lo que se obtuvo en el paso anterior y remueve los posibles resultados
erróneos. La integración de los módulos de tratamiento de lenguaje natural (Vázquez, 2010) y de
alineamiento de ontologías con tripletas, forma parte de un buscador semántico basado en
alineamiento de ontologías para la Web semántica llamado ironLP (Information Retrieval from
Ontologies using Natural Language Processing).
Abstract
The Web is one of the most important tools to gain knowledge nowadays, because of the
enormous amount of information in it, which is under constant evolution. This has made the Web an
excellent source of research in different areas of computing.
Due to the large existing information on the Web and the unsatisfactory results provided by
search engines, Tim Berners Lee proposed: "The new information must be gathered on a way that one
search engine can understand, rather than simply put on a list. The Semantic Web documents would
be a more intelligent network to allow smarter searches” (Berners-Lee,2000).
The development of the Semantic Web requires the use of structured language XML
(Extensible Markup Language), RDF (Resource Description Framework) and OWL (Web Ontologie
Language) which give meaning to each page, to each resource or content of the Web, thereby
computers achieve to understand concepts related to existing resources.
Currently in the National Center for Research and Technological Development (CENIDET) is in
process of developing a semantic search engine, which as a first step lies with the natural language
processing module which will be conducted by the thesis "Traductor de consultas en lenguaje natural a
SPARQL para realizar búsquedas sobre ontologías" (Vazquez, 2010). This thesis is the first phase of
the search and attacks the complexity of natural language queries to execute and generate results in a
triplet consisting of subject, predicate, object and a SPARQL query.
This research work is the second part of the semantic search engine, which is responsible for
performing information extraction using ontology alignment techniques. This is done to match (by
syntactic similarity) the entities that make up the triplet with other structures in the ontologies stored in
the repository. This is necessary to obtain information relevant to the context of the information search
in a semantic search engine, that the alignments obtained on the entities that make up an ontology
with the triplets will be information regarding the context of the query.
To be able to develop this second stage of semantic search engine, create some sub-modules
that are described below: a) the ontologies repository which contains a finite number of domain
ontologies, b) the alignment of ontologies with the triplets, which is performed in order to get relevant
results, c) results filter this is responsible of obtaining the correct answer that is extracted in the
previous step and removes possible erroneous results. The integration of the natural language
processing module (Vazquez, 2010) and ontology alignment with triplets, form part of a semantic
search engine based on ontology alignment for the semantic Web called ironLP (Information Retrieval
using Ontologies from Natural Language Processing).
i
Contenido Lista de tablas ......................................................................................................................................... iv
Lista de ejemplos ..................................................................................................................................... v
Lista de formulas ...................................................................................................................................... v
Lista de figuras ........................................................................................................................................ vi
Lista de gráficas ...................................................................................................................................... vi
Glosario de términos .............................................................................................................................. vii
CAPÍTULO 1. INTRODUCCIÓN ............................................................................................................ 1
1.1 Planteamiento del problema........................................................................................................... 2
1.2 Descripción del problema ............................................................................................................... 3
1.3 Descripción del marco de trabajo ................................................................................................... 4
1.4 Objetivos ......................................................................................................................................... 6
1.4.1 Objetivo General ..................................................................................................................... 6
1.4.2 Objetivos específicos .............................................................................................................. 6
1.5 Justificación y beneficios ................................................................................................................ 6
1.6 Alcance y limitaciones .................................................................................................................... 7
1.6.1 Alcances .................................................................................................................................. 7
1.6.2 Limitaciones............................................................................................................................. 7
1.7 Organización del documento.......................................................................................................... 8
CAPÍTULO 2. MARCO TEÓRICO ......................................................................................................... 9
2.1 Ontologías .................................................................................................................................... 10
2.2 Mediación de ontologías .............................................................................................................. 11
2.3 Técnicas de alineamiento de ontologías ...................................................................................... 12
2.4 Sistemas de extracción de información, recuperación de información y preguntas-respuestas . 12
2.5 Recursos léxicos WordNet y EuroWordNet ................................................................................. 13
2.6 JENA 2 ......................................................................................................................................... 14
2.7 TreeTagger ................................................................................................................................... 15
2.8 SimMetric ...................................................................................................................................... 18
CAPÍTULO 3. ESTADO DEL ARTE .................................................................................................... 19
3.1 Sistemas de alineamiento tradicionales ....................................................................................... 20
3.1.1 MaF ....................................................................................................................................... 20
ii
3.1.2 PowerMap ............................................................................................................................. 21
3.1.3 FOAM .................................................................................................................................... 23
3.1.4 LOM ....................................................................................................................................... 24
3.1.5 Ontology mapping for querying heterogeneous information sources ................................... 26
3.1.6 Ontology matching based on Hypernym, Hyponym, Holonym, and Meronym sets in WordNet ......................................................................................................................................... 28
3.2 Sistemas de alineamientos y mapeo basados en grafos ............................................................. 29
3.2.1 ASCO3 .................................................................................................................................. 29
3.2.2 OPTIMA ................................................................................................................................. 31
3.2.3. OLA ...................................................................................................................................... 32
3.2.3. Axiom-based ontology matching .......................................................................................... 34
3.3 Comparativa de trabajos presentados en el estado del arte ....................................................... 35
3.3.1 Análisis de las características de algoritmos de alineamiento y mapeo de ontologías ........ 35
3.3.2 Tabla de comparativa de las características de los algoritmos ............................................ 36
3.3.3 Características de herramientas de alineamiento y mapeo de ontologías ........................... 37
3.3.3 Tabla de comparativa de las herramientas de alineamiento y mapeo.................................. 38
CAPÍTULO 4. METODOLOGÍA DE SOLUCIÓN ...................................................................................... 40
4.1 Arquitectura general ..................................................................................................................... 41
4.1.1 Extracción de términos .......................................................................................................... 43
4.1.2 Extracción y mapeo de ontologías ........................................................................................ 47
4.1.3 Resultado de mapeo de ontologías ...................................................................................... 58
CAPÍTULO 5. PRUEBAS .................................................................................................................. 60
5.1 Hipótesis ....................................................................................................................................... 61
5.2 Convención de nombres .............................................................................................................. 61
5.3 Plan de pruebas ........................................................................................................................... 62
5.3.1 Introducción ........................................................................................................................... 62
5.3.2 Elementos de prueba ............................................................................................................ 63
5.3.3 Características a ser probadas ............................................................................................. 66
5.3.4 Características que no serán probadas ................................................................................ 67
5.3.5 Pruebas a realizar ................................................................................................................. 67
5.3.6 Enfoque ................................................................................................................................. 69
5.3.7 Criterio de éxito/fracaso de los casos de prueba .................................................................. 69
5.3.8 Criterios de suspensión y requerimientos de reanudación ................................................... 69
iii
5.3.9 Tareas de prueba .................................................................................................................. 69
5.3.10 Liberación de pruebas ......................................................................................................... 70
5.3.11 Requisitos ambientales ....................................................................................................... 70
5.3.12 Responsabilidades .............................................................................................................. 70
5.3.13 Riesgos y contingencias ...................................................................................................... 71
5.3.14 Aprobación .......................................................................................................................... 71
5.4 Casos de prueba .......................................................................................................................... 71
5.5 Análisis de resultados .................................................................................................................. 88
5.5.1 Justificación de las pruebas fallidas ...................................................................................... 91
CAPÍTULO 6. CONCLUSIONES ......................................................................................................... 92
6.1 Conclusiones ................................................................................................................................ 93
6.2 Aportaciones................................................................................................................................. 94
6.3 Trabajos futuros ........................................................................................................................... 95
REFERENCIAS………………………………………………………………………………………………….96
ANEXOS………………………………………………………………………………………..……………..101
Anexo A. Palabras vacías ................................................................................................................ 102
Anexo B. Resultados del análisis de algoritmos de similitud de cadenas ....................................... 103
Anexo C. Resultados de las pruebas realizadas ............................................................................. 112
iv
Lista de tablas
Tabla 2-1. Modelos definidos por JENA para el acceso a elementos de las ontologías. ...................... 14
Tabla 2-2. Etiquetado gramatical, obtenido del sitio oficial de TreeTagger. .......................................... 16
Tabla 2-3. Etiquetas gramaticales para la identificación de verbos en español en TreeTagger. .......... 16
Tabla 2-4. Etiquetas gramaticales para la identificación de verbos del Inglés en TreeTagger. ............ 17
Tabla 3-1. Características evaluadas de los algoritmos de alineamiento y mapeo de ontologías. ....... 36
Tabla 4-1. Tipos de tripletas identificadas como entrada al sistema. .................................................... 41
Tabla 4-2. Entrada del prototipo para la búsqueda de información en ontologías. ............................... 43
Tabla 4-3. Conteo de tripletas ingresadas. ............................................................................................ 43
Tabla 4-4. Identificación de elementos contenidos en las tripletas de entrada. .................................... 43
Tabla 4-5. Identificación de la categoría gramatical de los términos existentes con TreeTagger. ........ 44
Tabla 4-6. Enriquecimiento de términos mediante sinónimos obtenidos de EuroWordNet................... 46
Tabla 4-7. Elementos ontológicos y umbrales establecidos. ................................................................. 48
Tabla 4-8. Información contenida en la ontología de búsqueda. ........................................................... 49
Tabla 4-9. Tratamiento de elementos ontológicos. ................................................................................ 49
Tabla 4-10. Mapeo de términos de la tripleta de búsqueda número 1. ................................................. 51
Tabla 4-11. Mapeo de términos de la tripleta de búsqueda número 2. ................................................. 53
Tabla 4-12. Mapeo de términos de la tripleta de búsqueda número 3. ................................................. 56
Tabla 4-13. Filtro de resultados de la consulta. ..................................................................................... 59
Tabla 4-14. Algoritmo utilizado para la extracción de información contenida en ontologías. ................ 59
Tabla 5-1. Convención de nombres utilizado en las pruebas del prototipo. .......................................... 61
Tabla 5-2. Verbos utilizados en las ontologías del idioma Español para las pruebas realizadas. ........ 63
Tabla 5-3. Casos de prueba de la herramienta de extracción de información contenida en ontologías 67
Tabla 5-4. Tareas de prueba a ejecutar en el desarrollo del plan de pruebas. ..................................... 69
Tabla 5-5. Requisitos de hardware y software de la herramienta desarrollada. ................................... 70
Tabla 5-6. Resumen de las pruebas realizadas..................................................................................... 89
Tabla 5-7. Número de preguntas y porcentaje de efectividad de la herramienta. ................................. 89
Tabla 5-8. Relaciones de elementos ontológicos y los umbrales utilizados. ......................................... 90
Tabla 1. Palabras vacías del idioma Español. ................................................................................... 102
Tabla 2. Palabras vacías del idioma Inglés ........................................................................................ 102
Tabla 3. El primer conjunto de datos está determinado por las siguientes cadenas de caracteres. .. 104
Tabla 4. El segundo conjunto de datos está determinado por las siguientes cadenas de caracteres.
.............................................................................................................................................................. 106
Tabla 5. El tercer conjunto de datos está determinado por las siguientes cadenas de caracteres. ... 108
v
Tabla 6. El primer conjunto de pruebas basado en relaciones está determinado por las siguientes
cadenas de caracteres. ........................................................................................................................ 110
Tabla 7. Comparativa del rendimiento de los algoritmos con relaciones ontológicas. ....................... 112
Lista de ejemplos
Ejemplo 5-1.Tripleta simple del patrón A con la incógnita en el dominio. ............................................. 71
Ejemplo 5-2. Tripleta anidada con la incógnita en el dominio de ambas tripletas. ................................ 71
Ejemplo 5-3.Tripleta simple con la incógnita en el rango de la tripleta. ................................................. 71
Ejemplo 5-4.Tripleta anidada con la incógnita en el rango de ambas tripletas. .................................... 72
Ejemplo 5-5.Tripleta anidada con la incognita únicamente en la tripleta B. .......................................... 72
Ejemplo 5-6.Consulta de tripletas anidadas con incógnita en el rango de la tripleta B y dos tripletas
bien formadas. ........................................................................................................................................ 72
Ejemplo 5-7.Consulta de tripletas anidadas con incógnita en el rango de la tripleta B y tres tripletas
bien formadas. ........................................................................................................................................ 72
Ejemplo 5-8.Consulta simple de tripleta taxonómica con la incógnita en el rango. ............................... 72
Ejemplo 5-9.Consulta simple de tripleta taxonómica con la incógnita en el dominio. ........................... 72
Ejemplo 5-10. Consulta de tripletas anidadas con la incógnita en el rango de la tripleta A y dos tripletas
de tipo G sin incógnitas. ......................................................................................................................... 72
Ejemplo 5-11.Consulta de tripletas anidadas con la incógnita en el rango de la tripleta B y una tripleta
de tipo G sin incógnitas. ......................................................................................................................... 73
Ejemplo 5-12.Consulta de tripletas anidadas con las incógnita en el rango de las tripletas B y una
tripleta de tipo G sin incógnitas al principio. ........................................................................................... 73
Ejemplo 5-13.Consulta de tripletas anidadas con la incógnita en el rango de la tripleta B y dos tripletas
de tipo G sin incógnitas. ......................................................................................................................... 73
Ejemplo 5-14.Consulta de tripletas anidadas con la incógnita en el rango de la tripleta B y dos tripletas
de tipo G sin incógnitas. ......................................................................................................................... 73
Lista de fórmulas
Fórmula 3-1. Función para el alineamiento de los elementos de las ontologías en MaF...................... 20
vi
Lista de figuras
Figura 1-1. Arquitectura general de la herramienta desarrollada en esta investigación.......................... 5
Figura 3-1. Proceso de mapeo para la obtención de ontologías y entidades candidatos. .................... 22
Figura 3-2.Proceso de alineamiento de la herramienta FOAM. ............................................................. 23
Figura 3-3. Proceso de consultas semánticas y mapeo de ontologías.................................................. 26
Figura 3-4. Proceso de igualado de entidades candidato. ..................................................................... 28
Figura 3-5. Proceso de alineamiento del algoritmo ASCO3. ................................................................. 29
Figura 3-6. Relaciones ontológicas transformadas en nodos. ............................................................... 31
Figura 3-7.Herramienta Óptima en ejecución. ....................................................................................... 32
Figura 4-1. Metodología de solución para la extracción de información contenida en ontologías. ....... 42
Figura 5-1. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-A-1. ................................ 74
Figura 5-2. Resultado incorrecto de la consulta MapTool-Es-Triple-Dom-Sub-AA-2. ........................... 75
Figura 5-3. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-B-3. ................................ 76
Figura 5-4. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-BB-4. .............................. 77
Figura 5-5. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-BG-5. ............................. 78
Figura 5-6. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-BGG-6. ........................... 79
Figura 5-7. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-BGGG-7. ........................ 80
Figura 5-8. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-F-8. ................................ 81
Figura 5-9. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-E-9. ................................ 82
Figura 5-10. Resultado incorrecto de la consulta MapTool-Es-Triple-Dom-Sub-GGGB-10. ................. 83
Figura 5-11. Resultado incorrecto de la consulta MapTool-Es-Triple-Dom-Sub-GB-11. ....................... 84
Figura 5-12. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-GBB-12. ....................... 85
Figura 5-13. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-GBG-13. ....................... 86
Figura 5-14.Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-GGB-14. ........................ 87
Figura 5-15. Estructura de la meta ontología OntoEvento en (Reyes, 2011). ...................................... 88
Figura 5-16. Porcentaje de efectividad de la herramienta de extracción de información. ..................... 90
Lista de gráficas
Gráfica 1. Resultados finales de los algoritmos. .................................................................................. 103
Gráfica 2. Comparativa del rendimiento de los algoritmos con instancias ontológicas en el primer
conjunto de datos. ................................................................................................................................ 105
Gráfica 3. Comparativa del rendimiento de los algoritmos con instancias ontológicas en el segundo
conjunto de datos. ................................................................................................................................ 107
Gráfica 4. Comparativa del rendimiento de los algoritmos con instancias ontológicas en el tercer
conjunto de datos. ................................................................................................................................ 109
Gráfica 5. Comparativa del rendimiento de los algoritmos con relaciones ontológicas. ...................... 111
vii
Glosario de términos
Alineamiento de ontologías: El alineamiento consiste en dadas dos ontologías, con sus diferentes
entidades (concepto, relación o instancia) encontrar una relación de igualdad uno a uno en cada
entidad que las componen (Ehrig, 2005).
Ontología: Una ontología es una especificación de un dominio, de todo lo que 'existe' en un dominio,
incluyendo los términos, conceptos, entidades, axiomas, teoremas, leyes, reglas, y las acciones que
se pueden realizar sobre todo en el dominio así como la forma de razonar sobre el dominio
(Standford,2007).
OWL: El Lenguaje de Ontología Web (OWL) es un lenguaje para representar ontologías de recursos
Web en la Web Semántica (OWL, 2004).
RDF: El Marco de Descripción de Recursos (RDF) es un lenguaje para la representación de recursos
en la World Wide Web utilizando sentencias RDF triples y es la base para la Web Semántica (RDF,
2004).
SPARQL: El Protocolo SPARQL y RDF Query Language (SPARQL) es un método y lenguaje de
consulta para utilizar un servicio Web para acceder a un conjunto de datos RDF (SPARQL, 2008).
Taxonomía: Ciencia que trata de los principios, métodos y fines de la clasificación (Taxonomía, 2010).
Tripleta: Una tripleta de RDF es un tripleta formado por un sujeto, predicado (o propiedad), y el objeto
en la forma de un objeto RDF tripleta, una tripleta RDF predicado, y un objeto RDF triple, que se
utilizan para el estado representan una afirmación o una declaración acerca de un recurso Web en el
formato de datos RDF(Tripleta, 2010).
XML: El Lenguaje de marcado extensible (XML) es un subconjunto de SGML. Su objetivo es permitir
que SGML genérico sea servido, recibido y procesado en la Web en la forma en que ahora es posible
con HTML. XML ha sido diseñado para facilitar su aplicación y para la interoperabilidad con SGML y
HTML. (XML, 2004).
Capítulo I. Introducción
1
Capítulo 1. INTRODUCCIÓN En este capítulo se describe el contexto en el que se encuentra la investigación junto a la problemática
que se aborda en esta tesis. Se presentan también los objetivos generales, objetivos específicos, la
justificación así como los beneficios aportados por esta investigación, los alcances y las limitaciones
de la presente investigación.
Capítulo I. Introducción
2
1.1 Planteamiento del problema
Desde el surgimiento de la Internet, la Web ha evolucionado de manera significativa iniciando
con las primeras páginas estáticas las cuales eran mantenidas por personas especializadas y donde
los usuarios finales eran tan sólo espectadores; no fue sino hasta la llegada de la denominada Web
2.0 que se derivaron múltiples factores radicales que marcaron pauta de un cambio que tenía como
filosofía principal el de ser una Web para usuarios finales; es decir, las personas que hacen uso de la
Web son los principales responsables de llenarla enriqueciendo su contenido. Esta convergencia
generalizada en su uso y mantenimiento de la Web por los usuarios finales generó múltiples
problemas sobre todo en la recuperación de la información. La Web 3.0, que actualmente se está
desarrollando pretende dar el siguiente paso hacia una Web Semántica la cual es una extensión de la
Web actual (Web 2.0), en la cual se pretende dotar de un mayor significado a los recursos que
tenemos disponibles en la Web, para que cualquier usuario de la red encuentre información de
manera eficiente.
Una de las técnicas más usadas para poder dotar de significado a los recursos existentes en
la Web es por medio de ontologías. Estás ofrecen la oportunidad de que las computadoras puedan
entender las relaciones entre los objetos existentes por medio de lenguajes como lo son RDF y OWL
además proporcionan los medios para obtener información de las ontologías por medio del lenguaje
SPARQL.
El lenguaje RDF (Resource Description Framework) es un lenguaje de propósito general para
la representación de la información en la Web (RDF, 2004). Con este lenguaje se puede obtener una
relación jerárquica de forma estructurada de los recursos existentes en la Web; RDF define la sintaxis
y semántica de SPARQL para RDF (SPARQL, 2008). SPARQL es utilizado para formular las
consultas a través de RDF. El lenguaje OWL está diseñado para el uso de las aplicaciones que
necesitan procesar el contenido de la información en lugar de presentar la información a los seres
humanos (OWL, 2004). Es decir que se utiliza para el intercambio de información entre computadoras.
Al proporcionar a la Web de significado, se solucionan diferentes problemas comunes en la
búsqueda de información que se tienen actualmente. Un ejemplo de ello son los problemas de
sinonimia y polisemia que existen con los buscadores tradicionales, que por lo general no dan
resultados oportunos, ya que no hacen inferencias sobre el tema que el usuario necesita obtener y no
considera la semántica de la búsqueda ni de la información; sin embargo, existen otros problemas
aunados a la utilización de ontologías como lo son: las diferentes formas o metodologías usadas al
crearlas; es por ello que en esta investigación se propone utilizar técnicas de alineamiento para
solventar estos problemas ya que las técnicas utilizadas en el buscador ironLP enriquece los términos
existentes en las tripletas de búsqueda para tener un mayor grado de confianza en las consultas
realizadas.
Capítulo I. Introducción
3
Por lo tanto con esta tesis se desarrolló una herramienta que explota la información contenida
en ontologías haciendo uso de técnicas de alineamiento de ontologías con lo que se enriquecieron
elementos contenidos en las tripletas de consulta con la finalidad de obtener información relevante
para el usuario.
1.2 Descripción del problema
En esta etapa del proyecto del buscador semántico se pretende desarrollar una herramienta
que realice búsquedas semánticas basándose en alineamiento de tripletas con ontologías de dominio.
La complejidad del problema radica en la creación de las ontologías. Para lograr mejores
resultados en la extracción de información se utilizan técnicas de alineamiento de ontologías entre las
entidades candidato. Esta similitud se complica si las ontologías son de dominio diferente ya que se
calcula considerando aspectos sintácticos y semánticos entre clases, relaciones, instancias y axiomas.
El alineamiento entre estas ontologías se realiza para garantizar su interoperabilidad en bases
de conocimientos diferentes. Debido a su naturaleza, las ontologías que son del mismo dominio
pueden ser elaboradas de distintas maneras, ya sea por el ingeniero de ontologías o siguiendo
diferentes metodologías para la elaboración de las mismas de forma manual, semi-automática o
automática. Debido a estos problemas básicos en las ontologías se pueden identificar claramente
otros factores ya que según (Gruber, 1993) son:
Los desajustes de conceptualización que son los desajustes de diferentes
conceptualizaciones del mismo dominio y los desajustes de la explicación que son los desajustes
en la forma de especificar las conceptualizaciones.
1. Los desajustes de conceptualización se pueden clasificar en dos categorías las cuales se
enlistan a continuación.
a. Desajustes en el alcance
b. Desajuste entre la cobertura del modelo y su granularidad
2. La parte de los desajustes de la explicación recaen en tres categorías las cuales se mencionan
a continuación:
a. Desajustes en el estilo del modelado
b. Desajustes terminológicos
c. Desajuste de la codificación
Con la presente investigación se pretende dar solución a los desajustes en el alcance, los
desajustes entre la cobertura del modelo y su granularidad, y por último los desajustes
terminológicos para realizar la extracción de información contenida en las ontologías. En este
sentido y conociendo las implicaciones que conlleva el utilizar las ontologías como medio para la
búsqueda de información se deben de emplear técnicas de alineamiento para la resolución de estos
Capítulo I. Introducción
4
fenómenos concebidos en el momento de la creación de las ontologías de dominio.
1.3 Descripción del marco de trabajo
El presente trabajo de investigación se encuentra embebido dentro de un proyecto general
para la creación de un buscador semántico denominado ironLP (Information Retrieval from Ontologies
using Natural Language Processing).
El objetivo general de ironLP que se describe en (Vázquez, 2010) es: “desarrollar una herramienta
que reciba consultas en lenguaje natural y permita la recuperación de información a partir de un
repositorio de datos estructurados como ontologías, y que mediante técnicas de procesamiento de
lenguaje natural y técnicas de alineamiento de ontologías se conteste a una consulta del usuario”.
Este buscador contiene en su versión más básica dos componentes para su creación. El
primer componente de ironLP es el procesamiento de la consulta en lenguaje natural para la
generación de tripletas. El segundo componente del cual se deriva esta investigación es el uso de
técnicas de alineamiento para la extracción de información contenida en ontologías. Esta
investigación es la encargada de obtener los resultados correctos de las consultas generadas por
medio de tripletas (sujeto, predicado, objeto) que cumplan con los patrones de búsqueda identificados
en esta tesis.
La aportación principal de esta investigación al desarrollo del buscador semántico ironLP
consiste en una herramienta para la extracción de información contenida en ontologías utilizando
técnicas de alineamiento. Esta herramienta permite la inserción de tripletas que cumplan con un
patrón de búsqueda claramente identificado el cual puede ser anidado con otros patrones para hacer
más expresiva la consulta.
En la figura 1-1 se detalla cada uno de los módulos del componente desarrollado para el
buscador semántico de esta investigación:
Figura 1-1. Arquitectura general de la herramienta desarrollada en esta investigación.
A continuación se describe brevemente el funcionamiento de cada unos de los módulos.
1. Extracción de términos: este módulo es el encargado de extraer información contenida en las
bases de datos léxico-gráficas de WordNet y EuroWordNet de cada término contenido de la
tripleta. También se realiza la identificación de cada término así como la asignación de sinónimo
al término correspondiente.
2. Extracción y mapeo de ontologías:
contenidos en las ontologías (clases, relaciones e instancias). Estos elementos ontológicos son
utilizados para realizar mapeos entre
alineamiento de ontologías (sintácticas y de aproximación semántica).
3. Resultado de mapeo de ontologías y tripletas:
únicamente las tripletas completas que
de tripletas ingresadas en la búsqueda corresponda al mismo número de tripletas devueltas con
respuestas correctas.
Capítulo I. Introducción
Arquitectura general de la herramienta desarrollada en esta investigación.
A continuación se describe brevemente el funcionamiento de cada unos de los módulos.
este módulo es el encargado de extraer información contenida en las
gráficas de WordNet y EuroWordNet de cada término contenido de la
tripleta. También se realiza la identificación de cada término así como la asignación de sinónimo
Extracción y mapeo de ontologías: se encuentra destinado a la extracción de los elementos
contenidos en las ontologías (clases, relaciones e instancias). Estos elementos ontológicos son
utilizados para realizar mapeos entre los términos de las tripletas mediante el uso de técnicas de
alineamiento de ontologías (sintácticas y de aproximación semántica).
Resultado de mapeo de ontologías y tripletas: el último módulo se encarga de extraer
únicamente las tripletas completas que contengan información coherente; es decir, que el número
de tripletas ingresadas en la búsqueda corresponda al mismo número de tripletas devueltas con
Capítulo I. Introducción
5
Arquitectura general de la herramienta desarrollada en esta investigación.
A continuación se describe brevemente el funcionamiento de cada unos de los módulos.
este módulo es el encargado de extraer información contenida en las
gráficas de WordNet y EuroWordNet de cada término contenido de la
tripleta. También se realiza la identificación de cada término así como la asignación de sinónimos
se encuentra destinado a la extracción de los elementos
contenidos en las ontologías (clases, relaciones e instancias). Estos elementos ontológicos son
los términos de las tripletas mediante el uso de técnicas de
el último módulo se encarga de extraer
contengan información coherente; es decir, que el número
de tripletas ingresadas en la búsqueda corresponda al mismo número de tripletas devueltas con
Capítulo I. Introducción
6
1.4 Objetivos
1.4.1 Objetivo General
Desarrollar una herramienta que permita hacer búsqueda de información pertinente en ontologías de
dominio, mediante el alineamiento de ontologías con tripletas.
1.4.2 Objetivos específicos
1. Modificación de un algoritmo para el cálculo del grado de similitud de una tripleta con las
entidades candidato en diferentes ontologías de dominio.
2. Integración del módulo de tratamiento de lenguaje natural (Vázquez, 2010) y el módulo de
alineamiento de ontologías con tripletas.
1.5 Justificación y beneficios
Esta investigación pretende desarrollar una técnica que permita extraer información contenida
en ontologías por medio del tratamiento de estas. Este tratamiento compete a uso de técnicas de
alineamiento de ontologías lo que permite tener una mayor expresividad en los elementos que se
evalúan. El uso de técnicas de alineamiento en la extracción de información tiene la finalidad de
conseguir una probabilidad mayor de obtener mejores resultados. Este proyecto de investigación se
enfoca en el tratamiento ontológico de los elementos de las ontologías con los términos de las tripletas
de búsqueda.
Los beneficios que se obtienen con esta tesis son los siguientes:
1. El desarrollo de una técnica que permita extraer información contenida en ontologías a partir
de la inserción de tripletas de búsqueda las cuales deben contener como mínimo una
incógnita.
2. El tratamiento de los términos contenidos en tripletas que sean identificados como verbos y
nombre común por medio de la herramienta de etiquetado TreeTagger.
3. La extracción de información en múltiples ontologías de dominio.
4. La integración del módulo de extracción de información contenida en ontologías con diferentes
proyectos de análisis lingüísticos los cuales generen como resultado tripletas con los patrones
que recibe como entrada esta herramienta.
5. Identificación de patrones de búsqueda en instancias de ontologías.
6. Identificación de diferentes umbrales con respecto a los elementos ontológicos que se
evalúan.
7. Identificación e implementación de diferentes algoritmos para la comparación de cadenas de
texto derivadas de los elementos ontológicos.
Capítulo I. Introducción
7
Esta investigación deja un precedente importante en el área del tratamiento automático de
lenguaje natural. Los trabajos que se deriven del tratamiento de la consulta en lenguaje natural se
deben acoplar a la entrada de la herramienta la cual permite la inserción de tripletas con diferentes
patrones de búsqueda.
1.6 Alcance y limitaciones
1.6.1 Alcances
1. Selección de técnicas de alineamiento de ontologías por similitud de cadenas y aproximación
semántica.
2. Los resultados obtenidos de las ontologías serán entendibles para el usuario.
3. Se enriquecen los términos de las tripletas de consulta por medio de sinónimos.
4. Se realizan consultas en Español e Inglés.
1.6.2 Limitaciones
1. Se deberá de ingresar una tripleta bien formada (Sujeto, predicado, objeto) o una tripleta con
una incógnita (Sujeto, predicado, x ?) o una con un máximo dos incógnitas (x ?, predicado, y
?) así como una combinación de ellas.
2. Tiempo de procesamiento desconocido.
3. Las ontologías a consultar deben de estar previamente almacenadas en un repositorio y
validadas para su procesamiento.
Capítulo I. Introducción
8
1.7 Organización del documento
En el Capítulo I se detalla el problema existente en el uso y creación de ontologías donde se
definen los puntos que se atacaran con la presente investigación. El siguiente punto describe el marco
de trabajo de la tesis, objetivos generales de la investigación con los que se deben de cumplir, los
beneficios aportados y por último los alcances y las limitaciones que tendrá la investigación,
El Capítulo II describe conceptos utilizados en el presente trabajo de investigación. Se definen
los términos correspondientes a la mediación y tratamiento de ontologías, los recursos utilizados para
el tratamiento de ontologías y las técnicas utilizadas para realizar dichos tratamientos.
El Capítulo III se describe el Estado del arte presentado en este trabajo de investigación. En
este apartado se describen las categorías de los sistemas de alineamiento identificados que utilizan
diferentes técnicas para realizar alineamiento entre ontologías.
En el Capítulo IV se describe la metodología de solución aplicada para dar solución al
problema de la presente investigación. Se detallan cada uno de los módulos propuestos así como los
procesos que cada uno lleva a cabo para obtener los resultados esperados para cumplir con los
objetivos propuestos.
En el Capítulo V se presentan las pruebas que fueron realizadas conforme al estándar IEEE
829-1998. En él se describe la hipótesis presentada, convención de nombres a utilizar, plan de
pruebas, pruebas realizadas, análisis de los resultados y las pruebas fallidas.
El Capítulo VI se presenta las conclusiones a las cuales se llego con el desarrollo de la tesis
así como las aportaciones generadas y trabajos futuros que se derivan de esta tesis.
Capítulo II. Marco teórico
9
Capítulo 2. MARCO TEÓRICO En esta sección se describen los conceptos existentes en el presente trabajo de investigación;
donde se definen los términos correspondientes a la mediación y tratamiento de ontologías, los
recursos usados en el tratamiento de ontologías y las técnicas para realizar dichos tratamientos.
Capítulo II. Marco teórico
10
2.1 Ontologías
En (Gruber, 1993) se definen a las Ontologías como “una especificación de una
conceptualización”. En ese sentido Gruber afirma que una conceptualización es una visión abstracta y
simplificada del mundo que queremos representar con algún propósito. Otro enfoque que parte de
esta definición es descrita en (Huang et. al., 2010) donde los autores delimitan a esta
conceptualización y especificación por separado con la finalidad de dar una definición más clara que la
aportada por Gruber. Los autores en (Huang et. al., 2010) afirman que la “conceptualización es el
proceso que conduce a la extracción y la generalización de la información”. Así mismo también
definen a la especificación como la forma de describir a dicha conceptualización en un lenguaje
formal.
En la metodología descrita en (Corcho, 2005) se definen los elementos que tiene una
ontología. Estos elementos se detallan a continuación:
1. Conceptos: son tomados en un sentido más amplio. Estos conceptos son organizados en
taxonomías y unidos por una relación taxonómica o de subsunción entre ellos.
2. Relaciones: representan un tipo de asociación entre los conceptos del dominio. Existen 2
tipos de relaciones con más relevancia entre los conceptos de una ontología la primera de
ellas es la taxonómica y es una relación binaria que es definida por una etiqueta que describe
a un concepto que “es un” o “parte de”. El otro tipo de relación es la no-taxonómica definida
por etiquetas que describen una acción entre dos conceptos.
3. Instancias: se utilizan para representar elementos o individuos en una ontología.
4. Constantes: son valores numéricos que no cambian durante mucho tiempo
5. Atributos: son utilizados para describir las propiedades de instancias y de los conceptos. Los
cuales se derivan en dos tipos de atributos: los atributos de clases y de instancias. Los
atributos de clase no son heredados por las subclases ni por las instancias y los de instancias
son heredados por las subclases derivadas de la clase donde se definió hasta llegar a la
instancia.
6. Axiomas formales: son expresiones lógicas. Y se utilizan normalmente para especificar
restricciones en la ontología
7. Reglas: son utilizados para inferir el conocimiento de la ontología, en los valores de los
atributos e instancias de relaciones.
Capítulo II. Marco teórico
11
2.2 Mediación de ontologías
En esta subsección se definen los diferentes tratamientos de ontologías (alineamiento y
mapeo) los cuales fueron tomados de (Ehrig et al., 2005) y que se utilizan en el presente trabajo de
investigación, así como también el uso de otros términos relacionados.
1. Mediacion (Mediation): la mediación de ontologías es el nivel superior del proceso del
tratamiento entre ontologías heterogéneas. Ésta incluye la especificación y descubrimiento de
alineamientos entre ontologías.
2. Alineamiento (Alignment): dada dos ontologías, el alineamiento de una ontología con otra
significa que para cada entidad en la primera ontología se trata de encontrar una entidad
correspondiente en la segunda ontología. Por lo tanto una alineación es encontrar entidades
con una relación de igualdad de uno a uno entre entidades.
3. Combinación (Combining): en la combinación son usadas dos o más ontologías diferentes
para una tarea en donde la relación mutua es relevante. La relación de la combinación puede
ser de cualquier tipo, no solamente de identidad.
4. Integración (Integration): para la integración, una o más ontologías son reutilizadas para
crear una nueva ontología. Los conceptos se conservan con posibilidad de ser extendidos. El
origen se queda especificado por medio del espacio de nombres (del Inglés “namespace”).
Este acercamiento es interesante cuando las ontologías son de diferente dominio. Por medio
de la integración la nueva ontología cubre un dominio más grande. El alineamiento es un paso
anterior a la integración ya que por medio de ésta se conocen los términos que se sobreponen
y pueden ser conectados.
5. Igualamiento (Matching): trata de encontrar una correspondencia entre dos entidades. Estas
correspondencias no necesariamente deben ser las mismas en términos sintácticos sin
embargo deben de corresponder al mismo significado de los términos.
6. Mapeo (Mapping): el mapeo se utiliza para consultar diferentes ontologías. Un mapeo en
ontologías representa una función entre ontologías. La ontología original no se modificada
pero los axiomas adicionales describen como expresar los conceptos, relaciones e instancias
en términos de la segunda ontología. Los mapeos encontrados en este proceso son separan
de las propias ontologías. Casi siempre los mapeos se establecen en una dirección, por
ejemplo son aplican de la ontología 1 hacía la ontología 2.
7. Mezcla (Merging): en este caso se crea una nueva ontología a partir de dos o más
ontologías. La nueva ontología unifica y reemplaza a las ontologías utilizadas para su creación
sin poder identificar de que ontología proviene el término. El alineamiento también es un paso
anterior para conocer el solapamiento de los términos de las ontologías
Capítulo II. Marco teórico
12
8. Transformación (Transformation): cuando se transforman ontologías la semántica cambia
esto con la finalidad de que sean más adecuados para otros fines que las de origen.
9. Traducción (Translation): la traducción se define como una operación restringida a la
traducción de datos, que puede incluir sintaxis. Esta traducción es importante cuando se
requiere hacer alineamientos entre ontologías de diferentes idiomas así como de estructura,
como por ejemplo pasar una ontología RDF(s) a OWL
2.3 Técnicas de alineamiento de ontologías
En esta subsección se describen las técnicas de alineamiento de ontologías tomadas a partir
de las definiciones de (Euzenat, 2010) las cuales son descritas a continuación:
1. Técnicas terminológicas (puramente sintácticas). Basadas en la normalización de
cadenas, en la búsqueda de sub-cadenas o patrones y en la noción matemática de distancia,
bien entre una cadena de texto, es decir, conjunto de caracteres donde el orden sí es
importante o considerando que los nombres son conjunto de caracteres donde el orden no es
importante.
2. Técnicas terminológicas (de aproximación semántica). Se basan en la búsqueda de
sinónimos o términos en otros idiomas. Así como en el intento de hacer uso de estructuras
taxonómicas para detectar subsunciones.
3. Técnicas estructurales. Consiste en comparar los tipos de datos de los conceptos de ambas
ontologías, o en la pertenencia a espacios de nombres comunes.
4. Técnicas de comparación semántica. Consiste en el empleo de técnicas procedentes de la
lógica de descripciones y modelos para inferir relaciones que pudieran existir entre ontologías.
5. Técnicas lingüísticas avanzadas. Técnicas avanzadas objeto de investigación por parte de
disciplinas relacionadas con el Procesamiento del Lenguaje Natural.
2.4 Sistemas de extracción de información, recuperación de información y preguntas-respuestas
La definición de recuperación de información (IR del Inglés “Information Retrieval” ) dada en
(Manning, 2008) nos dice que la IR trata de encontrar material de naturaleza no estructurada que
satisface con la necesidad de obtener información en grandes colecciones de documentos.
Los sistemas de extracción de información (IE del Inglés “Information Extraction”) se derivan
de los sistemas de IR donde (Cowie, 1996) afirma que los sistemas de IE, son aquellos sistemas
capaces de procesar de forma selectiva las estructuras de los datos que encuentra en uno o más
textos estructurados o no estructurados. La extracción de información se realiza con técnicas de
procesamiento de lenguaje natural.
Capítulo II. Marco teórico
13
De acuerdo a la definición de (Valero et. al. 2010) dada para los sistemas de preguntas-
respuestas (QAS del Inglés “Question Answering Systems”) esta clase de sistemas consisten en un
flujo de procesamiento único que realiza 3 pasos de forma secuencial los cuales se enlistan a
continuación:
1. Análisis de la pregunta.
2. Documento del que se recuperara la información.
3. Selección de la respuesta.
El proyecto ironLP del que forma parte este trabajo de investigación, se considera un sistema
de preguntas-respuestas con la variante de que está basado en ontologías de dominio para responder
a las preguntas que se ingresan previamente en el módulo de tratamiento de lenguaje natural y que
posteriormente se tratan con el módulo de tratamiento ontológico para dar una respuesta adecuada a
la pregunta.
2.5 Recursos léxicos WordNet y EuroWordNet
El recurso léxico WordNet es según (Miller, 1995) una base de datos léxica, diseñada
para su uso bajo cualquier lenguaje de programación. Esta base de datos contiene verbos,
adjetivos y adverbios. Así mismo existen relaciones de sinonimia entre los términos en inglés
existentes en la base de datos lexicográfica de WordNet, estos conjuntos son llamados synsets.
En (Vossen,1998) se describe a EuroWordNet como una base de datos multilingüe
adaptada para diferentes idiomas de Europa incluidos el Español, está completamente basada
en WordNet y puede ser integrada para tener una mayor riqueza de recursos léxicos en
diferentes idiomas. Está conformada por verbos, adjetivos y adverbios e igual que WordNet está
conformado por conjuntos de sinónimos (synsets).
Los recursos léxicos utilizados para resolver los problemas de alineamiento de ontologías
son WordNet para el idioma Inglés y EuroWordNet para el idioma Español. En la mayoría de los
artículos descritos en el capítulo 3 del presente trabajo de investigación utilizan WordNet como
un recurso léxico para la desambiguación de términos.
En el presente trabajo de investigación se pretende utilizar ambos recursos para realizar
operaciones que incluyen la desambiguación semántica de términos por medio del
enriquecimiento de estos. Esto se realiza con la finalidad de obtener el grado de similitud de dos
términos y descartar las entidades que no son iguales en significado, aunque no coincidan
morfológica o sintácticamente.
Capítulo II. Marco teórico
14
2.6 JENA 2
JENA es una API para la construcción de aplicaciones de la Web semántica en el lenguaje
JAVA de código fuente abierto desarrollado por (McBride, 2002) en los laboratorios de programación
semántica de HP.
La API de JENA provee de métodos para explotar archivos RDF, RDFS, OWL, N3, N-Triples y
DAML, así como también de un motor de consulta SPARQL y un motor de inferencia basado en reglas
el cual puede ser extendido.
Los métodos se utuilizan para acceder a los elementos específicos de la ontología, estos
elementos son clases, relaciones ontológicas, instancias así como el acceso a elementos que son
extraídos haciendo inferencias utilizando el razonador basado en reglas.
Lo primero que se necesita realizar para trabajar con la API de JENA es crear un modelo de la
ontología en memoria, con la finalidad de acceder a todos los elementos del archivo OWL o DAML,
con la siguiente instrucción:
OntModel m = ModelFactory.createOntologyModel();
Esta instrucción permitirá acceder a los elementos de la ontología mediante la variable “m” la cual crea
diferentes tipos de modelos los cuales se describen en la tabla 2-1.
Tabla 2-1. Modelos definidos por JENA para el acceso a elementos de las ontologías.
OntModelSpec Lenguaje Razonador
OWL_MEM OWL full Ninguno
OWL_MEM_TRANS_INF OWL full inferencia transitiva clase jerarquía
OWL_MEM_RULE_INF OWL full razonador basado en reglas con las reglas de OWL
OWL_MEM_MICRO_RULE_INF OWL full razonador basado en reglas con las reglas de OWL
OWL_MEM_MINI_RULE_INF OWL full razonador basado en reglas con un subconjunto de reglas de OWL
OWL_DL_MEM OWL DL Ninguno
OWL_DL_MEM_RDFS_INF OWL DL razonador basado en reglas a nivel de implicaciones RDFS
OWL_DL_MEM_TRANS_INF OWL DL inferencia transitiva clase jerarquía
OWL_DL_MEM_RULE_INF OWL DL razonador basado en reglas de OWL
OWL_LITE_MEM OWL Lite Ninguno
Capítulo II. Marco teórico
15
OWL_LITE_MEM_TRANS_INF OWL Lite inferencia transitiva clase jerarquía
OWL_LITE_MEM_RDFS_INF OWL Lite razonador basado en reglas a nivel de implicaciones RDFS
OWL_LITE_MEM_RULES_INF OWL Lite razonador basado en reglas de OWL
DAML_MEM DAML+OIL Ninguno
DAML_MEM_TRANS_INF DAML+OIL inferencia transitiva clase jerarquía
DAML_MEM_RDFS_INF DAML+OIL razonador basado en reglas a nivel de implicaciones RDFS
DAML_MEM_RULE_INF DAML+OIL razonador basado en reglas de DAML
RDFS_MEM RDFS Ninguno
RDFS_MEM_TRANS_INF RDFS inferencia transitiva clase jerarquía
RDFS_MEM_RDFS_INF RDFS razonador basado en reglas a nivel de implicaciones RDFS
El código para crear un modelo especifico de la ontología queda de la siguiente manera:
OntModel m = ModelFactory.createOntologyModel( <model spec> );
Al extender el modelo de representación de la ontología se logra acceder a más elementos de
la ontología.
Todas las clases definidas en la ontología están ligadas directamente al elemento
OntResource el cual se encuentra en la ontología. Esta característica hace de OntResource un
recurso importante para acceder a otros elementos de la ontología por la propia naturaleza del
elemento. OntResource extiende los recursos RDF de la API de JENA.
2.7 TreeTagger
TreeTagger es un etiquetador gramatical de textos desarrollado por (Schmid, 1994) basada en
árboles de decisión. Se desarrolló dentro del Instituto de Lingüística Computacional de la Universidad
de Stuttgart en Alemania. TreeTagger ha sido utilizado con éxito para textos en Alemán, Inglés,
francés, Italiano, Holandés, Español, Búlgaro, Ruso, Griego, Portugués, Chino, Swahili, Latín, Estonio
y lenguas antiguas del Francés.
Esta herramienta proporciona el lema, así como también las categorías gramaticales a las que
pertenecen las palabras procesadas partiendo del árbol de decisión creado a partir del texto
ingresado.
En la tabla 2-2 se presenta un ejemplo de etiquetado del siguiente texto:
Capítulo II. Marco teórico
16
“The TreeTagger is easy to use.”
Tabla 2-2. Etiquetado gramatical, obtenido del sitio oficial de TreeTagger.
Word Pos Lemma The DT the
TreeTegger NP TreeTagger is VBZ Be easy JJ Easy to TO to use VB use . SENT .
La importancia de utilizar el etiquetador gramatical recae en las relaciones ontológicas a las
que están asociadas las instancias. Es por ello que se necesita realizar un etiquetado gramatical del
verbo principal que una a dos instancias las cuales están definidas por las clases que componen al
dominio y rango. Esta instanciación se le conoce como relaciones instanciadas las cuales pueden
estar definidas en diferente forma o tiempo. El etiquetado gramatical hecho con TreeTagger otorga al
prototipo de la raíz del verbo que se está utilizando en la ontología para luego ser comparada con la
relación ontológica que une al sujeto y objeto en la tripleta mejorando el resultado de la comparación
sintáctica de las relaciones.
En la tabla 2-3 describe las etiquetas de los verbos en el idioma Español.
Tabla 2-3. Etiquetas gramaticales para la identificación de verbos en español en TreeTagger.
Etiqueta Descripción
VCLIger Verbo clítico en gerundio
VCLIinf Verbo clítico infinitivo
VCLIfin Verbo clítico finito
VEadj Verbo estar participio pasado
VEfin Verbo estar finito
VEger Verbo estar gerundio
VEinf Verbo estar infinitivo
VHadj Verbo haber participio pasado
VHfin Verbo haber Finito
VHger Verbo haber Gerundio
VHinf Verbo haber en infinitivo
VLadj Verbo en participio pasado
VLfin Verbo en finito
VLger Verbo en gerundio
VLinf Verbo en infinitivo
Capítulo II. Marco teórico
17
VMadj Verbo modal en participio pasado
VMfin Verbo modal en finito
VMger Verbo modal en gerundio
VMinf Verbo modal en infinitivo
VSadj Verbo ser en participio pasado
VSfin Verbo ser en finito
VSger Verbo ser en gerundio
VSinf Verbo ser en infinitivo
La identificación de las diferentes formas verbales del idioma español son de mucha
importancia en el prototipo ya que se esperan resultados satisfactorios al realizar el etiquetado
gramatical.
La tabla 2-4 describe las etiquetas de los verbos del idioma Inglés.
Tabla 2-4. Etiquetas gramaticales para la identificación de verbos del Inglés en TreeTagger.
Etiqueta Descripción
VB Verbo be en su forma base
VBD Verbo be en pasado
VBG Verbo be en gerundio/participio
VBN Verbo be en participio pasado
VBZ Verbo be en presente tercera persona del singular
VBP Verbo be en presente
VD Verbo do en su forma base
VDD Verbo do en pasado
VDG Verbo do en gerundio/participio
VDN Verbo do en participio pasado
VDZ Verbo do en presente tercera persona del singular
VDP Verbo do en presente
VH Verbo have en su forma base
VHD Verbo have en pasado
VHG Verbo have en gerundio/participio
VHN Verbo have en participio pasado
VHZ Verbo have en presente tercera persona del singular
VHP Verbo have en presente
VV Verbo en su forma base
VVD Verbo en pasado
VVG Verbo en gerundio/participio
VVN Verbo en pasado participio
Capítulo II. Marco teórico
18
VVP Verbo en presente
VVZ Verbo en presente del singular
2.8 SimMetric
Es una librería de código fuente abierto, fue desarrollada por (Chapman, 2005) con la finalidad
de obtener la similitud de dos cadenas de texto. La librería contiene diferentes algoritmos de similitud
de cadenas como lo son los algoritmos Jaro, Levenshtein, similitud de Jaccard, distancia de Bloque,
similitud de coseno, similitud de Dice, distancia Euclidiana, Mongue Elkan entre otros. La librería está
destinada para su uso en recuperación de información, integración de información, alineamiento de
ontologías, bases de datos, análisis de ADN y la inteligencia artificial.
Las medidas de similitud se basan en un enfoque estadístico de integración de la información
comparando dos cadenas de texto que devuelven un valor que indica el grado de confianza de las
mismas. La biblioteca SimMetric proporciona una interfaz estandarizada obtener medidas de similitud
que actúan de una manera permitiendo la comparación y la composición de la métrica, mientras que
todavía permite el uso de la salida de algoritmos originales de base.
La librería SimMetric ha sido utilizada en aplicaciones de detección de fraude, detección de
plagio, fusión de ontologías, análisis de ADN, análisis de ARN, análisis de imágenes, pruebas de
aprendizaje automatizado, complemento de la similitud de celdas para MS Excel, en base de datos,
minería de datos, interfaces Web dando sugerencias de estilo a medida que escriben texto,
integración de datos y en la integración de conocimiento semántico.
Capítulo III. Estado del arte
19
Capítulo 3. ESTADO DEL ARTE El estado del arte presentado en este trabajo se divide en dos categorías. La primera está
identificada por los sistemas de alineamiento tradicionales los cuales utilizan las primitivas de OWL y
RDF(s) para la solución de alineamientos ontológicos así como una serie de recursos (WordNet,
EuroWordNet, Sumo, etc.) para desambiguar sintáctica y semánticamente el significado de entidades
existentes en las ontologías de origen y fuente. El segundo grupo está integrado por sistemas de
alineamiento basado en grafos, los algoritmos que se emplean son utilizados en teoría de grafos los
cuales ayudan a resolver problemas de mapeo y alineamiento en ontologías; lo interesante de este
enfoque es que en algunos casos se pueden llegar a derivar conclusiones a partir de axiomas
ingresados permitiendo realizar mapeos con las conclusiones obtenidas de las premisas, ayudando
en el alineamiento de ontologías; el uso de grafos se basa principalmente en el alineamiento de la
estructura de los grafos esto para obtener resultados de mapeo y alineamiento satisfactorios.
Capítulo III. Estado del arte
20
3.1 Sistemas de alineamiento tradicionales
3.1.1 MaF
Descripción
Los autores (Navas et al., 2007) describen a MAF como una herramienta con arquitectura de
tres capas que permite la combinación de algoritmos de comparación basados en conceptos y roles.
Estos algoritmos son utilizados para obtener el mapeo entre las distintas entidades candidato de las
ontologías que se introduzcan. Los autores definen de manera formal la expresión matemática para la
obtención de las relaciones semánticas de la siguiente manera:
(e,e’,n,R): donde e y e’ son entidades pertenecientes a ontologías diferentes ingresadas en la
herramienta, n es una medida de grado de confianza, y por último R que representa la relación
existente entre ambas entidades.
En dicho trabajo de investigación se desarrolló un método que genera de manera automática
el alineamiento resultante. MaF esta implementado de una forma modular que contribuye al uso de
nuevos algoritmos.
En el artículo se establecen 2 perspectivas del estado del arte del alineamiento, una de las
cuales son las técnicas empleadas para resolver el problema del alineamiento y la otra son las
herramientas desarrolladas para hacer el alineamiento de ontologías.
En la primera parte se describen las distintas técnicas abordadas en el alineamiento de ontologías
descritas en (Euzenat, 2010) y son los siguientes:
1. Técnicas terminológicas puramente sintácticas.
2. Técnicas terminológicas de aproximación semántica.
3. Técnicas estructurales.
4. Técnicas de comparación semántica.
5. Técnicas lingüísticas avanzadas.
La función para el alineamiento de ontologías se define en la siguiente fórmula 1-1:
Fórmula 3-1. Función para el alineamiento de los elementos de las ontologías en MaF.
A’=� (�, �′, �, �, �)
Donde o y o’ son las ontologías que se alinearán, el parámetro A es una alineación previa de
esas 2 ontologías si existe y es opcional, la variable p es la encargada de recibir como parámetros los
nombres de algoritmos que se utilizan para el alineamiento y por último r son los recursos disponibles
para realizar el alineamiento los cuales son las composiciones de fórmulas.
Capítulo III. Estado del arte
21
MaF aborda el alineamiento de ontologías utilizando para ello las técnicas terminológicas (sintácticas y
de aproximación semántica) así como las técnicas estructurales.
Características importantes
MAF realiza el mapeo de 2 ontologías en el idioma español y codificado en OWL. La técnica
estructural se basa en comparar los valores existentes en las propiedades. Las técnicas sintácticas
utilizan conceptos, instancias y propiedades, realizando un cálculo de distancias de cadenas entre
ellas. Por último, utiliza EuroWordNet como recurso externo en la desambiguación de términos, esto
con la finalidad de obtener mejores resultados.
Relevancia para el trabajo de investigación
Un aspecto relevante a destacar de este proyecto, es que el alineamiento se realiza con
ontologías en español y utilizan EuroWordNet para desambiguar términos relacionados con el idioma
español. Este recurso externo se aplicará en esta tesis para abordar ontologías en español y obtener
mejores resultados en el alineamiento de ontologías para generar una herramienta que ataque
ontologías en español e inglés.
Referencia (Navas et. al., 2007) Dept. de Lenguajes y Ciencias de la Computación Universidad de
Málaga; Departamento de Sistemas Informáticos y Telemáticos Escuela Politécnica, Universidad de
Extremadura; España.
3.1.2 PowerMap
Descripción
En este proyecto (López et. al, 2006a) se describe a PowerMap como un algoritmo utilizado
para realizar mapeos entre tripletas y ontologías en tiempo de ejecución. El mapeo de los términos se
obtiene en base a una serie de tripletas ingresadas, las cuales pueden ser reestructuradas y
mapeadas en una o varias ontologías en un dominio abierto. PowerMap ataca una serie de ontologías
sin determinar el dominio o estructuras similares; este nuevo escenario propone otros requerimientos
como el procesamiento de varias ontologías, lo cual contribuye al aumento en la heterogeneidad de
los dominios, haciendo que el tiempo en el rendimiento del proceso sea un factor importante en el
mapeo de las ontologías.
En la figura 3-1 se describen los pasos del algoritmo utilizado por PowerMap:
Capítulo III. Estado del arte
22
Figura 3-1. Proceso de mapeo para la obtención de ontologías y entidades candidatos.
Se definen 3 fases para la resolución de los problemas planteados en el nuevo escenario,
estos pasos son descritos a continuación.
1. Mapeo sintáctico: este mapeo se realiza en múltiples ontologías para encontrar las coincidencias
sintácticas de las entidades candidatos basándose solamente en los conceptos.
2. Mapeo semántico: el proceso de mapeo en esta fase se realiza de un conjunto reducido de
ontologías como resultado del paso anterior y se basa en obtener el significado semántico de los
conceptos e ir descartando ontologías que no sean pertenecientes al mismo dominio, dándole
mayor importancia a la estructura de las entidades candidato, utiliza para ello los métodos para la
extracción de sinónimos derivados de WordNet.
3. Filtro semántico: el último paso del proceso se realiza con la finalidad de obtener los resultados
pertinentes al contexto de la consulta, haciendo énfasis en el orden de las entidades de las
tripletas obtenidas, las cuales serán mapeadas en las ontologías derivadas de la fase 2
respetando dicha estructura. En este paso se derivan las ontologías que cumplen con las
condiciones y deberían de representar la información que se requiera obtener.
Características importantes
PowerMap es un algoritmo utilizado para realizar mapeos entre múltiples ontologías en el
idioma inglés de forma automática, basándose en el lenguaje de ontologías OWL. El algoritmo de
PowerMap evalúa técnicas terminológicas y estructurales. Los mapeos terminológicos se realizan
entre conceptos, relaciones e instancias, así como de la comparación de un RDF-Triple con una
estructura similar en la ontología, sin embargo la relación no es muy importante en el proceso de
mapeo. Los mapeos estructurales se realizan con la ayuda de la ontología SUMO que es un recurso
externo derivado de WordNet, con esta ontología se realizan mapeos entre las superclases y
subclases del concepto que está siendo evaluado. Una particularidad de PowerMap es el resultado
que genera ya que entrega resultados semánticos y no valores de similitud entre los términos
mapeados.
Capítulo III. Estado del arte
23
Relevancia para el trabajo de investigación
PowerMap otorga un método preciso para abordar el problema de las consultas de múltiples
ontologías sin conocer el dominio y estructura de las mismas. Logrando como resultado una
combinación de técnicas muy fiables para su implementación. Los procesos establecidos en este
trabajo de investigación serán un punto de partida para la implementación de algoritmos en esta tesis.
Referencia (López et al., 2006a) Knowledge Media Institute (KMi), Walton Hall; The Open University,
Milton Keynes; Inglaterra.
Referencias relacionadas (López et al., 2006b), (López et al, 2009).
3.1.3 FOAM
Descripción
En este artículo (Ehrig, 2005) describe los diferentes procesos que forman parte de FOAM
para realizar el proceso de alineamiento y mapeo de ontologías. FOAM puede hacer el alineamiento
de dos o más ontologías en una sola corrida del programa; así mismo se pueden agregar
opcionalmente alineamientos previos que ayudan en gran medida a obtener mejores resultados de las
entidades alineadas.
En la figura 3-2 se establece el proceso de una manera gráfica:
Figura 3-2.Proceso de alineamiento de la herramienta FOAM.
Las etapas del proceso de alineamiento en FOAM se definen a continuación:
1. Características de ingeniería: son pequeñas excepciones sobre la definición de la ontología
que son seleccionadas para describir una entidad específica, las cuales representan cierta
semántica.
2. Selección de búsqueda: la derivación de los alineamientos de las ontologías tienen lugar en
el espacio de búsqueda de entidades candidato para el alineamiento.
3. Similitud por computación: aquí se indica el grado de similitud que existen entre dos
entidades candidato para su alineamiento que va de [0,1]. Por ejemplo: Sim(carro, automóvil)
= 1.
Capítulo III. Estado del arte
24
4. Similitud por agregación: en este punto pueden haber varios valores de similitud para un par
de entidades candidatos. Por ejemplo similitudes entre etiquetas, instancias, relaciones etc.
5. Interpretación: usa valores de similitud por separado o agrupados derivados de los
alineamientos entre entidades candidato los cuales devuelven los valores de similitud
estructural realizados entre ellas.
6. Iteración: la similitud obtenida en un par de entidades influye en la similitud de sus vecinos
más cercanos. En esta etapa se repiten los algoritmos de alineamiento los cuales para cada
iteración recalculan el grado de similitud de las entidades candidato y termina hasta que ya no
se puedan obtener más resultados.
Características
FOAM es una herramienta desarrollada para realizar múltiples alineamientos de ontologías en
el lenguaje OWL para su representación en el idioma inglés de manera semiautomática. Las técnicas
utilizadas por FOAM son las estructurales, terminológicas y semánticas esta última técnica es
abordada por el recurso externo Kaon2 el cual es un motor de inferencias para realizar deducciones
basados en los axiomas de las ontologías. El segundo recurso externo es WordNet el cual es usado
para obtener los sinónimos de los términos que está evaluando. Los elementos que utiliza FOAM para
calcular el grado de similitud entre los términos son los conceptos, instancias, relaciones, propiedades
y axiomas, así como también la estructura de los nodos con relación al nodo que se evalúa y una
estructura RDF-Triple. El resultado del alineamiento se guarda en un archivo que establece las
entidades candidato alineadas y precedidas por un grado de similitud que comprende de 0 a 1.
Relevancia para el trabajo de investigación
FOAM es una de las herramientas más completas en el alineamiento de ontologías. El método para el
alineamiento de múltiples ontologías es la parte a resaltar de esta herramienta.
Referencia (Ehrig, 2005) Institute AIFB University of Karlsruhe; Alemania
Referencias relacionadas (Ehrig, 2004)
3.1.4 LOM
Descripción
En este artículo el autor (Li, 2004) describe a LOM, una herramienta semiautomática de
mapeo de ontologías. El autor considera el mapeo de ontologías como un proceso de aprendizaje
realizado por humanos o maquinas con el propósito de encontrar morfismos entre conceptos de
ontologías. En LOM se hacen mapeos basados en el lexicón, ya que se afirma que este proceso es
factible, porque la mayoría de las ontologías desarrolladas tienen similitud léxica con el vocabulario
utilizado.
Capítulo III. Estado del arte
25
El autor utiliza 4 métodos para encontrar mapeos existentes entre entidades candidato, estos
métodos se describen a continuación:
1. Emparejamiento de todo el término (whole term matching): este algoritmo convierte todas
los términos de las dos ontologías a minúsculas y luego los compara entre sí para saber si
existe alguna correspondencia entre ellos y le asigna el valor 1, si no lo hubiera le otorga el
valor 0.
2. Componente de emparejamiento de la palabra (word constituent matching): en esta etapa
del proceso cada término se divide en otras palabras siempre y cuando exista una letra
mayúscula, un guion o un guion bajo. Las “Palabras vacias” derivadas de este proceso son
omitidas en el emparejamiento entre términos. Los términos se evalúan morfológicamente así
como con la ocurrencia del término completo. A cada evaluación elaborada de manera
correcta se le otorga un valor de 1 y en su defecto 0.
3. Emparejamiento de synset (synset matching): en esta fase se obtiene el significado
semántico de los términos utilizando para ello los synsets existentes en WordNet. El proceso
de la similitud entre términos se hace como en el paso anterior.
4. Tipo de emparejamiento (type matching): los términos que no fueron mapeados hasta esta
fase, sirven como fuente de comparación entre ellos. Los recursos SUMO y MILO son
ontologías que contienen referencias de palabras de WordNet derivados en hipónimos,
hiperónimos en este caso si existe algún tipo de emparejamiento entre los términos se les
agrega un valor descrito anteriormente.
Características
LOM es una herramienta semiautomática que realiza mapeos sintácticos entre elementos de
la ontología, para el idioma inglés en ontologías descritas en OWL. Estos mapeos son ejecutados en
conceptos, relaciones e instancias con la finalidad de mapeos únicamente entre elementos de la
misma categoría. Los lexicones utilizados en LOM son SUMO y MILO los cuales son ontologías
derivadas de WordNet tiene la función de desambiguar semánticamente los términos que están
procesando. Los resultados de la herramienta es una lista de elementos de la ontología mapeados
con un grado de similitud existente entre ellos.
Relevancia para el trabajo de investigación
El tiempo de procesamiento en LOM es un factor fundamental para el autor, es por ello que
utilizan métodos que comparan la cadena completa con el fin de encontrar más rápido las entidades
que cumplen con la similitud necesaria en el mapeo.
Referencia (Li, 2004) Teknowledge Corporation, Palo Alto, California, Estados Unidos de América.
Capítulo III. Estado del arte
26
3.1.5 Ontology mapping for querying heterogeneous information sources
Descripción
Los autores en (Benslimane et al., 2007) presenta un marco de trabajo en tres capas para el
mapeo semiautomático de ontologías. Esta investigación propone una serie de reglas que determinan
el grado de similitud de las entidades así como de sus características, las cuales se extraen de las
ontologías que se mapean. Estos mapeos ontológicos son verificados por un ingeniero de ontologías
para determinar las correctas correlaciones entre las entidades de la ontología.
En la figura 3-3 se detalla el proceso de la extracción de información a partir de la consulta y
extracción de información.
Figura 3-3. Proceso de consultas semánticas y mapeo de ontologías.
Las etapas del sistema de mapeo para la consulta de fuentes heterogéneas se describen a
continuación:
1. La capa fuente en esta fase se tiene una colección de información almacenada en bases de
datos relacionales. Estas colecciones de información están ligadas a ontologías y conectadas
por medio de relaciones no-taxonómicas.
2. La capa de mapeo en esta parte del marco de trabajo se realiza el mapeo de entidades entre
distintas ontologías almacenadas localmente y derivadas a partir de la capa fuente. Los
mapeos descubiertos son revisados para su validación y almacenados en lenguajes
estandarizados para el mapeo denotando con ello las entidades que se relacionan entre
diferentes ontologías.
3. La capa de consulta semántica está dedicada a construir consultas semánticas de acuerdo al
conjunto de mapeos realizados en la capa 2. Una consulta semántica es generada
automáticamente en tiempo de ejecución y es almacenada para ser utilizada por el motor de
búsqueda semántica, esta consulta puede derivarse en subconsultas junto al mapeo de
Capítulo III. Estado del arte
27
entidades previamente realizado. Finalmente los resultados de las consultas en SPARQL son
enviados al usuario final.
Los autores utilizan una serie de reglas para validar si las entidades de las ontologías pueden
ser similares otorgándole un grado de similitud por cada par de entidades mapeadas. Estas reglas son
utilizadas en mapeos léxico-sintácticos, estructurales y taxonómicos.
A continuación se enumeran las reglas que se utilizan para obtener la similitud de las
entidades candidato de las ontologías:
1. Dos entidades son idénticas si tienen el mismo identificador o el mismo nombre.
2. Dos entidades son idénticas si se encuentra en los sinónimos.
3. Dos conceptos son idénticos si sus propiedades son las mismas.
4. Dos propiedades son iguales si una de las siguientes condiciones se cumplen:
a. Si tienen el mismo nombre(regla 1)
b. Si el dominio y rango son iguales
5. Dos conceptos son similares si sus subconceptos son los mismos.
6. Dos conceptos son similares si sus súper conceptos son los mismos.
Características
El enfoque del presente artículo está dirigido a realizar mapeos semiautomáticos en múltiples
ontologías descritas en OWL y enfocado al idioma inglés. Utiliza las técnicas estructurales y
terminológicas. La similitud léxico-sintáctica se calculan partiendo de la entrada de dos cadenas de
caracteres. Para obtener una comparación léxico semántica se obtiene los diferentes sinónimos de
WordNet. El mapeo basado en estructura utiliza la estructura de los conceptos y de las propiedades
las cuales incluyen las relaciones de los conceptos (dominio, rango). El mapeo basado en la
taxonomía utiliza los superconceptos y subconceptos relacionados directa y taxonómicamente a la
clase que se evalúa.
Los resultados generados de la herramienta es una lista de entidades mapeadas con un grado
de similitud entre las entidades candidato evaluadas.
Relevancia para el trabajo de investigación
Las reglas especificadas por el autor de este proyecto, serán abordadas por esta tesis, para
deducir el mapeo de entidades candidato de una manera precisa, generando mejores resultados al
validando cada una de ellas por separado. Esto con la finalidad de hacer más preciso el proceso de
mapeo.
Referencia (Benslimane et al., 2007) Evolutionary Engineering and Distributed Information Systems
Laboratory Computer science Department, University of Sidi Bel Abbes. Argelia.
Capítulo III. Estado del arte
28
3.1.6 Ontology matching based on Hypernym, Hyponym, Holonym, and Meronym sets in WordNet
Descripción
En el trabajo de investigación de (Kwak, 2010) se propone un método para igualar los
términos contenidos en 2 ontologías, utilizando para ello Super Word Set Similarity(SWSS). Este
recurso es agregado al método implementado por los autores ya que incluye relaciones semánticas
basadas en WordNet. Estas relaciones entre conceptos son de tipo: hipónimos, hiperónimos,
holónimos, merónimos.
El método propuesto extrae los conceptos semejantes (MC) y las propiedades semejantes
(MP), las cuales son extraídas de la fase de similitud entre conceptos y propiedades. Después se
extraen los conceptos y propiedades que no son semejantes (PUC). La última etapa del proceso es la
comparación de propiedades y conceptos que es realizado con SWSS en el conjunto PUC ya que son
las entidades candidato que no encontraron una semejanza en los procesos anteriores. Esto se hace
con la finalidad de encontrar más entidades semejantes entre ontologías logrando una tasa más alta
de conceptos y propiedades similares entre sí.
En la figura 3-4 se puede ver el proceso de mapeo propuesto por el presente trabajo de
investigación.
Figura 3-4. Proceso de igualado de entidades candidato.
El método propuesto por los autores es descrito a continuación:
1. El primer paso de la metodología es obtener la similitud de los conceptos entre las ontologías
para poder incrementar el conjunto MC.
2. En el segundo paso se obtienen las similitud de las propiedades de ambas ontologías e
incrementan el conjunto de MP, en este punto del proceso se obtiene a su vez las entidades
candidato que no fueron igualadas y se envía al conjunto PUC.
3. El tercer paso de la metodología es la encargada de evaluar al conjunto PUC, esto se realiza
con el SWSS que contiene los hiperónimos, hipónimos, holónimos y merónimos en este punto
del proceso no se incluyen los sinónimos de WordNet ya que fueron evaluados en los pasos
anteriores.
4. Las inferencia lógicas se realizan a partir de las propiedades que OWL define como los son
FunctionalProperty, InverseOf, SymmetricProperty, TransitiveProperty y InverseFunctional
Capítulo III. Estado del arte
29
Property. Se pueden utilizar estas características para hacer las inferencias lógicas necesarias
para encontrar conceptos.
5. Filtra los resultados obtenidos en la etapa anterior para la visualización de la comparación de
entidades candidato como resultado de la metodología.
Características
La metodología propuesta por (Kwak, 2010) acepta el uso de múltiples ontologías en el
proceso de alineamiento y mapeo de ontologías, así mismo sólo realiza este proceso a ontologías en
OWL en el idioma inglés. Se utilizan técnicas estructurales y terminológicas para hacer coincidir
mediante la similitud semántica los términos relacionados. Los elementos que usa la metodología son
conceptos, propiedades, el rango de las propiedades y las superclases y subclases del concepto que
se evalúa. Los resultados generados son una lista de entidades mapeadas con su grado de similitud.
Relevancia
En este trabajo se utilizan técnicas de alineamiento estructural para enriquecer la búsqueda
de entidades similares, utilizando para ello hipónimos, hiperónimos, holónimos, merónimos con la
finalidad de tener un conjunto más grande de términos encontrados en el proceso de mapeo de
ontologías.
Referencia (Kwak, 2010) Department of Computer Science and Engineering, Ewha Womans
University, Seul, Korea.
3.2 Sistemas de alineamientos y mapeo basados en grafos
3.2.1 ASCO3
Descripción
En este trabajo (Thanh Le, 2007) presenta ASCO3 un nuevo algoritmo para el alineamiento de
ontologías, este algoritmo apunta a encontrar mapeos entre entidades de dos ontologías relacionadas
del mismo dominio. ASCO3 funciona con ontologías OWL DL/LITE, basándose en la expresividad y
primitivas de OWL para deducir la similitud de las entidades candidato de dos ontologías.
En la figura 3-5 se muestran los procesos del algoritmo propuesto.
Figura 3-5. Proceso de alineamiento del algoritmo ASCO3.
Capítulo III. Estado del arte
30
El algoritmo ASCO3 realiza la conversión de la ontología en un grafo que el autor denomina
O-Graph. El proceso de alineamiento se describe a continuación:
1. Se utilizan las clases, relaciones e instancias para ser convertidas en nodos, cada nodo está
conectado mediante un arco dirigido y etiquetado por una primitiva de OWL, el resultado de
este primer proceso es un grafo dirigido cíclico por cada una de las ontologías ingresadas.
2. En esta etapa se crea un grafo de asociación lo cual conlleva a decodificar la información de
compatibilidad entre los nodos de los dos O-Graphs con un sólo arco.
3. Se obtiene el máximo subgrafo común esto se hace mediante una búsqueda de la clique
máxima en el grafo de asociación elaborado en la etapa 2, con la utilización de un algoritmo
que crea las cliques y les agrega un peso determinado a cada arco.
4. Se realiza el cálculo de la clique máxima la cual se basa en la similitud lingüística de dos
entidades (etiquetas, nombres y comentarios de las clases) en cada nodo de la clique.
5. Por último se obtienen los mapeos realizados en la fase de generación del grafo de asociación
donde se mapean las entidades de las dos ontologías. Al obtener la clique máxima. Se
obtiene el número máximo de mapeos encontrados, como resultado tenemos una lista de
entidades mapeadas con una similitud entre ellas.
Características
El proceso de mapeo en ASCO3 se realiza utilizando como base dos ontologías en OWL para
el idioma inglés. El mapeo se realiza por medio de la extracción de términos derivado de conceptos,
instancias y relaciones los cuales son utilizados para ser analizados morfológicamente y crear nodos
dentro de un grafo, donde este último se compara estructuralmente para encontrar isomorfismos entre
los subgrafos derivados y obtener los términos alineados. Es importante señalar que el resultado
derivado por el algoritmo es un conjunto de entidades pares de ambas ontologías que son similares
entre sí.
Relevancia para el trabajo de investigación
En esta investigación se identificó el uso de grafos para la solución de problemas de alineamiento
entre ontologías. Se utilizan las clases, relaciones e instancias para aplicar las técnicas de similitud
sintáctica entre entidades.
Referencia (Thanh Le, 2007) University of Technology, Hanoi, Vietnam; INRIA Sophia Antipolis,
Francia.
Capítulo III. Estado del arte
31
3.2.2 OPTIMA
Descripción
Según (Kolli et al., 2008) Optima es una herramienta de propósito general para la alineación
de ontologías que identifica automáticamente los conceptos similares entre ontologías. La herramienta
es compatible con una interfaz de usuario intuitiva que facilita la visualización y análisis de las
ontologías en N3, RDF y OWL así como de los resultados de las alineaciones entre ontologías.
En el núcleo de Optima existe un algoritmo gráfico que formula el problema de la alineación
para encontrar el elemento más probable entre dos ontologías (optimización), y calcula la probabilidad
de uso con la técnica de expectativa de maximización (EM).
El algoritmo utilizado en Optima se describe más claramente en (Doshi, 2006), el artículo
establece los pasos a seguir para convertir una ontología en un grafo el cual contiene las clases y
relaciones en vértices. Un ejemplo de ello se muestra en la figura 3-6.
Figura 3-6. Relaciones ontológicas transformadas en nodos.
(3-6a) (3-6b)
La figura (3-6a) representa la relación existente entre conceptos de una ontología, los cuales
se aprecia en la figura (3-6b). En el proceso de conversión a grafos se introducen nodos “dummys”
para no perder las conexiones de la relación entre conceptos.
El cálculo de similitud se realiza por medio de las estructuras de los grafos creadas de ambas
ontologías y de la similitud léxica de las etiquetas en las relaciones, conceptos e instancias contenidas
en la ontología. Los grafos obtenidos son verificados para que cumplan con el homomorfismo que se
necesita para alinear ambas estructuras de manera tal que el resultado de este proceso sea una
correspondencia estructural entre ambos grafos.
La herramienta Optima utiliza la biblioteca de código abierto llamada Jena para analizar las
ontologías expresadas en diferentes lenguajes de ontologías (N3, RDF y OWL).
En la figura 3-7 se aprecia un ejemplo del funcionamiento de la herramienta:
Capítulo III. Estado del arte
32
Figura 3-7.Herramienta Óptima en ejecución.
(3-7a) (37-b) En la figura (3-7a) se muestra la herramienta en ejecución con dos ontologías. La figura (3-7b)
despliega el resultado del alineamiento de las dos ontologías, identificando a las entidades alineadas
en color azul.
Características
Optima realiza el mapeo de 2 ontologías en diferentes lenguajes para la representación de
ontologías (N3, RDF y OWL) en el idioma inglés. Esta herramienta utiliza la API de Jena la cual es un
framework para el desarrollo de aplicaciones para la Web Semántica (Jena, 2000) como recurso
externo para procesar ontologías en distintos lenguajes. Optima realiza comparaciones estructurales y
morfológicas de los conceptos, instancias, relaciones y propiedades de las ontologías. El resultado del
proceso de alineamiento es un grafo con las entidades mapeadas marcadas de color azul para su
reconocimiento.
Relevancia para el trabajo de investigación
Esta herramienta desarrollada por el autor utiliza la API de Jena para abordar ontologías
representadas en diferentes lenguajes; ésta API servirá para acceder a las ontologías que se
consulten y así explotar sus elementos ontológicos.
Referencia (Thanh Le, 2007). Dept. of Computer Science, University of Georgia, Georgia, Estados
Unidos de América.
Referencias relacionadas (Doshi, 2006).
3.2.3. OLA
Descripción
OLA es una herramienta desarrollada por (Euzenat, 2004a) para el alineamiento de ontologías
Capítulo III. Estado del arte
33
en OWL, centrándose en el lenguaje de OWL-Lite. En OLA se realizan alineamientos automáticos
entre entidades de 2 ontologías, también se pueden añadir alineamientos previos para hacer más
efectivo el proceso.
En el proceso de alineamiento de ontologías, OLA requiere un pequeño conjunto de
parámetros que hacen posible el alineamiento automático, estos parámetros son ingresados al inicio
del alineamiento.
El primer paso en el alineamiento con OLA, es obtener la similitud entre entidades de las
ontologías ingresadas. OLA realiza comparaciones léxicas de los términos encontrados en las
ontologías. El autor utiliza técnicas de aproximación semántica para obtener resultados más
satisfactorios por medio de los sinónimos contenidos en WordNet.
El siguiente paso del proceso es realizar una comparación estructural de las ontologías las
cuales son transformadas en grafos que los autores denominan OL-Graph.
Un OL-Graph es un grafo etiquetado donde sus vértices corresponden a entidades
encontradas en las ontologías (clases, objetos, relaciones, instancias, instancias de las propiedades,
tipos de datos, valores de los datos, restricciones de propiedades) y sus aristas son relaciones
definidas internamente por los autores. Estas relaciones utilizadas por OL-Graph son descritas a
continuación:
1. Especialización: éstas son únicamente entre clases y relaciones.
2. Instanciación: relaciones entre objetos y clases, instancias de las propiedades y
propiedades, tipo de datos y sus valores.
3. Atribución: éstas son dadas entre clases y propiedades, objetos e instancias de las
propiedades.
4. Restricción: expresa la restricción de la propiedad en la clase.
5. Evaluación: relaciones que representan una propiedad en un objeto.
Antes de la conversión de la ontología a OL-Graph todas sus entidades son extraídas para
crear conjuntos de entidades equitativas. A estos conjuntos de entidades se aplica una función de
similitud que cubre la mayor parte de las características para la obtención de la similitud entre
entidades par de la misma categoría.
1. La similitud de los términos usados para designar a cada entidad.
2. La similitud de los nodos vecinos en el OL-Graph respectivo debe estar vinculados con el otro
OL-Graph con las mismas relaciones.
3. La similitud de otras características descriptivas dependen de cada categoría.
La similitud de entidades pares depende de todas las similitudes obtenidas por sus conceptos vecinos.
Capítulo III. Estado del arte
34
Para obtener mejores resultados, los valores de las medidas de similitud obtenidos en las diferentes
etapas de alineamiento son normalizados. Esta normalización consiste en hacer una sumatoria de
todas las similitudes encontradas en cada categoría y dividirlas por el total de elementos contenidos
en dichas categorías.
Características
OLA realiza el mapeo de 2 ontologías descritas en OWL/DL para el idioma inglés. Se basa en
técnicas estructurales y terminológicas sobre las clases, relaciones, instancias, instancias de las
propiedades, tipos de datos, valores de los datos, restricciones de las propiedades. OLA utiliza
WordNet para extraer los sinónimos y compararlos con el término que evalúa esto para darle mayor
eficacia al proceso de alineamiento. El resultado del proceso es un resumen con las entidades
mapeadas con sus respectivos grados de similitud.
Relevancia para el trabajo de investigación
En el proyecto que presentan los autores definen una serie de relaciones existentes entre
entidades de las ontologías, estas relaciones se anotan cuando las ontologías ya fueron convertidas a
grafos con la finalidad de identificar de manera eficaz las entidades que son similares entre sí y de esa
forma hacer el proceso de alineamiento más efectivo.
Referencia (Euzenat, 2004a) INRIA Rhône-Alpes, Francia; Universidad de Montreal, Montreal,
Canadá.
3.2.3. Axiom-based ontology matching
Descripción
En (Furst, 2009) se presenta una herramienta que realiza alineamiento entre ontologías en
base a axiomas, se trata de un nuevo enfoque para el alineamiento y mapeo de entidades existentes
en ontologías. Este enfoque requiere que los axiomas estén explícitos en las ontologías que serán
procesadas de una forma conceptual no operacional como usualmente se realiza. Los autores utilizan
el lenguaje OCGL (Ontology Conceptual Graphs Language) para representar los axiomas
conceptuales. Este lenguaje está basado en teoría de grafos y lógica de primer orden para encontrar
homomorfismos entre grafos y mecanismos de razonamiento basado en grafos.
El método se basa en el uso de axiomas para descubrir semánticamente analogías entre
primitivas de las ontologías. Al encontrar estas analogías se realiza un cálculo de similitud entre los
conceptos o relaciones no-taxonómicas.
Para la representación de una ontología en OCGL consiste en especificar el vocabulario
conceptual y la semántica de ese vocabulario por medio de axiomas. Este vocabulario está compuesto
Capítulo III. Estado del arte
35
por conceptos, relaciones e instancias.
Características
La herramienta presentada en este artículo realiza mapeos entre dos ontologías en el lenguaje
para la representación de grafos y lógica de primer orden OCGL para el idioma en inglés. Las técnicas
utilizadas por la herramienta son estructurales, terminológicas y semánticas, se basa en conceptos,
relaciones e instancias así como de los axiomas conceptuales que deben ser definidos en las
ontologías que ingresen. El resultado final de la herramienta es un listado de conceptos y relaciones
con el coeficiente de similitud entre ambas entidades mapeadas.
Relevancia para el trabajo de investigación
Lo importante de este proyecto de investigación es el uso de la lógica de primer orden en la
tarea de la deducción de nuevos elementos en las ontologías.
Referencia (Furst et al., 2009). Laboratoire de Recherche en Informatique d’Amiens UPJV;
Laboratoire d’Informatique de Nantes Atlantique Cedex, Francia
Referencias (Furst et al., 2004).
3.3 Comparativa de trabajos presentados en el estado del arte
La comparativa de los trabajos revisados en esta investigación se divide en 2 etapas. La
primera de ellas aborda a los algoritmos utilizados para realizar las tareas de alineamiento y mapeo de
entidades candidatos existentes entre 2 o más ontologías. En la segunda etapa se evaluaron las
características generales de las herramientas y metodologías propuestas por los autores en el estado
del arte de la presente investigación.
3.3.1 Análisis de las características de algoritmos de alineamiento y mapeo de ontologías
El criterio de evaluación de las características de los algoritmos planteados por los trabajos
descritos en el estado del arte, se establecen a partir de las técnicas de alineamiento y de los
elementos que caracterizan a las ontologías las cuales están descritas en el marco teórico. Del trabajo
presentado por (Euzenat, 2004b).
Las técnicas que se evalúan son las siguientes: comparaciones estructurales, sintácticas y
semánticas que se derivan en otras características que son más precisas para su evaluación.
1. Las características de comparación estructural se basan en la taxonomía (T) la cual compete
a la evaluación de los superconceptos y subconceptos de la clase a calcular, como también
las de dominio y rango de propiedades (P-DR) y por último las de relaciones(R-DR) en ellas
Capítulo III. Estado del arte
36
se evalúan que exista un grado de similitud entre la estructura formada por los atributos y
conceptos de donde se derivan.
2. Las características de comparación sintáctica se derivan en comparaciones morfológicas
realizadas para obtener la distancia de dos cadenas de texto y se realiza sobre los conceptos
(C), las relaciones no taxonómicas (RNT), instancias (I) propiedades o atributos (P), por último
la estructura integrada por una tripleta RDF (RDF-Triple).
3. La última característica es la utilizada para desambiguar semánticamente un término. El uso
de lexicones (SL) que se usan para desambiguar el término por medio del significado de este,
las reglas (RS) las cuales se derivan nuevas propiedades que sirven para hacer este mapeo y
axiomas(AS).
3.3.2 Tabla de comparativa de las características de los algoritmos
La tabla 3-1 se basa en las métricas identificadas para la evaluación de los algoritmos de alineamiento
y mapeo de cada trabajo de investigación presentado en este documento.
Tabla 3-1. Características evaluadas de los algoritmos de alineamiento y mapeo de ontologías.
Tipo de Comparación
/ Trabajos
Enfoque Estructural Sintáctica Semántica
T P-DR R-DR C I RNT P RDF-Triple
SL RS AS
ASC03 (Thanh Le, 2007)
Basado en grafos
X - - X X X - - - - -
OPTIMA (Kolli et al., 2008)
X - - X X X X - - - -
OLA (Euzenat, 2004a)
X - - X X X X - - - -
TooCom (Furst et al., 2009)
X - - X X X - - - - X
MAF (Navas et al., 2007)
Tradicional X X - X X - X X - -
PowerMap (López et al.,
2006a)
X - - X X X X X X - -
FOAM (Erigh, 2005)
X X X X X X X X - - X
LOM (Li, 2004)
X - - X X X - - X - -
(Benslimane et al., 2007)
X X - X X X X - X - -
(Kwak, 2010) X X - X - - X - X - - TESIS - - - X X X X X X - -
Capítulo III. Estado del arte
37
3.3.3 Características de herramientas de alineamiento y mapeo de ontologías
La tabla 3-2 se divide en columnas y filas; donde las columnas representan cada una de las
características utilizadas para evaluar a las herramientas que se describen en el estado del arte.
Al comienzo de cada una de las filas se tiene a los trabajos evaluados. Las características
establecidas en la tabla 3-2 se describen a continuación:
1. Enfoque: principalmente para conocer el tipo proceso que utiliza en la solución del problema
de alineamiento de ontologías.
2. Entrada: indica los parámetros de entrada de la herramienta
3. Técnicas de alineamiento: para su evaluación se derivaron en los siguientes puntos:
a. Técnicas sintácticas: son las más utilizadas y se basan en el grado de similitud entre
dos conceptos utilizando para ello algoritmos de comparación de cadenas.
b. Técnicas de aproximación semántica: en este punto se utilizan recursos externos
para obtener otros términos con el mismo significado aunque morfológicamente
diferentes entre ellos.
c. Técnicas estructurales: se basa en la comparación de la taxonomía de la que está
compuesta la ontología, también se hacen comparaciones de superconceptos y
subconceptos así como del dominio y rango de las propiedades de la ontología.
d. Técnicas semánticas: estas utilizan motores de inferencia axiomas y reglas
establecidas de antemano en las ontologías para obtener algún resultado en el
proceso de mapeo.
e. Técnicas lingüísticas: en este apartado se consideran el uso de recursos tales
como corpus de texto los cuales sirven para evaluar los conceptos en el proceso de
mapeo por ocurrencias de los términos existentes en ellos.
4. Proceso del alineamiento: este punto es importante ya que se deduce el mecanismo que
utiliza para terminar con el proceso de alineamiento y que tan fiable se torna la herramienta.
5. Recursos externos: esta columna representa a los diferentes recursos externos utilizados
para ayudarse a complementar el alineamiento.
6. Idioma: se hace mención de ello, ya que en esta tesis se aborda el problema del alineamiento
de ontologías en dos idiomas.
7. Lenguaje de ontología: se utiliza para conocer el tipo de lenguaje que usa cada herramienta
ya que existe por lo menos una que aborda varios lenguajes de representación de ontologías.
8. Salida: importante señalar la salida del sistema para efectos de uso de la herramienta para un
usuario experto o no en el tema.
Capítulo III. Estado del arte
38
3.3.3 Tabla de comparativa de las herramientas de alineamiento y mapeo
Tabla 3-2. Comparativa de los sistemas de alineamiento y mapeo de ontologías.
Características /
Trabajos
Enfoque Entrada Técnicas Terminológicas Técnicas estructurales
Técnicas semánticas
Técnicas lingüísticas
Recursos externos
Idioma Lenguaje de
Ontología
Salida
T. Sintácticas
T. de aprox. semántica
ASC03 (Thanh Le, 2007)
Basado en grafos
2 ontologías Similitud léxica de términos
No utiliza Se busca isomorfismos entre los grafos
No utiliza No utiliza No utiliza Inglés OWL Grafo con entidades mapeadas
OPTIMA (Kolli et al., 2008)
2 ontologías Similitud léxica de entidades candidato
Extrae sinónimos de WordNet
Busca homomorfismo entre los grafos
No utiliza No utiliza WordNet y Jena
Inglés N3, RDF y OWL
Grafo con entidades mapeadas
OLA (Euzenat, 2004a)
2 ontologías Similitud léxica de términos
Extrae sinónimos de WordNet
Se realizan mapeos entre grafos verificando la estructura de las propiedades
No utiliza No utiliza WordNet Inglés OWL/ DL
Taxonomía de las ontologías con términos alineados remarcados de azul y archivo de alineamiento
TooCom (Furst et al., 2009)
2 ontologías (convertidas a OCGL)
Similitud léxica de términos
No utiliza Basada en la estructura del grafo
Utiliza axiomas conceptuales
No utiliza No utiliza Inglés OCGL Resumen de entidades mapeadas y el coeficiente de similitud
MAF (Navas et al.,
2007)
Tradicional
2 ontologías Similitud léxica de términos
Extrae sinónimos de EuroWordNet
Comparación de conceptos según el tipo de dato
No utiliza No utiliza WordNet Español OWL Tabla de entidades mapeadas con grado de confianza
PowerMap (López et al.,
2006a)
Múltiples ontologías y tripletas
Similitud léxica de términos
Extrae sinónimos de WordNet, hiponimos e hiperónimos de SUMO
Mapeo de superconceptos y subconceptos
No utiliza No utiliza WordNet y Sumo
Inglés OWL Resultados de tipo semántico
FOAM (Erigh, 2005)
Múltiples ontologías
Similitud léxica de términos
No utiliza Verifica la taxonomía de la ontología
Utiliza motor de inferencia
No utiliza Kaon2 Inglés OWL/ DL
Archivo con entidades alineadas y con el grado de similitud
Capítulo III. Estado del arte
39
LOM (Li, 2004)
Tradicional
2 ontologías Similitud léxica de términos
Extrae sinónimos de WordNet hiponimos e hiperónimos de SUMO y MILO
Mapeo de superconceptos y subconceptos
No utiliza No utiliza WordNet SUMO y MILO
Inglés OWL Tabla de entidades mapeadas con grado de confianza
(Benslimane et al., 2007)
Múltiples ontologías
Similitud léxica de términos
Extrae sinónimos de WordNet
Mapeo de superconceptos y subconceptos
No utiliza No utiliza OWLAPI, y Java WordNet Library
Inglés OWL Tabla de entidades mapeadas con grado de confianza
(Kwak, 2010) Múltiples ontologías
Similitud léxica de términos
Extrae sinónimos de WordNet de SWSS extrae hiponimos, hiperónimos, homónimos y merónimos
Mapeo de superconceptos y subconceptos
No utiliza No utiliza WordNet y SWSS
Inglés OWL Lista de entidades mapeadas con grado de confianza
TESIS Múltiples ontologías y tripletas
Similitud léxica de términos
Uso de WordNet y EuroWordNet
No utiliza No utiliza No utiliza WordNet, EuroWordNet, Jena
Español e Inglés
OWL Página Web con resultados adecuados para el usuario final
Capítulo IV. Metodología de solución
40
Capítulo 4. METODOLOGÍA DE SOLUCIÓN En este apartado se describe la metodología aplicada para dar solución al problema de la
presente investigación. Esta investigación forma parte de una herramienta de búsquedas semánticas
basadas en ontologías llamada ironLP (por sus siglas en Inglés information retrieval using
ontologies and natural language processing). El componente que se describe en esta sección es
el encargado de extraer la información implícita en las ontologías para responder a los
cuestionamientos que se realizan por medio de la introducción de tripletas.
Capítulo IV. Metodología de solución
41
4.1 Arquitectura general
El componente de extracción de información a partir de ontologías utiliza técnicas que son
aplicadas en el alineamiento de ontologías para obtener un resultado. Las dos técnicas de
alineamiento de ontologías utilizadas son la comparación léxico-sintáctica y la aproximación
semántica.
La tabla 4-1 describe los patrones de búsqueda identificados como entrada de la herramienta.
Tabla 4-1. Tipos de tripletas identificadas como entrada al sistema.
Ab. Tripletas Descripción
A [ Subject ?, Predicate, Object ] Extrae las instancias de la ontología que contengan una similitud satisfactoria con la relación y el rango de los términos en la tripleta de búsqueda.
B [Subject, Predicate, Object? ] Extrae las instancias de la ontología que contengan una similitud satisfactoria con la relación y el dominio de los términos en la tripleta de consulta.
C [ Subject , Predicate ?, Object ] Extrae las instancias de la ontología donde el dominio y rango de la tripleta de búsqueda se encuentran relacionados entre sí.
D [Subject?, Predicate, Object ? ] Extrae las instancias de la ontología que son relacionadas por el predicado.
E [ Subject, is-a, Object?] Extrae la clase de la que se deriva la instancia en la taxonomía (Ej: El clarinete, es un, instrumento musical).
F [ Subject ?, is-a, Object ] Extrae instancias de la clase y subclases de la clase que se introduce en el rango.
G [Subject, Predicate, Object ] Extrae las instancias de las ontologías a las que corresponda el sujeto relación y objeto de la tripleta ingresada para realizar la búsqueda.
Al hacer uso de recursos externos se tiene la posibilidad obtener un porcentaje más alto de
encontrar términos que no son sintácticamente iguales; pero si, en su significado al hacer uso de
sinónimos que ayudan a encontrar una relación entre estos elementos. Por lo tanto, se incluyen un
vector de sinónimos para cada elemento de la tripleta que tenga esta información contenida en las
bases de datos lexicográficas para enriquecer estos términos con otros elementos.
Este componente tiene 3 módulos los cuales se especifican en
representa de forma general la metodología de solución propuesta.
En la figura 4-1 se observa la metodología de solución en conjunto.
Figura 4-1. Metodología de solución para la extracción de información contenida en ontologías.
A continuación se describe brevemente el funcionamiento de cada unos de los módulos.
1. Extracción de términos: este módulo es el encargado de extraer información contenida en las
bases de datos léxico-gráficas de WordNet y EuroWordNet de cada término contenido de la
tripleta. También se realiza la identificación de cada término así como la asignación de sinónimo
al término correspondiente.
2. Extracción y mapeo de ontologías:
contenidos en las ontologías (clases, relaciones e instancias). Estos elementos ontológicos son
utilizados para realizar mapeos entre
alineamiento de ontologías (sintácticas y de aproximación semántica).
3. Resultado de mapeo de ontologías y tripletas:
únicamente las tripletas completas que
búsqueda del usuario.
Capítulo IV. Metodología de solución
Este componente tiene 3 módulos los cuales se especifican en la figura 4
representa de forma general la metodología de solución propuesta.
se observa la metodología de solución en conjunto.
Metodología de solución para la extracción de información contenida en ontologías.
A continuación se describe brevemente el funcionamiento de cada unos de los módulos.
este módulo es el encargado de extraer información contenida en las
gráficas de WordNet y EuroWordNet de cada término contenido de la
tripleta. También se realiza la identificación de cada término así como la asignación de sinónimo
Extracción y mapeo de ontologías: se encuentra destinado a la extracción de los elementos
contenidos en las ontologías (clases, relaciones e instancias). Estos elementos ontológicos son
utilizados para realizar mapeos entre los términos de las tripletas mediante el uso de técnicas de
alineamiento de ontologías (sintácticas y de aproximación semántica).
Resultado de mapeo de ontologías y tripletas: el último módulo se encarga de extraer
únicamente las tripletas completas que contengan información concerniente al contexto de la
Capítulo IV. Metodología de solución
42
la figura 4-1 donde se
Metodología de solución para la extracción de información contenida en ontologías.
A continuación se describe brevemente el funcionamiento de cada unos de los módulos.
este módulo es el encargado de extraer información contenida en las
gráficas de WordNet y EuroWordNet de cada término contenido de la
tripleta. También se realiza la identificación de cada término así como la asignación de sinónimos
se encuentra destinado a la extracción de los elementos
contenidos en las ontologías (clases, relaciones e instancias). Estos elementos ontológicos son
los términos de las tripletas mediante el uso de técnicas de
el último módulo se encarga de extraer
ontengan información concerniente al contexto de la
Capítulo IV. Metodología de solución
43
4.1.1 Extracción de términos
El primer módulo llamado “extracción de términos” identifica cada uno de los elementos de la
tripleta así como su incógnita. Esta identificación se realiza para establecer la posición de la incógnita
o incógnitas dentro de la tripleta así como del tipo de elemento que es ingresado en ella. El desarrollo
del ejemplo que se utiliza para enseñar el funcionamiento de la metodología de solución está basado
en los patrones de búsqueda G, G y B de la tabla 4-1.
En la tabla 4-2 se aprecian las tripletas de entrada que recibe el prototipo generado de esta tesis.
Tabla 4-2. Entrada del prototipo para la búsqueda de información en ontologías.
[ comunicaron, argumento1, la Agencia Meteorológica Japonesa ][ comunicaron, argumento2, temblor ][ temblor, espacio, x ? ]
Posteriormente se realiza un conteo del número de tripletas ingresadas así como la validación
de éstas. Este punto del proceso identifica el número de tripletas que se ingresaron como se aprecia
en la tabla 4-3.
Tabla 4-3. Conteo de tripletas ingresadas.
1. [ comunicaron, argumento1, la Agencia Meteorológica Japonesa ]
2. [ comunicaron, argumento2, temblor ]
3. [ temblor, espacio, x ? ]
Número de tripletas ingresadas: 3
El módulo de “extracción de términos” identifica al elemento que contiene la tripleta o tripletas
anidadas incluyendo la incógnita que se desea encontrar como se muestra en la tabla 4-4.
Tabla 4-4. Identificación de elementos contenidos en las tripletas de entrada.
1. [ comunicaron, argumento1, la Agencia Meteorológica Japonesa ]
1.1 Sujeto : comunicaron
1.2 Predicado: argumento1
1.3 Objeto: la Agencia Meteorológica Japonesa
Capítulo IV. Metodología de solución
44
2. [ comunicaron, argumento2, temblor ]
2.1 Sujeto : comunicaron
2.2 Predicado : argumento2
2.3 Objeto: temblor
3. [ temblor, espacio, x ? ]
3.1 Sujeto: temblor
3.2 Predicado : espacio
3.3 Incógnita: x ?
En esta etapa del módulo de “extracción de términos” se procede a identificar la categoría
gramatical a la que corresponde cada uno de los términos contenidos en las tripletas. El etiquetador
TreeTagger realiza la identificación de la categoría gramatical y se procede a extraer el verbo o
nombre común que identifica el etiquetador.
En la tabla 4-5 se detalla la acción que sucede en esta parte de la metodología de solución propuesta.
Tabla 4-5. Identificación de la categoría gramatical de los términos existentes con TreeTagger.
1. [ comunicaron, argumento1, la Agencia Meteorológica Japonesa ]
1.1 Sujeto : comunicaron
1.1.1 Categoría gramatical: verbo en infinitivo ( VLfin )
1.1.1.1 Verbo: comunicar
1.1.2 Stop Words: no contiene
1.1.3 Cadena final: comunicar
1.2 Predicado: argumento1
1.2.1 Categoría gramatical: desconocida
1.2.2 Stop Words: no contiene
1.2.3 Cadena final: argumento 1
1.3 Objeto: la Agencia Meteorológica Japonesa
1.3.1 Categoría gramatical: desconocida
1.1.1 Stop Words: la
1.1.1 Cadena final: agencia meteorológica japonesa
2. [ comunicaron, argumento2, temblor ]
Capítulo IV. Metodología de solución
45
2.1 Sujeto : comunicaron
2.1.1 Categoría gramatical: Verbo en infinitivo ( VLfin )
2.1.1.1 Verbo: comunicar
1.3.2 Stop Words: no contiene
2.1.2 Cadena final: comunicar
2.2 Predicado : argumento2
2.2.1 Categoría gramatical: desconocida
2.3 Objeto: temblor
2.3.1 Categoría gramatical: es identificado como un nombre común (NC)
2.3.1.1 Nombre común: temblor
1.3.3 Stop Words: no contiene
2.3.2 Cadena final: temblor
3. [ temblor, espacio, x ? ]
3.1 Sujeto: temblor
3.1.1 Categoría gramatical: es identificado como un nombre común (NC)
3.1.1.1 Nombre común: temblor
1.3.4 Stop Words: no contiene
3.1.2 Cadena final: temblor
3.2 Predicado: espacio
3.2.1 Categoría gramatical: es identificado como un nombre común (NC)
3.2.1.1 Nombre común: espacio
1.3.5 Stop Words: no contiene
3.2.2 Cadena final: espacio
3.3 Incógnita: x ?
3.4 Categoría gramatical: desconocida
El siguiente paso del módulo de “extracción de información” consiste en extraer de las bases
de datos lexicográficas los sinónimos y verbos relacionados de los términos identificados en las
tripletas como un nombre común o un verbo. Para obtener los sinónimos de los términos en Español
se utiliza la base de datos EuroWordNet. Los resultados obtenidos se agrupan agregando a cada
término los sinónimos y verbos relacionados que son encontrados en EuroWordNet. En las tripletas
ingresadas por lo menos una debe existir una incógnita.
En la tabla 4-6 se establece el ejemplo de la acción que se realiza en este paso de la
metodología de solución propuesta basados en lo patrones G, G y B de la tabla 4-1.
Capítulo IV. Metodología de solución
46
Tabla 4-6. Enriquecimiento de términos mediante sinónimos obtenidos de EuroWordNet.
1. [ comunicaron, argumento1, la Agencia Meteorológica Japonesa ]
1.1 Sujeto : comunicaron
1.1.1 Categoría gramatical: verbo en infinitivo ( VLfin )
1.1.1.1 Verbo: comunicar
1.3.6 Stop Words: no contiene
1.1.2 Cadena final: comunicar
1.1.3 Sinónimos: avisar, declarar, informar, manifestar, notificar, participar, prevenir,
revelar, significar, anunciar, contagiar, contaminar, infectar, inficionar, inocular,
transmitir, dar, impartir, ofrecer.
1.2 Predicado: argumento1
1.2.1 Categoría gramatical: desconocida
1.3.7 Stop Words: no contiene
1.3.8 Cadena final: argumento 1
1.3 Objeto: la Agencia Meteorológica Japonesa
1.3.1 Categoría gramatical: desconocida
1.1.2 Stop Words: la
1.3.2 Cadena final: agencia meteorológica japonesa
2. [ comunicaron, argumento2, temblor ]
2.1 Sujeto: comunicaron
2.1.1 Categoría gramatical: Verbo en infinitivo ( VLfin )
2.1.1.1 Verbo: comunicar
1.3.9 Stop Words: no contiene
2.1.2 Cadena final: comunicar
2.1.3 Sinónimos: avisar, declarar, informar, manifestar, notificar, participar, prevenir,
revelar, significar, anunciar, contagiar, contaminar, infectar, inficionar, inocular,
transmitir, dar, impartir, ofrecer.
2.2 Predicado : argumento2
2.2.1 Categoría gramatical: desconocida
1.3.10 Stop Words: no contiene
1.3.11 Cadena final: argumento 1
2.3 Objeto: temblor
2.3.1 Categoría gramatical: es identificado como un nombre común ( NC )
Capítulo IV. Metodología de solución
47
2.3.1.1 Nombre común: temblor
1.3.12 Stop Words: no contiene
2.3.2 Cadena final: temblor
2.3.3 Sinónimos: sismo, terremoto, agitación, bailable, bailoteo, brinco, cabriola,
coreografía, danza, jaleo, meneo, movimiento, pantomima, representación,
retozo, estremecimiento, sacudida, temblor
3. [ temblor, espacio, x ? ]
3.1 Sujeto: temblor
3.1.1 Categoría gramatical: es identificado como un nombre común ( NC )
3.1.1.1 Nombre común: temblor
1.3.13 Stop Words: no contiene
3.1.2 Cadena final: temblor
3.1.3 Sinónimos: sismo, terremoto, agitación, bailable, bailoteo, brinco, cabriola,
coreografía, danza, jaleo, meneo, movimiento, pantomima, representación,
retozo, estremecimiento, sacudida, temblor
3.2 Predicado : espacio
3.2.1 Categoría gramatical: es identificado como un nombre común ( NC )
3.2.1.1 Nombre común: espacio
1.3.14 Stop Words: no contiene
3.2.2 Cadena final: espacio
3.3 Incógnita: x ?
3.4 Categoría gramatical: desconocida
Las tripletas ingresadas dentro de la herramienta por lo menos en una tripleta debe existir una
incógnita y como máximo 2 en la misma. La incógnita de la tripleta es el elemento que se requiere
conocer o por el cual se pregunta.
4.1.2 Extracción y mapeo de ontologías
El segundo módulo denominado “Extracción y mapeo de ontologías” es el encargado de
extraer las ontologías necesarias para realizar la búsqueda de información. Este módulo también
extrae los elementos de la ontología; es decir; extrae las instancias, relaciones y clases de la ontología
con la finalidad de realizar mapeos entre los elementos de las tripletas ingresadas.
La extracción de los elementos contenidos en la ontología se realiza con la API de JENA
desarrollada en los laboratorios de semánticos de HP por (McBride, 2002). El mapeo de estos
Capítulo IV. Metodología de solución
48
elementos se determina por el grado de similitud del elemento de la ontología y el término de la
tripleta, esto con el objetivo de obtener un grado de confianza de las cadenas que va desde 0 hasta 1.
El resultado obtenido en la comparación de cadenas de texto se realiza con los algoritmos
(Levensthein,1965), (Needleman&Wunsch, 1970) y (Monge&Elkan, 1996) y se encuentran
implementadas dentro de la librería SimMetric desarrollada por (Chapman, 2005). A continuación de
describen los elementos necesarios para la implementación de cada algoritmo en la herramienta:
1. El algoritmo que se utiliza en cadenas pequeñas de un máximo de 5 caracteres es el
algoritmo de (Levenshtein, 1965) el cual se usa para comparar clases e instancias y
relaciones.
2. El siguiente algoritmo es el de (Nedleman & Wunch, 1970) implementado en la mayoría de las
relaciones e instancias que tiene una longitud mayor a 5 y de no más de 14 caracteres de
longitud.
3. El último algoritmo es el de (Monge&Elkan, 1996) en donde se usa para calcular sobre
cadenas con longitudes mayores a 14 caracteres.
Se utilizan diferentes umbrales para comparar y extraer la información contenida en las
ontologías. En la tabla 4-7 se especifican los umbrales y el elemento ontológico al cual se aplican:
Tabla 4-7. Elementos ontológicos y umbrales establecidos.
Elemento Umbral
Clase .90
Relación .80
Instancia .70
En este módulo se leen las ontologías que se encuentran clasificadas por dominio y
subdominio en la base de datos en donde se encuentran guardadas las direcciones de las ontologías
dentro del repositorio.
En todos los patrones de búsqueda que se describen en la tabla 4-1 se realizan
comparaciones sintácticas de los términos contenidos en las tripletas y los elementos de la ontología
de forma directa haciendo una correspondencia en el tipo de elemento a comparar. Si el resultado de
esa comparación es menor al umbral definido en la tabla 4-7 se procede a comparar el elemento de la
ontología correspondiente con los elementos contenidos en los vectores de sinónimos de cada
Capítulo IV. Metodología de solución
49
término de las tripletas, esto se hace, hasta encontrar un elemento que tenga un grado de similitud por
arriba del umbral definido y se considere como una respuesta correcta.
Siguiendo con el ejemplo del módulo de “extracción de términos” de la tabla 4-5 se realiza el
mapeo de los términos contenidos en las tripletas con los existentes en las ontologías.
En la tabla 4-8 se aprecia la información contenida en la ontología la cual tiene una estructura
que se deriva de (Reyes, 2011) que debe ser mapeada correctamente para extraer la respuesta a la
consulta ingresada de la tabla 4-2 la respuesta que se desea obtener es la instancia de la tripleta 3 en
la posición del objeto.
Tabla 4-8. Información contenida en la ontología de búsqueda.
1. [ anunció, argumento 1, la agencia meteorológica japonesa]
2. [ anunció argumento 2 sismo]
3. [ sismo, espacio, epicentro a 66 km al este de Sendai y a una profundidad de 256 km ]
Los elementos ontológicos se tratan para eliminar palabras comúnmente conocidas como
“palabras vacías” (ver anexo A). con la finalidad de encontrar el verbo en las instancias que se utilizan
como relaciones. El reconocimiento de las categorías gramaticales se realiza por medio del
etiquetador TreeTagger que es una herramienta de etiquetado gramatical desarrollado por (Schmid,
1994) para realizar anotaciones de texto basado en árboles de decisión.
En la tabla 4-9 se muestra un ejemplo del procesamiento previo de los elementos ontológicos para realizar el mapeo de estos con los términos de las tripletas.
Tabla 4-9. Tratamiento de elementos ontológicos.
1. [ anunció, argumento 1, la agencia meteorológica japonesa]
1.1 Sujeto: anunció
1.1.1 Elemento: Instancia
1.1.2 Categoría gramatical: no encontrada por TreeTagger
1.1.3 Stop Words: no contiene
1.1.4 Cadena final: anunció
1.2 Predicado: argumento1
1.2.1 Categoría gramatical: no encontrada por TreeTagger
1.2.2 Elemento: Instancia de relación
Capítulo IV. Metodología de solución
50
1.2.3 Stop Words: no contiene
1.2.4 Cadena final: argumento1
1.3 Objeto: la agencia meteorológica japonesa
1.3.1 Elemento: Instancia
1.3.2 Categoría gramatical: no encontrada por TreeTagger
1.3.3 Stop Words: la
1.3.4 Cadena final: agencia meteorológica japonesa
2. [ anunció, argumento 2, sismo]
2.1 Sujeto: anunció
2.1.1 Elemento: Instancia
2.1.2 Categoría gramatical: no encontrada por TreeTagger
2.1.3 Stop Words: no contiene
2.1.4 Cadena final: anunció
2.2 Predicado: argumento 2
2.2.1 Categoría gramatical: no encontrada por TreeTagger
2.2.2 Elemento: Instancia de relación
2.2.3 Stop Words: no contiene
2.2.4 Cadena final: argumento 2
2.3 Objeto: sismo
2.3.1 Elemento: Instancia
2.3.2 Categoría gramatical: nombre común (NC)
2.3.2.1 Nombre común: sismo
2.3.3 Stop Words: no contiene
2.3.4 Cadena final: sismo
3. [ sismo, espacio, epicentro a 66 km al este de Sendai y a una profundidad de 256 km ]
3.1 Sujeto: sismo
3.1.1 Elemento: Instancia
3.1.2 Categoría gramatical: nombre común
3.1.2.1 Nombre común: sismo
3.1.3 Stop Words: no contiene
3.1.4 Cadena final: sismo
3.2 Predicado: espacio
Capítulo IV. Metodología de solución
51
3.2.1 Categoría gramatical: nombre común (NC)
3.2.1.1 Nombre común: espacio
3.2.2 Elemento: Instancia de relación
3.2.3 Stop Words: no contiene
3.2.4 Cadena final: espacio
3.3 Objeto: epicentro a 66 km al este de Sendai y a una profundidad de 256 km
3.3.1 Elemento: Instancia
3.3.2 Categoría gramatical: no encontrada por TreeTagger
3.3.3 Stop Words: a, al, este, de, y, una.
3.3.4 Cadena final: epicentro 66 km Sendai profundidad 256 km
La tripleta 1 de la ontología es la primera en ser mapeada con los términos de la tripleta 1 de la consulta del usuario que se específico en la tabla 4-2.
En la tabla 4-10 se desarrolla el ejemplo del mapeo de la tripleta contenida en la ontología junto al tratamiento previo que se realizó con la tripleta de búsqueda 1 descrita en la tabla 4-3.
Tabla 4-10. Mapeo de términos de la tripleta de búsqueda número 1.
1. [ anunció, argumento 1, la agencia meteorológica japonesa]
1.1 Sujeto: anunció
1.1.1 Cadena final: anunció
1.2 Predicado: argumento1
1.2.1 Cadena final: argumento1
1.3 Objeto: la agencia meteorológica japonesa
1.3.1 Cadena final: agencia meteorológica japonesa
2. [ comunicaron, argumento1, la Agencia Meteorológica Japonesa ]
2.1 Sujeto : comunicaron
2.1.1 Cadena final: comunicar
2.1.2 Sinónimos: avisar, declarar, informar, manifestar, notificar, participar, prevenir,
revelar, significar, anunciar, contagiar, contaminar, infectar, inficionar, inocular,
transmitir, dar, impartir, ofrecer.
2.2 Predicado: argumento1
2.2.1 Cadena final: argumento 1
2.3 Objeto: la Agencia Meteorológica Japonesa
2.3.1 Cadena final: agencia meteorológica japonesa
Capítulo IV. Metodología de solución
52
En esta fase del módulo de “selección de entidades” se realizan los mapeos
correspondientes con las cadenas finales obtenidas en cada uno de los tratamientos previos de
cada elemento. Se reestructuran las tripletas con las cadenas finales obtenidas quedando de la
siguiente manera:
1. Tripleta de la ontología:[ anunció, argumento 1, agencia meteorológica japonesa]
2. Tripleta de búsqueda:[ comunicar, argumento 1, agencia meteorológica japonesa ]
Análisis de comparación sintáctica y de aproximación semántica.
El siguiente paso es la obtención del grado de similitud sintáctica de cada par de términos
de ambas tripletas.
1. [ anunció, argumento 1, agencia meteorológica japonesa]
2. [ comunicar, argumento 1, agencia meteorológica japonesa ]
En el caso donde la tripleta corresponde al patrón G de búsqueda se comienza por el
mapeo de la relación para obtener la similitud de esta.
1. [ anunció, argumento 1, agencia meteorológica japonesa]
2. [ comunicar, argumento 1, agencia meteorológica japonesa ]
El grado de similitud obtenido por el algoritmo (Needleman&Wunch,1970) implementado
es de 1.0.
El segundo elemento que se utiliza para el mapeo es el contenido en la posición del sujeto.
1. [ anunció, argumento 1, agencia meteorológica japonesa ]
2. [ comunicar, argumento 1, agencia meteorológica japonesa ]
El grado de similitud obtenido por el algoritmo (Needleman&Wunch,1970) implementado
es de 0.61 el cual es un grado muy bajo de confianza y no es suficiente para el umbral definido
para este elemento; en este punto se realiza la comparación sintáctica de los sinónimos que se
obtuvieron en el módulo de ”Extracción de términos” de las tripletas de búsqueda.
En el vector de sinónimos del término “comunicar” de la tripleta de búsqueda se encuentra
el verbo “anunciar” el cual se compara sintácticamente con el verbo contenido en la tripleta de la
Capítulo IV. Metodología de solución
53
ontología, el valor que se obtiene es de 0.81 donde el grado de confianza para las relaciones es
satisfactorio. Se reformula la tripleta la cual queda de la siguiente manera
1. [ anunció, argumento 1, agencia meteorológica japonesa ]
2. [ anunciar, argumento 1, agencia meteorológica japonesa ]
El último grado de similitud obtenido es el del objeto de ambas tripletas. El algoritmo
utilizado es (Monge&Elkan,1996) ya que este algoritmo otorga una mejor respuesta en el grado de
confianza que calcula en cadenas mayores a 12 caracteres.
1. [ anunció, argumento 1, agencia meteorológica japonesa]
2. [ anunciar, argumento 1, agencia meteorológica japonesa ]
El algoritmo genera como resultado un grado de confianza de 1.0 lo que permite
seleccionar la tripleta de la ontología como una respuesta correcta.
Resultados:
[ anunció, argumento 1, agencia meteorológica japonesa ]
Esta tripleta se agrega al vector de resultados correspondientes a la primera tripleta de búsqueda.
En la tabla 4-11 se desarrolla el ejemplo en el mapeo de la tripleta de búsqueda 2 con los
elementos que conforman una tripleta dada por sujeto, predicado y objeto de la ontología.
Tabla 4-11. Mapeo de términos de la tripleta de búsqueda número 2.
1. [ anunció, argumento 2, sismo]
1.1 Sujeto: anunció
1.1.1 Cadena final: anunció
1.2 Predicado: argumento 2
1.2.1 Cadena final: argumento 2
1.3 Objeto: sismo
1.3.2 Cadena final: sismo
2. [ comunicaron, argumento2, temblor ]
2.1 Sujeto: comunicaron
2.1.1 Cadena final: comunicar
Capítulo IV. Metodología de solución
54
2.1.2 Sinónimos: avisar, declarar, informar, manifestar, notificar, participar, prevenir,
revelar, significar, anunciar, contagiar, contaminar, infectar, inficionar, inocular,
transmitir, dar, impartir, ofrecer.
2.2 Predicado : argumento2
1.3.15 Cadena final: argumento 1
2.3 Objeto: temblor
2.3.1 Cadena final: temblor
2.3.2 Sinónimos: sismo, terremoto, agitación, bailable, bailoteo, brinco, cabriola,
coreografía, danza, jaleo, meneo, movimiento, pantomima, representación,
retozo, estremecimiento, sacudida, temblor
En esta fase del módulo de “selección de entidades” se realizan los mapeos
correspondientes con las cadenas finales obtenidas en cada uno de los tratamientos previos de
cada elemento. Se reestructuran las tripletas con las cadenas finales obtenidas quedando de la
siguiente manera:
1. Tripleta de la ontología: [ anunció, argumento 2, sismo ]
1. Tripleta de búsqueda: [ comunicaron, argumento2, temblor ]
Análisis de comparación sintáctica y de aproximación semántica.
El siguiente paso es la obtención del grado de similitud sintáctica de cada par de términos
de ambas tripletas.
1. [ anunció, argumento 2, sismo ]
2. [ comunicar, argumento 2, temblor ]
En el caso donde la tripleta corresponde al patrón G de búsqueda se comienza por el
mapeo de la relación para obtener la similitud de ésta.
1. [ anunció, argumento 2, sismo ]
2. [ comunicar, argumento 2, temblor ]
El grado de similitud obtenido por el algoritmo (Needleman&Wunch, 1970) implementado
es de 1.0.
El segundo elemento que se utiliza para el mapeo es el contenido en la posición del sujeto.
Capítulo IV. Metodología de solución
55
1. [ anunció, argumento 2, sismo ]
2. [ comunicar, argumento 2,temblor ]
El grado de similitud obtenido por el algoritmo (Needleman&Wunch,1970) implementado
es de 0.61 el cual es un grado muy bajo de confianza; en este punto se realiza la comparación
sintáctica de los sinónimos que se obtuvieron en el módulo de ”extracción de términos” de las
tripletas de búsqueda.
En el vector de sinónimos del término “comunicar” de la tripleta de búsqueda se encuentra
el verbo “anunciar” el cual se compara sintácticamente con el verbo contenido en la tripleta de la
ontología, el valor que se obtiene es de 0.81 donde el grado de confianza para las relaciones es
satisfactorio. Se reformula la tripleta la cual queda de la siguiente manera
1. [ anunció, argumento 2, sismo ]
2. [ anunciar, argumento 2, temblor ]
El último grado de similitud obtenido es el del objeto de ambas tripletas. El algoritmo
utilizado es el algoritmo de (Levenshtein, 1965) ya que existe una cadena de texto de sólo 5
caracteres y el algoritmo genera mejores resultados en este tipo de cadenas.
1. [ anunció, argumento 1, sismo ]
2. [ anunciar, argumento 1, temblor ]
El algoritmo de (Levenshtein, 1965) genera como resultado un grado de confianza de
0.142 y no cumple con el umbral establecido para ser seleccionado como una respuesta correcta.
Para obtener un mejor resultado se realiza la comparación sintáctica de los sinónimos que se
obtuvieron en el módulo de “extracción de términos” de las tripletas de búsqueda.
En el vector de sinónimos del término “temblor” de la tripleta de búsqueda se encuentra el
sinónimo “sismo” el cual se compara sintácticamente con el término contenido en la tripleta de la
ontología, el valor que se obtiene es de 1.0. Se reformula la tripleta la cual queda de la siguiente
manera:
1. [ anunció, argumento 1, sismo ]
2. [ anunciar, argumento 1, sismo ]
Capítulo IV. Metodología de solución
56
Resultados:
[ anunció, argumento 2, sismo ]
Este resultado se agrega al vector de resultados correspondientes a la segunda tripleta de
búsqueda.
En la tabla 4-12 se realiza la extracción de la información en la ontología a partir de la tripleta
número 3 la cual se identifica por el patrón B de las tripletas de búsqueda que contiene la incógnita
en el objeto de la tripleta.
Tabla 4-12. Mapeo de términos de la tripleta de búsqueda número 3.
1. [ sismo, espacio, epicentro a 66 km al este de Sendai y a una profundidad de 256 km ]
1.1 Sujeto: sismo
1.1.1 Cadena final: sismo
1.2 Predicado: espacio
1.2.1 Cadena final: espacio
1.3 Objeto: epicentro a 66 km al este de Sendai y a una profundidad de 256 km
1.3.1 Cadena final: epicentro a 66 km al este de Sendai y a una profundidad de 256
km
1. [ temblor, espacio, x ? ]
1.1 Sujeto: temblor
1.1.1 Cadena final: temblor
1.1.2 Sinónimos: sismo, terremoto, agitación, bailable, bailoteo, brinco, cabriola,
coreografía, danza, jaleo, meneo, movimiento, pantomima, representación,
retozo, estremecimiento, sacudida, temblor
1.2 Predicado : espacio
1.2.1 Cadena final: espacio
1.3 Incógnita: x ?
1.4 Categoría gramatical: desconocida
En esta fase del módulo de “selección de entidades” se realizan los mapeos
correspondientes con las cadenas finales obtenidas en cada uno de los tratamientos previos de
Capítulo IV. Metodología de solución
57
cada elemento. Se reestructuran las tripletas con las cadenas finales obtenidas quedando de la
siguiente manera:
1. Tripleta de la ontología: [ sismo, espacio, epicentro a 66 km al este de Sendai y a una
profundidad de 256 km ]
2. Tripleta de búsqueda: [ temblor, espacio, x ? ]
Análisis de comparación sintáctica y de aproximación semántica.
El siguiente paso es la obtención del grado de similitud sintáctica de cada par de términos
de ambas tripletas sin comparar el elemento la incógnita.
1. [ sismo, espacio,
2. [ temblor, espacio, x ? ]
En el caso donde la tripleta corresponde al patrón B de búsqueda se comienza por el
mapeo de la relación para obtener la similitud de ésta.
1. [ sismo, espacio,
2. [ temblor , espacio, temblor ]
El grado de similitud obtenido por el algoritmo (Needleman&Wunch, 1970) implementado
es de 1.0.
El segundo elemento que se utiliza para el mapeo es el contenido en la posición del sujeto.
1. [ sismo, espacio,
2. [ temblor, espacio, x ?]
El algoritmo de (Levenshtein, 1965) genera como resultado un grado de confianza de
0.142 y no cumple con el umbral establecido para ser seleccionado como una respuesta correcta.
Para obtener un mejor resultado se realiza la comparación sintáctica de los sinónimos que se
obtuvieron en el módulo de “extracción de términos” de las tripletas de búsqueda.
En el vector de sinónimos del término “temblor” de la tripleta de búsqueda se encuentra el
sinónimo “sismo” el cual se compara sintácticamente con el término contenido en la tripleta de la
ontología, el valor que se obtiene es de 1.0. Se reformula la tripleta la cual queda de la siguiente
manera.
epicentro a 66 km al este de Sendai y a una profundidad de 256 km]
epicentro a 66 km al este de Sendai y a una profundidad de 256 km]
epicentro a 66 km al este de Sendai y a una profundidad de 256 km]
Capítulo IV. Metodología de solución
58
1. [ sismo, espacio,
2. [ sismo, espacio, x ?]
El último paso a realizar en este proceso es el seleccionar la tripleta bien formada de
ontología y marcar el objeto de la misma para contestar a la incógnita que contiene la
1. [ sismo, espacio,
Resultados:
[ sismo, espacio,
Esta tripleta se agrega al vector de resultados correspondientes a la segunda tripleta de
búsqueda.
Todas las tripletas que contengan resultados son vectorizados. Estos resultados se extraen en
la forma sujeto, predicado, objeto con la finalidad de eliminar la incógnita y ofrecer una tripleta
completa sin contener ningún elemento faltante. Con la finalidad de cumplir la respuesta a la consulta
ingresada en la tabla 4-2. El último módulo se encarga de filtrar los resultados para presentarlos
adecuados a la consulta del usuario.
4.1.3 Resultado de mapeo de ontologías
Los resultados son obtenidos de la salida del módulo de extracción y mapeo de ontologías los
cuales se encuentran sin depurar. La depuración de resultados consiste en comparar el número de
tripletas ingresadas en la búsqueda con el numero de tripletas encontradas en las ontologías las
cuales deben ser iguales o mayores a las ingresadas. Esto se hace para no dar respuestas
incorrectas si una ontología no cumple con el número de respuestas (tripletas completas) sus
resultados no son visualizados por la herramienta.
El filtro de resultados es un módulo que permite la extracción correcta de los elementos que
deben ser extraídos a partir de la consulta del usuario.
En la tabla 4-13 se muestra un ejemplo del funcionamiento del filtro de resultados el cual se
basa en el agrupamiento de elementos de los términos comunes.
epicentro a 66 km al este de Sendai y a una profundidad de 256 km]
epicentro a 66 km al este de Sendai y a una profundidad de 256 km ]
epicentro a 66 km al este de Sendai y a una profundidad de 256 km ]
Capítulo IV. Metodología de solución
59
Tabla 4-13. Filtro de resultados de la consulta.
1. [ comunicaron, argumento1, la agencia meteorológica japonesa ]
1.1 [ anunció, argumento 1, la agencia meteorológica japonesa]
2. [ comunicaron, argumento2, temblor ]
2.1 [ anunció argumento 2, sismo ]
3. [ temblor, espacio, x ? ]
3.1 [ sismo, espacio, epicentro a 66 km al este de Sendai y a una profundidad de 256
km ]
El filtro compara los resultados vectorizados de cada tripleta de la consulta con la
siguiente en la posicion del sujeto y objeto hasta encontrar el elemento que es igual a él.
1. [ anunció, argumento 1, la agencia meteorológica japonesa ]
2. [ anunció, argumento 2, sismo ]
3. [ sismo, espacio, epicentro a 66 km al este de Sendai y a una profundidad de 256 km
]
En la tabla 4-14 se describe el algoritmo que se utiliza para realizar la búsqueda de información por
medio de tripletas en las ontologías objetivo.
Tabla 4-14. Algoritmo utilizado para la extracción de información contenida en ontologías.
Sea A el conjunto de tripletas de la ontología.
B el conjunto de elementos que se van a buscar.
C el conjunto vacío.
1. Seleccione un elemento x de B
2. Seleccione un elemento y de A.
2.1 z = búsqueda(x,y)
2.2 C = C + z
3. Se repiten los pasos 1-2 hasta terminar con los elementos de B.
4. Si C es subconjunto de A, entonces la búsqueda es correcta.
Capítulo V. Pruebas
60
Capítulo 5. PRUEBAS En este capítulo se presentan las pruebas que fueron realizadas conforme al estándar IEEE 829-1998.
En él se describe la hipótesis presentada, convención de nombres a utilizar, plan de pruebas, pruebas
realizadas, análisis de los resultados y las pruebas fallidas.
Capítulo V. Pruebas
61
5.1 Hipótesis
La extracción de información contenida en ontologías de esta investigación, se basa en la
identificación de patrones de consulta por medio de tripletas, éstas se ingresan para la recuperación
de información y debe contener por lo menos una incógnita en alguna de las tripletas o tripleta
ingresadas. Esta incógnita contenida en la tripleta es el término que se desconoce el cual será
identificado en la ontología para extraer la tripleta bien formada (sin incógnitas). Esta tripleta otorga la
suficiente información para extraer el término faltante. La información que se desea extraer de las
tripletas anidadas debe estar ligada por lo menos por un término del dominio o rango en las demás
tripletas.
5.2 Convención de nombres
En la tabla 5-1 se definen los nombres que se utilizan para cada prueba definida por los
patrones que se identificaron para la extracción de información.
Tabla 5-1. Convención de nombres utilizado en las pruebas del prototipo.
Abreviatura Descripción
MapTool Herramienta de mapeo.
En Pruebas para el idioma Inglés.
Es Pruebas en el idioma Español.
Triple Tripletas en el orden sujeto, predicado y objeto.
A Extrae las instancias del dominio que cumplan con el rango y la relación.
B Extrae las instancias del rango que cumplan con el dominio y la relación.
C Extrae las instancias que son relacionadas por el predicado.
D Extrae las instancias del dominio y rango que se encuentren relacionadas entre sí.
E Extrae la clase de la que se deriva la instancia en la taxonomía.
F Extrae instancias de las subclases de la clase que se introduce en el rango.
G Extrae las instancias que se encuentren en el dominio y rango de la tripleta así como de la relación; es decir extrae los términos que se encuentren en
Capítulo V. Pruebas
62
cada uno de los elementos de la tripleta en la ontología
Las pruebas estarán definidas por un sólo tipo de tripleta o por una serie de tripletas anidadas
para hacer más expresiva la consulta. Para una consulta de tripleta simple en el idioma Español se
define la siguiente convención:
MapTool –Es-Triple-A-01.
Para pruebas del idioma Español de dos tripletas define la siguiente convención:
MapTool –Es-Triple-AB-01
Cada vez que se agregue una tripleta, se añade el tipo de patrón que esta definido por la letra del
alfabeto en la tabla 4-1.
5.3 Plan de pruebas
5.3.1 Introducción
El presente documento describe el plan de pruebas de la herramienta para la extracción de
información contenida en ontologías el cual se basa en el estándar (IEEE 829, 1998) para realizar las
pruebas de software necesarias para su aprobación.
Las pruebas realizadas tendrán la finalidad de aportar a la herramienta mejoras sustanciales,
con el objetivo de mejorar la herramienta para su uso en la extracción de información existente en
ontologías de dominio.
El documento de plan de pruebas tiene los siguientes puntos a tratar:
1. Elementos de prueba: se describen los elementos que se utilizan para realizar pruebas
sobre la herramienta en este caso las tripletas de consulta.
2. Características a ser probadas: se definen cuales son las características de la herramienta
que se prueban para posteriormente hacer las validaciones sobre esta.
3. Características que no serán probadas: se describen las propiedades de las pruebas que
no tiene ningún tipo de incidencia en las pruebas realizadas.
4. Enfoque: las pruebas se realizan partiendo de una entrada que específica la información que
es extraída.
5. Pruebas a realizar: se establecen los tipos de pruebas que se realizan con la herramienta en
este apartado se definen los patrones de búsqueda de la herramienta.
6. Criterio de éxito/fracaso de los casos de prueba: se describe el tipo de evaluación que se
toma en cuenta para saber si la prueba es exitosa o no.
Capítulo V. Pruebas
63
7. Criterio de suspensión y de reanudación: en este punto se definen cuales son los criterios
que se usan para suspender y reanudar las pruebas así como si es necesario seguir con
dicha prueba.
8. Tarea de pruebas: define todo lo necesario para llevar a cabo las labores de prueba de la
herramienta.
9. Liberación de pruebas: es la aprobación final partiendo de los criterios de evaluación y
aprobación de las pruebas a realizar.
10. Requisitos ambientales: son los requisitos de hardware y software que son necesarios y que
se usan en las pruebas de la herramienta.
11. Responsabilidades: se especifican a los responsables directos así como las tareas que debe
realizar cada uno de ellos.
12. Riesgos y contingencias: los riesgos se obtienen conforme se desarrollan las pruebas así
como el plan para contingencias que se proponga.
13. Procedimiento de pruebas y resultados: se procede a realizar de manera efectiva las
pruebas en la herramienta, así como también a documentar los resultados que se obtengan
de las pruebas a elaborar si estas sean correctas o no.
5.3.2 Elementos de prueba
Las pruebas tienen como fin validar y verificar la extracción de información contenida en
ontologías por medio de la inserción de consultas elaboradas y mapeadas a tripletas. Esto
considerando que las consultas son correctas y las tripletas que se ingresen tienen como mínimo una
incógnita.
En la realización de las pruebas, se van a ingresar una consulta con elementos de las tripletas
(sujeto, predicado y objeto) en ella, las cuales deben contener por lo menos una incógnita. Las
tripletas deben tener al menos un elemento que pueda relacionarse con las demás si se tratase de
tripletas anidadas. Esta entrada a la herramienta debe de ser ingresada de manera correcta para
realizar a la extracción de información que se requiere.
Algunas de las relaciones que se utilizan para la realización de las pruebas en el idioma Español están
definidas en la tabla 5-2 que se presenta a continuación.
Tabla 5-2. Verbos utilizados en las ontologías del idioma Español para las pruebas realizadas.
Ontología Verbos Sinónimo a utilizar
Predicado utilizado
sinónimos
Originado por
Originar Crear Ha creado crear, determinar, establecer, excitar, formar, hacer, imprimir, incitar, influir, infundir, introducir, meter, motivar,
Capítulo V. Pruebas
64
obrar, ocasionar, producir, promover, provocar, sembrar, suscitar.
Causado por
Causar Aportar Engendrar
Aportado en | por
Engendrado en | por
Aportar, crear, engendrar, formar, hacer, imprimir, incitar, influir, infundir, introducir, meter, motivar, obrar.
Afecto Afectar Perjudicar Aquejar
ha perjudicado
| por aquejado a |
por
Afligir, aquejar, conmover, dañar, estropear, impresionar, perjudicar, aparentar, fingir, forzar, presumir, simular, actuar, ejercer, influir, adscribir, agregar, anexar, vincula
Provoca provocar provocar Ha provocado | por
No tiene.
Sucede en Suceder Ocurrir Ocurrió en acaecer, acontecer, cumplirse, ocurrir, pasar, producirse, sobrevenir, verificarse, advenir, descender, efectuarse, proceder, provenir, venir, reanudar, reemplazar, relevar, representar, substituir, suplantar, suplir, trocar, continuar, heredar, perpetuar, proseguir, seguir.
Participo Participar Colaborar Ha colaborado colaboro | por
Asociarse, auxiliar, ayudar, celebrar, colaborar, competir, componer, concurrir, contribuir, cooperar, entrar, inscribirse, integrar, interesarse, intervenir, jugar, militar, presentarse, rivalizar, solidarizarse, anunciar, avisar, comunicar, informar, invitar.
Ofreció Ofrecer Brindar Brindo | ha brindado
Abonar, afirmar, apoyar, asegurar, avalar, brindar, comprometer, convidar, dar, dedicar, donar, entregar, formular, garantizar, invitar, exponer, manifestar, mostrar, patentizar, presentar, consagrar, dedicar, ofrendar.
Acudió Acudir Acudir Acudió a | acudió
Aprendió Aprender Aprender Aprendió | ha aprendido
No tiene.
Mostraron Mostrar Demostrar Se ha demostrado | demostraron
abrir, asomar, descubrir, desempaquetar, desenvolver, desplegar, destapar, enseñar, exhibir, exhumar, exponer, extender, extraer, lucir, aclarar, demostrar, evidenciar, explicar, manifestar, ostentar, patentizar, probar, publicar, revelar, sugerir, aconsejar, advertir, apuntar, determinar, encaminar, guiar, indicar, marcar, orientar.
Capítulo V. Pruebas
65
Entraron Entrar Allanar Allanaron en| allanado por
Abusar, entrar, forzar, inspeccionar, irrumpir, penetrar, alisar, aplanar, arrasar, explanar, igualar, nivelar, rellenar, abatir, derribar, explanar, facilitar, resolver, superar, vencer, zanjar, allanar.
Interpuso Interponer Intercalar Se intercalo | intercalado
Alternar, combinar, engranar, entremezclar, entreverar, insertar, intercalar, interlinear, interpolar, introducir, meter, mezclar, presentar.
Reduce Reducir Reducir Redujo | se reduce
No tiene.
Resultado Resultar Resultar Es resultado de
No tiene.
Regula producción de
No aplica No aplica No aplica No aplica
Fue llevado a cabo por
Llevar Guiar Fue guiado por | guiado por
Acarrear, acompañar, arrastrar, cargar, carretear, convoyar, despachar, dirigir, encaminar, escoltar, facturar, guiar, mandar, portear, cortar, rebanar, retazar, separar, trinchar, convencer, incitar, inducir, persuadir, adaptar, aguantar, sobrellevar, soportar, sufrir, tolerar, gastar, poner, traer, usar, vestir, conseguir, lograr, merecer, obtener, conducir, dominar, manejar, arrendar, adelantar, contar, exceder, pasar, sobrepasar, cobrar, exigir, percibir, dar, frutecer, granar, producir, rendir.
Fue coordinado por
Coordinar Coordinar Coordinado por
No tiene.
Fue financiado por
Financiar Financiar Financiado por No tiene.
Fue fijado a
Fijar Clavar Clavado ha Acuñar, adherir, aferrar, afianzar, afirmar, amarrar, asegurar, asentar, atornillar, clavar, empotrar, incrustar, inmovilizar, asignar, concretar, decidir, designar ,determinar, establecerse, limitar, marcar, precisar, reglar, resolver, estampar, grabar, imprimir, marcar, sellar, consolidar, estabilizar, establecer, inmovilizar, aplicar, detener, dirigir.
Fue trasladado por
Trasladar Transportar Transportado por
Arrastrar, cargar, conducir, empujar, llevar, portear, transportar, trasladar, causar, implicar, ocasionar, acarrear.
Capítulo V. Pruebas
66
Fue controlado por
controlar controlar Es controlado No tiene.
Fue sentido
Sentir Sentir Se sintió | sentido
No tiene.
Fue registrado
Registrar Apuntar Se apunto | Fue apuntado
Buscar, cachear, examinar, explorar, inspeccionar, investigar, observar, rastrear, rebuscar, reconocer, revolver, anotar, apuntar, asentar, consignar, copiar, escribir, inscribir, matricular, patentar.
informo sobre fue informado
informar explicar Explicado | Fue explicado| Aclarado
Demostrar, descubrir, desembrollar, desenredar, elucidar, enmendar, esclarecer, especificar, explicar, informar, justificar, manifestó, aclarar.
Fueron sentidas en
Sentir Sentir Sentido en| Se sintió
No tiene.
Ha sido seguido
seguir seguir Siguió | Seguir | Seguido
No tiene.
forma parte de
formar causar Causado | Causa de
coordinar, crear, establecer, fundar, hacer, instituir, ordenar, organizar, producir, configurar, labrar, moldear, plasmar, trabajar, componer, constituir, entrar, integrar, adiestrar, aleccionar, criar, desarrollar, dirigir, educar, ejercitar, enseñar, iniciar, perfeccionar, preparar.
Tiene epicentro
no no El epicentro No tiene.
Despego con
Despegar Levantar Levanto con | Levantado
apartar, arrancar, desasir, desencolar, desengomar, desprender, desunir, levantar, quitar, separar, levantarse, remontarse
5.3.3 Características a ser probadas
Las características a probar están definidas en la metodología de solución propuesta las cuales se
describen de manera detallada a continuación:
1. Identificación del idioma: se debe realizar la selección adecuada de los recursos existentes
para el idioma Español.
2. Validación de patrones de la tripleta: la herramienta debe identificar patrones en la tripleta
de consulta para la extracción de información.
3. Extracción de fenómenos lingüísticos: se necesita extraer los sinónimos y verbos
relacionados para el idioma Español.
Capítulo V. Pruebas
67
4. Comparación sintáctica: se valida que la comparación sintáctica correcta de los términos
contenidos en las ontologías y las tripletas con diferentes algoritmos de comparación de
cadenas como son (Monge&Elkan, 1996), (Needleman&Wunsch, 1970) y (Levenshtein,
1965).
5. Comparación de aproximación semántica: ésta se realiza con los recursos lexicográfico
externos de EuroWordNet para el Español.
6. Validación de resultados: se revisa que los resultados sean los esperados y que los
resultados sean los existentes en las ontologías así como de su coherencia.
5.3.4 Características que no serán probadas
Las siguientes características no forman parte de la evaluación:
1. El tiempo de procesamiento de una o múltiples ontologías.
2. El diseño de la interfaz de usuario basado en mejores prácticas de accesibilidad y usabilidad
Web.
3. El funcionamiento del analizador TreeTagger.
4. Los elementos de las bases de datos lexicográficas (WordNet y EuroWordNet).
5. La introducción patrones en las tripletas de consulta, diferentes a los patrones de extracción
establecidos.
6. Uso de versiones de software diferentes a los definidos en requisitos ambientales.
7. La extracción de información en ontologías codificadas en OWL 2.
5.3.5 Pruebas a realizar
En la tabla 5-3 se describen las pruebas a realizar sobre la herramienta de extracción de
información contenida en ontologías.
Tabla 5-3. Casos de prueba de la herramienta de extracción de información contenida en ontologías
Prueba Descripción
MapTool-Es-Triple-Dom-Sub-A Este patrón de búsqueda extrae las instancias encontradas en el dominio de la tripleta ya que ésta contiene la incógnita en esta posición y mediante la similitud existente con sus otros dos elementos es posible extraer la información correspondiente.
MapTool-Es-Triple-Dom-Sub-AA La búsqueda realizada con este patrón se basa en encontrar la incógnita del dominio de las dos tripletas.
MapTool-Es-Triple-Dom-Sub-B Con este patrón se busca la incógnita existente dentro del rango en la tripleta con ayuda de los términos existentes en la relación y el dominio.
Capítulo V. Pruebas
68
MapTool-Es-Triple-Dom-Sub-BB La búsqueda realizada con este patrón debe encontrar la incógnita del rango de las dos tripletas.
MapTool-Es-Triple-Dom-Sub-BG La búsqueda realizada con este patrón trata de encontrar la incógnita del rango en la tripleta B ya que la tripleta G no contiene incógnitas.
MapTool-Es-Triple-Dom-Sub-BGG La búsqueda realizada con este patrón se usa para encontrar la incógnita del rango en la tripleta B ya que las dos tripletas G no contiene incógnitas.
MapTool-Es-Triple-Dom-Sub-BGGG La búsqueda realizada con este patrón obtiene la incógnita del rango de la tripleta B ya que las dos tripletas G no contiene incógnitas.
MapTool-Es-Triple-Dom-Sub-E En esta búsqueda se obtiene la clase inmediata a la instancia que se especifico en el dominio de la tripleta.
MapTool-Es-Triple-Dom-Sub-F La búsqueda extrae instancias de la clase que se introduce en el rango de la tripleta, así como las instancias derivadas de esta clase en las subclases.
MapTool-Es-Triple-Dom-Sub-GGGB Esta búsqueda necesita en encontrar la incógnita en el rango de la tripleta B ya que las tres tripletas G no contiene incógnitas.
MapTool-Es-Triple-Dom-Sub-GB Este patrón de búsqueda encuentra todos los elementos ingresados en la tripleta G para continuar con la tripleta B la cual contiene la incógnita que se desea conocer.
MapTool-Es-Triple-Dom-Sub-GBB Este patrón de búsqueda se utiliza para obtener todos los elementos ingresados en la tripleta G para continuar con las tripletas B la cuales contienen las incógnitas en el rango que se desean conocer.
MapTool-Es-Triple-Dom-Sub-GBG Con este patrón de búsqueda se realiza la extracción de los elementos de la tripleta contenida en la tripleta G para posteriormente utilizar esas tripletas y compararlas con las tripletas generadas en la segunda tripleta la cual contiene la incógnita en el rango y es diferenciada por la letra B por último los resultados son comparados nuevamente con los términos existentes con los resultados obtenidos de la segunda tripleta G.
MapTool-Es-Triple-Dom-Sub-GGB Este patrón de búsqueda obtiene todos los elementos ingresados en las dos tripletas G para continuar con los elementos de la tripleta B la cual contiene la incógnita en el rango.
En todos los casos de prueba especificados en la tabla 5-3 se verifica que se realicen las
comparaciones sintácticas y de aproximación semántica que corresponden para obtener una
respuesta correcta.
Capítulo V. Pruebas
69
5.3.6 Enfoque
Las pruebas a realizar están enfocadas en probar la herramienta en la extracción de
información contenida en ontologías de manera coherente; es decir, que el número de tripletas
ingresadas en la consulta del usuario deben ser encontradas y contener la información de la ontología
que se está procesando para su extracción. La herramienta no realiza el análisis previo de la consulta
en lenguaje natural.
5.3.7 Criterio de éxito/fracaso de los casos de prueba
Los casos de prueba que se describen en la tabla 5-3 del presente documento, se basan en la
comparación de los resultados obtenidos contra los existentes en las ontologías para validar de
manera efectiva la prueba.
Se considera que una prueba ha pasado con éxito cuando los resultados obtenidos coincidan
con los resultados esperados para cada uno de los casos de prueba.
En caso de que la prueba no resulte con exitosa, se analizan las causas y se realizan las
modificaciones necesarias hasta obtener los resultados esperados; si no se obtuviera la respuesta que
se solicita se etiqueta como prueba fallida.
5.3.8 Criterios de suspensión y requerimientos de reanudación
No se establece ningún criterio de suspensión de la prueba. Cuando se presente el escenario
de que la prueba no cumple con los resultados esperados, ésta se corrige las veces que sea
necesario hasta lograr el resultado esperado o en su defecto se describen las razones que no hacen
posible obtener un resultado correcto.
5.3.9 Tareas de prueba
Las tareas de prueba de este plan se describen en la tabla 5-4:
Tabla 5-4. Tareas de prueba a ejecutar en el desarrollo del plan de pruebas.
Tarea Habilidades Responsabilidad
Planificación Conocimiento del estándar IEEE 829 para la realización de pruebas sobre software.
L.S.C. Felipe Antonio Román Albores.
Diseño Conocimiento de la herramienta y sus alcances, así como de los objetivos de la presente investigación.
L.S.C. Felipe Antonio Román Albores.
Ejecución Conocimiento de la herramienta para la extracción de información contenida en ontologías
L.S.C. Felipe Antonio Román
Capítulo V. Pruebas
70
y sus limitantes. Albores.
Depuración Conocimiento de lenguaje de programación JAVA, API de JENA y de Framework para el desarrollo de aplicaciones Web.
L.S.C. Felipe Antonio Román Albores.
Evaluación Conocimiento de los objetivos e hipótesis de investigación de este trabajo así como sus alcances y limitaciones.
L.S.C. Felipe Antonio Román Albores
5.3.10 Liberación de pruebas
Las pruebas realizadas se verifican con la información contenida en las ontologías que se
consultan, esto con el fin de validar correctamente los resultados obtenidos de la corrida de la
herramienta en cada una de las pruebas. Si los resultados obtenidos son coherentes a la información
que se solicitó y esta información se encuentra dentro de la ontología se toma como una prueba válida
y es aceptada.
5.3.11 Requisitos ambientales
A continuación se describen las características de hardware y software del ambiente de
pruebas, estas especificaciones se muestran en la tabla 5-5.
Tabla 5-5. Requisitos de hardware y software de la herramienta desarrollada.
Hardware Software
Servidor Power Edge T410 Sistema operativo: Ubuntu Server 10.04
2 Intel QuadCore Xeon a 2.53 Ghz HT, 8 M Cache
Servidor Web: Apache 2.2.14 y Tomcat 6
1 HD 160 Gb Maquina virtual de JAVA:JDK 1.6
1 HD 1 Tb Manejador de base de datos: Mysql 5.1
API: JENA 2
Etiquetador: TreeTagger
Navegador Web: Google chrome con soporte para Java Script.
5.3.12 Responsabilidades
El responsable directo de las pruebas de la actual investigación recae en su totalidad en el
L.S.C Felipe Antonio Román Albores, quien es el responsable de la documentación de los resultados
obtenidos.
Capítulo V. Pruebas
71
5.3.13 Riesgos y contingencias
Los errores generados por la herramienta se documentan y se lleva un historial de las
contingencias que se llegaran a presentar en la depuración de las pruebas. El mejoramiento de la
herramienta será realizado por el responsable de las pruebas y autor de este documento.
5.3.14 Aprobación
El plan de pruebas deberá ser aprobado por la directora de tesis, Dra. Azucena Montes
Rendón y los revisores el Dr. Hugo Estrada Esquivel, Dr. Juan Gabriel González Serna y el Dr. David
Pinto Avendaño.
5.4 Casos de prueba
En este apartado se describen los casos de prueba así como los resultados esperados de
cada una de las pruebas que se describieron en la sección de pruebas a realizar. Los casos de
pruebas que se describen a continuación tienen la finalidad de tener una métrica de éxito y fracaso de
la herramienta desarrollada para evaluar su efectividad así como la de otorgar un ejemplo del tipo de
consulta que se realiza en cada caso.
1. MapTool-Es-Triple-Dom-Sub-A: Este patrón de búsqueda extrae las instancias encontradas en
el dominio de la tripleta ya que contiene la incógnita en esta posición. El resultado se obtiene al
realizar las comparaciones entre los elementos del la tripleta que se conocen como en el ejemplo
5-1:
[ x ?, informo, falla del lanzamiento ]
Ejemplo 5-1.Tripleta simple del patrón A con la incógnita en el dominio.
2. MapTool-Es-Triple-Dom-Sub-AA: La búsqueda realizada con este patrón se basa en encontrar
la incógnita del dominio de las dos tripletas con los elementos de la misma que son ingresados.
La tripleta que se muestra en el ejemplo 5-2 es de este tipo:
[ x ?, sucedió en, Iztacalco ][ x ?, tiene tiempo, 18:00 ]
Ejemplo 5-2. Tripleta anidada con la incógnita en el dominio de ambas tripletas.
3. MapTool-Es-Triple-Dom-Sub-B: Con este patrón se busca la incógnita existente dentro del
rango en la tripleta con ayuda de los términos existentes en la relación y el dominio es posible
obtener el resultado correcto. El ejemplo 5-3 es una muestra de estas tripletas de búsqueda.
[ falla lanzamiento, tiene espacio, x ? ]
Ejemplo 5-3.Tripleta simple con la incógnita en el rango de la tripleta.
4. MapTool-Es-Triple-Dom-Sub-BB: La búsqueda realizada con este patrón se centra en encontrar
la incógnita del rango de las dos tripletas ingresadas como en el ejemplo 5-4.
Capítulo V. Pruebas
72
[replica de 6.4 grados sacude de nuevo Fukushima, tiene_fecha_pub, x ? ][replica de 6.4 grados sacude de nuevo Fukushima, tiene_lugar_pub, x ? ]
Ejemplo 5-4.Tripleta anidada con la incógnita en el rango de ambas tripletas.
5. MapTool-Es-Triple-Dom-Sub-BG: La búsqueda realizada con este patrón trata de encontrar la
incógnita del rango en la tripleta B ya que la tripleta G no contiene incógnitas como se aprecia en
el ejemplo 5-5.
[ examina, argumento1, x ? ][ examina, argumento2, los productos importados de Japón ]
Ejemplo 5-5.Tripleta anidada con la incognita únicamente en la tripleta B.
6. MapTool-Es-Triple-Dom-Sub-BGG: La búsqueda realizada con este patrón se requiere obtener
la incógnita del rango en la tripleta B ya que las dos tripletas G no contiene incógnitas; este tipo
de consulta se muestra en el ejemplo 5-6.
[ postergo, argumento1, x ? ][ postergo, argumento2, la misión ][ postergo , argumento3, para evitar que se sobre pusiera con una nave rusa ]
Ejemplo 5-6.Consulta de tripletas anidadas con incógnita en el rango de la tripleta B y dos tripletas bien formadas.
7. MapTool-Es-Triple-Dom-Sub-BGGG: La búsqueda realizada con este patrón debe obtener la
incógnita del rango de la tripleta B ya que las tres tripletas G no contiene incógnitas. En el
ejemplo 5-7 se presenta este tipo de consultas.
[informo, argumento1, x ? ][informo,argumento2 ,lucha ][lucha,argumento1 ,los técnicos ][lucha,argumento2 ,para controlar los reactores de la central de Fukushima ]
Ejemplo 5-7.Consulta de tripletas anidadas con incógnita en el rango de la tripleta B y tres tripletas bien formadas.
8. MapTool-Es-Triple-Dom-Sub-E: En esta búsqueda se obtiene la clase inmediata a la instancia
que se expresa en el dominio de la tripleta. En el ejemplo 5-8 se presenta una consulta de este
tipo.
[cuerpo de bomberos, is-a, x ? ]
Ejemplo 5-8.Consulta simple de tripleta taxonómica con la incógnita en el rango.
9. MapTool-Es-Triple-Dom-Sub-F: La búsqueda extrae instancias de la clase que se introduce en
el rango de la tripleta, así como las instancias derivadas de esta clase en las subclases; este tipo
de consultas se observa en el ejemplo 5-9 que se presenta a continuación.
[ x ?, is-a, acontecimientos ]
Ejemplo 5-9.Consulta simple de tripleta taxonómica con la incógnita en el dominio.
10. MapTool-Es-Triple-Dom-Sub-GGGB: Esta búsqueda trata de encontrar la incógnita en el rango
de la tripleta A ya que las tres tripletas G no contiene incógnitas como se observa en el ejemplo
5-10.
[ hallan gen, pertenece a, nueva variante ][nueva variante, reduce, hipertensión ][hipertension, afecta a, adultos de la Union Europea ][hallan gen, coordinan, x ? ]
Ejemplo 5-10. Consulta de tripletas anidadas con la incógnita en el rango de la tripleta A y dos
Capítulo V. Pruebas
73
tripletas de tipo G sin incógnitas.
11. MapTool-Es-Triple-Dom-Sub-GB: Este patrón de búsqueda pretende obtener todos los
elementos ingresados en la tripleta G para continuar comparándolos con las tripletas completas
en B la cual contiene la incógnita que se desea conocer. En el ejemplo 5-11 se observa estas
consultas anidadas.
[hallazgo gen, corresponde a, nueva variante][ nueva variante, regula, x ? ]
Ejemplo 5-11.Consulta de tripletas anidadas con la incógnita en el rango de la tripleta B y una tripleta de tipo G sin incógnitas.
12. MapTool-Es-Triple-Dom-Sub-GBB: Este patrón de búsqueda se examinan todos los elementos
ingresados en la tripleta G para continuar con las tripletas B la cuales contienen las incógnitas en
el rango que se desean conocer. En el ejemplo 5-12 se observa el tipo de consultas de esta
categoría.
[ explosión, fue controlada por, cuerpo de bomberos][ explosión, provoco, x ? ][explosión, afecto, x ? ]
Ejemplo 5-12.Consulta de tripletas anidadas con las incógnita en el rango de las tripletas B y una tripleta de tipo G sin incógnitas al principio.
13. MapTool-Es-Triple-Dom-Sub-GBG: Con este patrón de búsqueda se realiza la extracción de los
elementos de la tripleta contenida en la tripleta G para posteriormente utilizar esas tripletas y
compararlas con las tripletas generadas en la segunda tripleta la cual contiene la incógnita en el
rango y es diferenciada por la letra B. El ejemplo 5-13 se presenta a continuación.
[llevara, argumento1, el Endeavour][llevara, argumento2, x?][llevara, argumento3, para que sea instalado fuera de la estación espacial ]
Ejemplo 5-13.Consulta de tripletas anidadas con la incógnita en el rango de la tripleta B y dos tripletas de tipo G sin incógnitas.
14. MapTool-Es-Triple-Dom-Sub-GGB: Este patrón de búsqueda debe obtener todos los elementos
ingresados en las dos tripletas G para continuar con los elementos de la tripleta B la cual contiene
la incógnita en el rango. El ejemplo 5-14 representa esta categoría a probar.
[ comunicaron, argumento1, la Agencia Meteorológica Japonesa ][ comunicaron, argumento2, temblor ][ temblor, espacio, x ? ]
Ejemplo 5-14.Consulta de tripletas anidadas con la incógnita en el rango de la tripleta B y dos tripletas de tipo G sin incógnitas.
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿ Quién informó acerca de la falla del lanzamiento?
realizar cambios, quedando de la siguiente manera:
1. [ x ?, informo acerca de, falla del
En el cuadro de texto de la figura
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-1. Resultado correcto de la consulta MapTool
Observaciones:
Esta prueba se realizó con el mapeo sintáctico de los términos de las tripletas y los elementos de la
ontología debido a que la TreeTagger no logró
de texto “informo acerca de” que tiene la función del predicado en dicha tripleta; sin embargo se
obtiene el resultado esperado en la incógnita de la tripleta mediante la similitud sintáctica realizada.
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-A-1
Resultado:
Quién informó acerca de la falla del lanzamiento? se generó
realizar cambios, quedando de la siguiente manera:
[ x ?, informo acerca de, falla del lanzamiento ]
En el cuadro de texto de la figura 5-1 se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub
con el mapeo sintáctico de los términos de las tripletas y los elementos de la
ido a que la TreeTagger no logró identificar el verbo “informar” derivado de la cadena
de texto “informo acerca de” que tiene la función del predicado en dicha tripleta; sin embargo se
obtiene el resultado esperado en la incógnita de la tripleta mediante la similitud sintáctica realizada.
elipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
74
generó la tripleta sin
se ingresan las tripletas anidadas; para ejecutar la prueba se
Sub-A-1.
con el mapeo sintáctico de los términos de las tripletas y los elementos de la
derivado de la cadena
de texto “informo acerca de” que tiene la función del predicado en dicha tripleta; sin embargo se
obtiene el resultado esperado en la incógnita de la tripleta mediante la similitud sintáctica realizada.
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Que sucedió a las 18:00 horas en Iztacalco?
cambios, quedando de la siguiente manera:
1. [x?, sucedió en, Iztacalco]
2. [x?, tiene unidad temporal, 18:00]
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-2. Resultado incorrecto de la consulta MapTool
Observaciones:
Esta prueba es errónea debido a que la herramienta no indaga en las propiedades de las instancias
y la instancia de propiedad “18:00”
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-AA-2
Resultado:
¿Que sucedió a las 18:00 horas en Iztacalco? se generaron las tripletas sin realizar
cambios, quedando de la siguiente manera:
[x?, sucedió en, Iztacalco]
[x?, tiene unidad temporal, 18:00]
figura 5-2 se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado incorrecto de la consulta MapTool-Es-Triple-Dom-Sub
Esta prueba es errónea debido a que la herramienta no indaga en las propiedades de las instancias
“18:00” no puede ser mapeada con el elemento de la tripleta.
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
75
Resultado:
se generaron las tripletas sin realizar
se ingresan las tripletas anidadas; para ejecutar la prueba se
Sub-AA-2.
Esta prueba es errónea debido a que la herramienta no indaga en las propiedades de las instancias
no puede ser mapeada con el elemento de la tripleta.
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Qué originó la falla del lanzamiento
cambios, quedando de la siguiente manera:
1. [falla lanzamiento, origino, x ?]
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-3. Resultado correcto de la consulta
Observaciones:
En esta prueba se realizó con el mapeo sintáctico de los términos de las tripletas y los elementos de
la ontología debido a que la TreeTagger no
tripleta es así como se mapearon sintácticamente los términos de la tripleta logrando obtener el
resultado esperado.
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-B-3
Resultado:
Qué originó la falla del lanzamiento? se generó la tripleta sin realizar
cambios, quedando de la siguiente manera:
[falla lanzamiento, origino, x ?]
la figura 5-3 se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub
con el mapeo sintáctico de los términos de las tripletas y los elementos de
la ontología debido a que la TreeTagger no logró identificar el verbo “originar” en el predicado de la
tripleta es así como se mapearon sintácticamente los términos de la tripleta logrando obtener el
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
76
Resultado:
la tripleta sin realizar
se ingresan las tripletas anidadas; para ejecutar la prueba se
Sub-B-3.
con el mapeo sintáctico de los términos de las tripletas y los elementos de
en el predicado de la
tripleta es así como se mapearon sintácticamente los términos de la tripleta logrando obtener el
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Cuándo y dónde se publicó la noticia sobre la réplica de 6.4 grados sacude de
nuevo Fukushima? se generaron las tripletas siguientes:
1. [replica de 6.4 grados sacude de nuevo Fukushima, tiene_fecha_pub, x ? ]
2. [replica de 6.4 grados sacud
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-4. Resultado correcto de la consulta MapTool
Observaciones:
En este caso en particular no existe un verbo que cumpla con la función de unir a las tripletas; sin
embargo, existe una cadena de texto
extracción de información, esta consulta es muy particular ya que se solicita información concerniente
al texto por lo que las relaciones de ambas tripletas son específicas de la meta ontologí
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-BB-4
Resultado:
¿Cuándo y dónde se publicó la noticia sobre la réplica de 6.4 grados sacude de
se generaron las tripletas siguientes: [replica de 6.4 grados sacude de nuevo Fukushima, tiene_fecha_pub, x ? ]
[replica de 6.4 grados sacude de nuevo Fukushima, tiene_lugar_pub, x ? ]
figura 5-4 se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub
En este caso en particular no existe un verbo que cumpla con la función de unir a las tripletas; sin
embargo, existe una cadena de texto que se localiza por medio de similitud sintáctica para realizar la
extracción de información, esta consulta es muy particular ya que se solicita información concerniente
al texto por lo que las relaciones de ambas tripletas son específicas de la meta ontologí
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
77
Resultado:
¿Cuándo y dónde se publicó la noticia sobre la réplica de 6.4 grados sacude de
[replica de 6.4 grados sacude de nuevo Fukushima, tiene_fecha_pub, x ? ]
e de nuevo Fukushima, tiene_lugar_pub, x ? ]
se ingresan las tripletas anidadas; para ejecutar la prueba se
Sub-BB-4.
En este caso en particular no existe un verbo que cumpla con la función de unir a las tripletas; sin
por medio de similitud sintáctica para realizar la
extracción de información, esta consulta es muy particular ya que se solicita información concerniente
al texto por lo que las relaciones de ambas tripletas son específicas de la meta ontología OntoEvento.
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Quién examina los productos importados de Japón?
sin ninguna modificación en los términos de las tripletas con respecto a las existentes en las
ontologías, quedando de la siguiente manera:
1. [ examina, argumento1, x ? ]
2. [ examina, argumento2, los productos importados de
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-5. Resultado correcto de la consulta MapTool
Observaciones:
La extracción de información existente en la ontolo
comparación de la similitud sintáctica entre los términos existentes en las t
elementos de la ontología con la finalidad de extraer la incógnita existente en las tripletas ingresadas.
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-BG-5
Resultado:
¿Quién examina los productos importados de Japón? se generaron las tripletas
sin ninguna modificación en los términos de las tripletas con respecto a las existentes en las
ontologías, quedando de la siguiente manera: [ examina, argumento1, x ? ]
[ examina, argumento2, los productos importados de Japón ]
figura 5-5 se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub
La extracción de información existente en la ontología en esta prueba se realiza
comparación de la similitud sintáctica entre los términos existentes en las tripletas de búsqueda y los
elementos de la ontología con la finalidad de extraer la incógnita existente en las tripletas ingresadas.
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
78
Resultado:
se generaron las tripletas
sin ninguna modificación en los términos de las tripletas con respecto a las existentes en las
se ingresan las tripletas anidadas; para ejecutar la prueba se
Sub-BG-5.
gía en esta prueba se realiza por medio de la
ripletas de búsqueda y los
elementos de la ontología con la finalidad de extraer la incógnita existente en las tripletas ingresadas.
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Quién postergó la misión para evitar que se sobrepusiera con el arribo de una
nave de carga rusa? se derivan las siguientes tripletas:
1. [ postergo, argumento1, x ? ]
2. [ postergo, argumento2, la misión ]
3. [ postergo , argumento3,
En el cuadro de texto de la figura 5
procede a dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-6. Resultado correcto de la consulta MapTool
Observaciones:
La extracción de la información contenida en la ontología se extrae
realizaron modificaciones en las instancias que tienen la función de verbo y que unen a las tripletas
para anidarlas en ese sentido se cumplen con los umbrales establecidos en la herramienta para hacer
la recuperación correcta de los datos.
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-BGG-6
Resultado:
¿Quién postergó la misión para evitar que se sobrepusiera con el arribo de una
se derivan las siguientes tripletas:
[ postergo, argumento1, x ? ]
[ postergo, argumento2, la misión ]
[ postergo , argumento3, para evitar que se sobre pusiera con una nave rusa ]
figura 5-6 se ingresan las tripletas anidadas; para ejecutar la prueba se
procede a dar clic en el botón buscar para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub
ón contenida en la ontología se extrae de manera correcta ya que no se
iones en las instancias que tienen la función de verbo y que unen a las tripletas
para anidarlas en ese sentido se cumplen con los umbrales establecidos en la herramienta para hacer
la recuperación correcta de los datos.
Román Albores
Cargo:
Autor
Capítulo V. Pruebas
79
Resultado:
¿Quién postergó la misión para evitar que se sobrepusiera con el arribo de una
para evitar que se sobre pusiera con una nave rusa ]
se ingresan las tripletas anidadas; para ejecutar la prueba se
Sub-BGG-6.
de manera correcta ya que no se
iones en las instancias que tienen la función de verbo y que unen a las tripletas
para anidarlas en ese sentido se cumplen con los umbrales establecidos en la herramienta para hacer
Autor
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Quién informo sobre la lucha de los técnicos para controlar los reactores de
la central de Fukushima? se generaron las tripletas siguientes:
1. [informo, argumento1, x ? ]
2. [informo,argumento2 ,lucha ]
3. [lucha,argumento1 ,los técnicos ]
4. [lucha,argumento2 ,para controlar los reactores de la central de Fukushima ]
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-7. Resultado correcto de la consulta MapTool
Observaciones:
La información extraída por medio de las tripletas ingresadas corresponde a la información que
cumple con la similitud necesaria para contestar la incógnita que existe en la tripleta 1.
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-BGGG-7
Resultado:
¿Quién informo sobre la lucha de los técnicos para controlar los reactores de
se generaron las tripletas siguientes:
[informo, argumento1, x ? ]
[informo,argumento2 ,lucha ]
[lucha,argumento1 ,los técnicos ]
[lucha,argumento2 ,para controlar los reactores de la central de Fukushima ]
figura 5-7 se ingresan las tripletas anidadas; para ejecuta
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-BGGG
La información extraída por medio de las tripletas ingresadas corresponde a la información que
cumple con la similitud necesaria para contestar la incógnita que existe en la tripleta 1.
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
80
Resultado:
¿Quién informo sobre la lucha de los técnicos para controlar los reactores de
[lucha,argumento2 ,para controlar los reactores de la central de Fukushima ]
se ingresan las tripletas anidadas; para ejecutar la prueba se
BGGG-7.
La información extraída por medio de las tripletas ingresadas corresponde a la información que
cumple con la similitud necesaria para contestar la incógnita que existe en la tripleta 1.
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Cuáles son los acontecimientos ?
quedando de la siguiente manera:
1. [ x ?, is-a, acontecimientos ]
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-8. Resultado correcto de la consulta
Observaciones:
Esta prueba trata de obtener las instancias de la clase y subclases de la que se hace referencia en el
rango de la tripleta; para resolver la incógnita se debe realizar una consulta RDF caracterizada por la
relación taxonómica “is-a” y la clase en el rango
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-F-8
Resultado:
¿Cuáles son los acontecimientos ? se generó la tripleta sin realizar cambios,
quedando de la siguiente manera:
a, acontecimientos ]
figura 5-8 se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub
Esta prueba trata de obtener las instancias de la clase y subclases de la que se hace referencia en el
rango de la tripleta; para resolver la incógnita se debe realizar una consulta RDF caracterizada por la
y la clase en el rango.
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
81
Resultado:
la tripleta sin realizar cambios,
se ingresan las tripletas anidadas; para ejecutar la prueba se
Sub-F-8.
Esta prueba trata de obtener las instancias de la clase y subclases de la que se hace referencia en el
rango de la tripleta; para resolver la incógnita se debe realizar una consulta RDF caracterizada por la
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Que es el cuerpo de bomberos ?
quedando de la siguiente manera:
1. [ cuerpo de bomberos, is
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-9. Resultado correcto de la consulta MapTool
Observaciones:
Esta prueba trata de obtener la clase inmediata a la que se asocia una instancia para resolver la
incógnita de la tripleta se debe realizar un
“is-a” para llegar a deducir la clase a la que la instancia pertenece.
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-E-9
Resultado:
¿Que es el cuerpo de bomberos ? se generó la tripleta sin realizar cambios,
quedando de la siguiente manera:
cuerpo de bomberos, is-a, x ? ]
figura 5-9 se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub
Esta prueba trata de obtener la clase inmediata a la que se asocia una instancia para resolver la
incógnita de la tripleta se debe realizar una consulta RDF caracterizada por la relación taxonómica
para llegar a deducir la clase a la que la instancia pertenece.
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
82
la tripleta sin realizar cambios,
se ingresan las tripletas anidadas; para ejecutar la prueba se
Sub-E-9.
Esta prueba trata de obtener la clase inmediata a la que se asocia una instancia para resolver la
a consulta RDF caracterizada por la relación taxonómica
Caso de prueba:
MapTool-Es-Triple-Dom-Sub
De la pregunta ¿ Quienes coordinan el hallazgo de un gen que pertenece a una nueva variante
que reduce la hipertensión que afecta a adultos de la Unión Europea?
sin realizar cambios, quedando de la siguiente manera:
1. [ hallazgo gen, pertenece a, nueva variante]
2. [ nueva variante, disminuye, hipertensión]
3. [ hipertensión, afecta a, adultos de la Unión Europea]
4. [ hallazgo gen, coordinó, x ? ]
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-10. Resultado incorrecto de la consulta MapTool
Observaciones:
El resultado fallido de esta prueba es debido a la posición de las incógnitas dentro de las tripletas de
consulta lo cual para obtener la información correspondiente a la consulta se debe ingresar las
siguientes tripletas anidadas:
1. [ hallazgo gen, coordinaron, x ? ]
2. [ hallazgo gen, pertenece a, nueva variante ]
3. [nueva variante, reduce, hipertensión]
4. [hipertensión, afecta a, adultos de la Unión Europea ]
El resultado obtenido de esta consulta reestructurada es el que se desea obtener dentro del marco
de la consulta en lenguaje natural para responder a la incógnita de la tripleta 1.
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Sub-GGGB-10
Resultado:
Quienes coordinan el hallazgo de un gen que pertenece a una nueva variante
que reduce la hipertensión que afecta a adultos de la Unión Europea? se generaron las tripletas
sin realizar cambios, quedando de la siguiente manera:
go gen, pertenece a, nueva variante]
[ nueva variante, disminuye, hipertensión]
[ hipertensión, afecta a, adultos de la Unión Europea]
[ hallazgo gen, coordinó, x ? ]
figura 5-10 se ingresan las tripletas anidadas; para ejecutar
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado incorrecto de la consulta MapTool-Es-Triple-Dom-Sub-
fallido de esta prueba es debido a la posición de las incógnitas dentro de las tripletas de
consulta lo cual para obtener la información correspondiente a la consulta se debe ingresar las
[ hallazgo gen, coordinaron, x ? ]
hallazgo gen, pertenece a, nueva variante ]
[nueva variante, reduce, hipertensión]
[hipertensión, afecta a, adultos de la Unión Europea ]
El resultado obtenido de esta consulta reestructurada es el que se desea obtener dentro del marco
lenguaje natural para responder a la incógnita de la tripleta 1.
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
83
Resultado:
Quienes coordinan el hallazgo de un gen que pertenece a una nueva variante
se generaron las tripletas
se ingresan las tripletas anidadas; para ejecutar la prueba se
-GGGB-10.
fallido de esta prueba es debido a la posición de las incógnitas dentro de las tripletas de
consulta lo cual para obtener la información correspondiente a la consulta se debe ingresar las
El resultado obtenido de esta consulta reestructurada es el que se desea obtener dentro del marco
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Quién descubrió la nueva variante a la cual
se generaron las tripletas sin realizar cambios, quedando de la siguiente manera:
1. [ hallazgo gen, corresponde, nueva variante ]
2. [ hallazgo gen, descubrió, x ? ]
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-11. Resultado incorrecto de la consulta
Observaciones:
En este caso de prueba no se obtienen los resultados esperados debido a que
en la tripleta 2 no debe de estar en la posición del objeto ya que en la ontología se encuentra en el
sujeto; las tripletas correctas serian las siguientes:
1. [ hallazgo gen, corresponde, nueva variante ]
2. [ x ?, descubrió, nueva varia
Por ello no es posible realizar el mapeo correcto de los términos contenidos en las tripletas con los
elementos de la ontología.
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-GB-11
Resultado:
¿Quién descubrió la nueva variante a la cual corresponde el hallazgo del gen?
se generaron las tripletas sin realizar cambios, quedando de la siguiente manera:
[ hallazgo gen, corresponde, nueva variante ]
[ hallazgo gen, descubrió, x ? ]
figura 5-11 se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado incorrecto de la consulta MapTool-Es-Triple-Dom-Sub
En este caso de prueba no se obtienen los resultados esperados debido a que la incógnita existente
en la tripleta 2 no debe de estar en la posición del objeto ya que en la ontología se encuentra en el
las tripletas correctas serian las siguientes:
[ hallazgo gen, corresponde, nueva variante ]
[ x ?, descubrió, nueva variante ]
Por ello no es posible realizar el mapeo correcto de los términos contenidos en las tripletas con los
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
84
Resultado:
corresponde el hallazgo del gen?
se ingresan las tripletas anidadas; para ejecutar la prueba se
Sub-GB-11.
la incógnita existente
en la tripleta 2 no debe de estar en la posición del objeto ya que en la ontología se encuentra en el
Por ello no es posible realizar el mapeo correcto de los términos contenidos en las tripletas con los
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Que provocó y afectó la explosión que fue controlada por el Cuerpo de
bomberos? se generaron las tripletas sin realizar cambios, quedando de la siguiente manera:
1. [ explosión, fue controlada por, cuerpo de bomberos]
2. [ explosión, provoco, x ? ]
3. [explosión, afecto, x ? ]
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-12. Resultado correcto de la consulta MapTool
Observaciones:
En esta consulta se encontró la raíz del verbo, dado por la relación en la tripleta el cual se deriva en
“controlar” y no contiene sinónimos dentro de la base de datos de EuroWordNet por lo que se
procedió a realizar el mapeo por medio de similitud sintáctica con el verbo existente en la ontología el
cual es el mismo, posteriormente se realizaron los mismo pasos para tr
verbal de los verbos “afecto” y
verbos dejándolos de la misma manera para realizar el mapeo de la similitud de cadenas de texto y
así extraer la información concerniente a la incógnita en las dos últimas tripletas.
Responsable:
LSC. Felipe Antonio Román Albor
Capítulo V. Pruebas
Dom-Sub-GBB-12
Resultado:
¿Que provocó y afectó la explosión que fue controlada por el Cuerpo de
se generaron las tripletas sin realizar cambios, quedando de la siguiente manera:
[ explosión, fue controlada por, cuerpo de bomberos]
explosión, provoco, x ? ]
[explosión, afecto, x ? ]
figura 5-12 se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub
En esta consulta se encontró la raíz del verbo, dado por la relación en la tripleta el cual se deriva en
y no contiene sinónimos dentro de la base de datos de EuroWordNet por lo que se
procedió a realizar el mapeo por medio de similitud sintáctica con el verbo existente en la ontología el
cual es el mismo, posteriormente se realizaron los mismo pasos para tratar de identificar la raíz
y “provoco” donde el etiquetador no realizó la identificación de estos
verbos dejándolos de la misma manera para realizar el mapeo de la similitud de cadenas de texto y
así extraer la información concerniente a la incógnita en las dos últimas tripletas.
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
85
Resultado:
¿Que provocó y afectó la explosión que fue controlada por el Cuerpo de
se generaron las tripletas sin realizar cambios, quedando de la siguiente manera:
se ingresan las tripletas anidadas; para ejecutar la prueba se
Sub-GBB-12.
En esta consulta se encontró la raíz del verbo, dado por la relación en la tripleta el cual se deriva en
y no contiene sinónimos dentro de la base de datos de EuroWordNet por lo que se
procedió a realizar el mapeo por medio de similitud sintáctica con el verbo existente en la ontología el
atar de identificar la raíz
la identificación de estos
verbos dejándolos de la misma manera para realizar el mapeo de la similitud de cadenas de texto y
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Qué llevará el Endeavour para que sea instalado fuera de la estación espacial?
se generaron las siguientes tripletas:
1. [llevara, argumento1, el Endeavour]
2. [llevara, argumento2, x?]
3. [llevara, argumento3, para que sea instalado fuera de la estación espacial ]
En el cuadro de texto de la figura 5
en el botón buscar, el cual ejecuta evento par
Figura 5-13. Resultado correcto de la consulta MapTool
Observaciones:
La información extraída por medio de las tripletas ingresadas cumple con la similitud necesaria en la
tripleta 2 y 3 en donde el texto ingresado en el rango es mayor al umbral de la instancia establecido el
cual es 0.7.
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-GBG-13
Resultado:
¿Qué llevará el Endeavour para que sea instalado fuera de la estación espacial?
generaron las siguientes tripletas:
[llevara, argumento1, el Endeavour]
[llevara, argumento2, x?]
[llevara, argumento3, para que sea instalado fuera de la estación espacial ]
figura 5-13 se ingresan estas tripletas y se procede a ejecutarla dando clic
en el botón buscar, el cual ejecuta evento para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub
La información extraída por medio de las tripletas ingresadas cumple con la similitud necesaria en la
tripleta 2 y 3 en donde el texto ingresado en el rango es mayor al umbral de la instancia establecido el
Román Albores
Cargo:
Autor
Capítulo V. Pruebas
86
Resultado:
¿Qué llevará el Endeavour para que sea instalado fuera de la estación espacial?
[llevara, argumento3, para que sea instalado fuera de la estación espacial ]
se ingresan estas tripletas y se procede a ejecutarla dando clic
a extraer la información de la ontología.
Sub-GBG-13.
La información extraída por medio de las tripletas ingresadas cumple con la similitud necesaria en la
tripleta 2 y 3 en donde el texto ingresado en el rango es mayor al umbral de la instancia establecido el
Autor
Caso de prueba:
MapTool-Es-Triple-Dom-
De la pregunta ¿Donde ocurrió el sismo que anunció la Agencia Meteorológica Japonesa ?
generaron las tripletas siguientes modificando el nombre común
verbo “anunciar” que tiene en su vector de sinónimos el verbo
“comunicaron” quedando de la siguiente manera:
1. [ comunicaron, argumento1, la Agencia Meteorológica Japonesa ]
2. [ comunicaron,argument
3. [ temblor, espacio, x ? ]
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar la cual dispara el evento para extraer la información de la ontología.
Figura 5-14.Resultado correcto de la consulta MapTool
Observaciones:
El verbo “comunicar” se encuentra dentro del vector de sinónimos del verbo
tanto es mapeado de manera correcta por la herramienta así como la palabra
“temblor” el cual es su sinónimo, así como la similitud de la cadena existente en el rango de la
tripleta 1.
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
-Sub-GGB-14
Resultado:
¿Donde ocurrió el sismo que anunció la Agencia Meteorológica Japonesa ?
generaron las tripletas siguientes modificando el nombre común “sismo” por “temblor”
que tiene en su vector de sinónimos el verbo “comunicar” derivado de la palabra
quedando de la siguiente manera:
[ comunicaron, argumento1, la Agencia Meteorológica Japonesa ]
[ comunicaron,argumento2, temblor ]
[ temblor, espacio, x ? ]
figura 5-14 se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar la cual dispara el evento para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-
se encuentra dentro del vector de sinónimos del verbo “anunciar”
tanto es mapeado de manera correcta por la herramienta así como la palabra
el cual es su sinónimo, así como la similitud de la cadena existente en el rango de la
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
87
¿Donde ocurrió el sismo que anunció la Agencia Meteorológica Japonesa ? se
“temblor” así como el
derivado de la palabra
se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar la cual dispara el evento para extraer la información de la ontología.
GGB-14.
“anunciar” por lo
tanto es mapeado de manera correcta por la herramienta así como la palabra “sismo” por
el cual es su sinónimo, así como la similitud de la cadena existente en el rango de la
Capítulo V. Pruebas
88
5.5 Análisis de resultados
El objetivo principal de realizar las pruebas fue el comprobar la metodología de solución
propuesta y mejorarla logrando hacerla más eficiente; así como también comprobar la hipótesis
propuesta en el plan de pruebas y la identificación de patrones de búsqueda más recurrentes en las
ontologías.
Las consultas se realizaron sobre ontologías del dominio de noticias. La mayoría de las
pruebas realizadas se llevaron a cabo sobre un tipo de ontologías específicas para la representación
de texto en ontologías de dominio. Esta meta ontología se describe en (Reyes, 2011) donde utiliza
para la representación de eventos en la figura 5-15 se aprecia el conjunto de conceptos (T-Box) de la
meta ontología OntoEvento.
Figura 5-15. Estructura de la meta ontología OntoEvento en (Reyes, 2011).
Las consultas en lenguaje natural realizadas para las pruebas fueron obtenidas a partir del
contenido existente en las ontologías de (Reyes, 2011a). El número total de ontologías utilizadas en
las pruebas fueron 13. Partiendo de las consultas en lenguaje natural se realizó la conversión de las
preguntas de manera manual a tripletas ya que ésta es la entrada de la herramienta para la extracción
de información a partir de ontologías de la presente investigación.
Tiene_arg3
Tiene_espacio
Es_un
Es_un
Tiene_arg1
Tiene_arg2
Tiene_tiempo
Es_un
Es_un
Urbano
Evento
Efecto
provoca
Causante
Causado_por
Espacio
Geográfico
Acción
Argumento1
Argumento 2
Argumento 3
Unidad_Temporal
Nominalizació
n
Es_un
Intervalo
Instant
Es_un
Capítulo V. Pruebas
89
Las pruebas que se realizaron se encuentran dentro del (ver anexo C). Estas pruebas fueron
elaboradas a partir de los patrones de búsqueda identificadas en el apartado de pruebas a realizar.
En total fueron 70 pruebas de las cuales la herramienta reflejó el 88.57% de efectividad logrando
responder correctamente 62 preguntas de diferentes patrones de consulta contra 8 preguntas
erróneas obteniendo el 11.43 % restante del total de las pruebas realizadas.
A continuación se presenta la tabla 5-6 donde se define el número de consultas realizadas por
patrón, el patrón de consulta simple o anidada, para posteriormente especificar el número de
consultas respondidas correctamente y las consultas incorrectas del patrón de consulta que se
empleo.
Tabla 5-6. Resumen de las pruebas realizadas.
Consultas Patron de consulta Correctas Incorrectas
1 MapTool-Es-Triple-Dom-Sub-A 1 0
1 MapTool-Es-Triple-Dom-Sub-AA 0 1
4 MapTool-Es-Triple-Dom-Sub-B 4
1 MapTool-Es-Triple-Dom-Sub-BB 1 0
14 MapTool-Es-Triple-Dom-Sub-BG 12 2
8 MapTool-Es-Triple-Dom-Sub-BGG 8 0
1 MapTool-Es-Triple-Dom-Sub-BGGG 1 0
1 MapTool-Es-Triple-Dom-Sub-E 1 0
1 MapTool-Es-Triple-Dom-Sub-F 1 0
1 MapTool-Es-Triple-Dom-Sub-GGGB 0 1
24 MapTool-Es-Triple-Dom-Sub-GB 21 3
1 MapTool-Es-Triple-Dom-Sub-GBB 1 0
6 MapTool-Es-Triple-Dom-Sub-GBG 6 0
6 MapTool-Es-Triple-Dom-Sub-GGB 5 1
70 62 8
El resultado del análisis de las pruebas elaboradas se presenta en la tabla 5-7 en resumen:
Tabla 5-7. Número de preguntas y porcentaje de efectividad de la herramienta.
Preguntas Porcentaje
Correctas 62 88.57%
Incorrectas 8 11.43%
Total 70 100%
En la figura 5-16 se presenta el porcentaje redondeado de efectividad de la herramienta
respecto a las pruebas realizadas en el presente plan de pruebas.
Figura 5-16. Porcentaje de efectividad de la herramienta de
Las pruebas elaboradas se utilizaron para el mejoramiento de la herramienta. Con las pruebas
se logró identificar el uso de múltiples valores en los umbrales utilizados para obtener una respuesta
correcta.
A continuación se presenta la
umbrales utilizados.
Tabla 5-8. Relaciones de elementos ontológicos y los umbrales utilizados.
Elemento
Clase
Relación
Instancia
En las pruebas realizadas se
para realizar la comparación de las cadenas de texto en las relaciones era poco e
sentido se optó por implementar otros algoritmos que se adecuaran al tipo de cadenas de texto que se
estaban evaluando logrando así un mejoramiento en los resultados obtenidos en la similitud de
cadenas.
Efectividad de la herramienta
Capítulo V. Pruebas
se presenta el porcentaje redondeado de efectividad de la herramienta
respecto a las pruebas realizadas en el presente plan de pruebas.
Porcentaje de efectividad de la herramienta de extracción de información.
Las pruebas elaboradas se utilizaron para el mejoramiento de la herramienta. Con las pruebas
identificar el uso de múltiples valores en los umbrales utilizados para obtener una respuesta
enta la tabla 5-8 especificando los elementos de la ontología y los
Relaciones de elementos ontológicos y los umbrales utilizados.
Elemento Umbral
Clase .90
Relación .80
Instancia .70
En las pruebas realizadas se logró identificar que el algoritmo (Monge&Elkan, 1996) utilizado
para realizar la comparación de las cadenas de texto en las relaciones era poco e
por implementar otros algoritmos que se adecuaran al tipo de cadenas de texto que se
estaban evaluando logrando así un mejoramiento en los resultados obtenidos en la similitud de
89%
11%
Efectividad de la herramienta
Correctas
Incorrectas
Capítulo V. Pruebas
90
se presenta el porcentaje redondeado de efectividad de la herramienta
extracción de información.
Las pruebas elaboradas se utilizaron para el mejoramiento de la herramienta. Con las pruebas
identificar el uso de múltiples valores en los umbrales utilizados para obtener una respuesta
especificando los elementos de la ontología y los
Relaciones de elementos ontológicos y los umbrales utilizados.
identificar que el algoritmo (Monge&Elkan, 1996) utilizado
para realizar la comparación de las cadenas de texto en las relaciones era poco efectivo. En este
por implementar otros algoritmos que se adecuaran al tipo de cadenas de texto que se
estaban evaluando logrando así un mejoramiento en los resultados obtenidos en la similitud de
Capítulo V. Pruebas
91
El algoritmo utilizado en cadenas pequeñas de un máximo de 5 caracteres fue el algoritmo de
(Levenshtein, 1965) utilizado para comparar clases e instancias y relaciones. El otro algoritmo
(Nedleman&Wunch, 1970) fue utilizado en la mayoría de las relaciones e instancias que tiene una
longitud mayor a 5 y de no más de 14 caracteres de longitud. El algoritmo (Monge&Elkan, 1996) se
utiliza en cadenas con longitudes mayores a 14 caracteres. Con el uso de estos algoritmos derivados
de la librería SimMetric (Chapman, 2005) se obtienen mejores resultados que usando únicamente un
algoritmo para la tarea de comparación de cadenas de texto.
5.5.1 Justificación de las pruebas fallidas
Se presentaron dos problemas en la mayoría de los casos de prueba que resultaron
incorrectos debido a que el etiquetador TreeTagger no reconoce algunos tiempos verbales siendo la
más frecuente los verbos en pretérito indicativo.
El segundo problema encontrado fue en la base de datos de EuroWordNet ya que se
encuentra en una versión incompleta; lo cual hace que algunas pruebas realizadas sobre los verbos
no encuentren verbos relacionados al que se está utilizando para extraer el vector de sinónimos y no
es posible realizar un mapeo de esta palabra con otras existentes en los términos que representan al
verbo dentro de la tripleta.
Capítulo VI. Conclusiones
92
Capítulo 6. CONCLUSIONES En este capítulo se describen los resultados obtenidos con el desarrollo de la presente
investigación. Se presentan las conclusiones finales del desarrollo de la herramienta para la
extracción de información contenida en ontologías de dominio. Se presentan las aportaciones del
presente trabajo de tesis así como también trabajos futuros que se derivan de esta investigación.
Capítulo VI. Conclusiones
93
6.1 Conclusiones
Los patrones de las tripletas de búsqueda identificados en esta investigación se pueden
combinar en relación a la salida del análisis de la consulta de lenguaje natural. Esto permite que la
herramienta generada de esta investigación se adapte a otros proyectos donde se requiera extraer
información de ontologías de dominio. En relación a este apartado las ontologías que se encuentren
dentro del repositorio deben tener una estructura conocida por el ingeniero de ontologías para obtener
mejores resultados en la extracción de la información.
En el presente trabajo de investigación se utilizaron dos componentes para la identificación y
enriquecimiento de términos que recibe como entrada el prototipo para la extracción de información
contenida en ontologías de dominio. El primer componente que se utilizó en esta investigación fue el
etiquetador TreeTagger el cual identifica los verbos y nombres comunes para un mejor procesamiento.
Estos verbos se encuentran en las tripletas de búsqueda así como en los elementos de la ontología en
los que se identificaban las raíces verbales para realizar un mapeo con un grado de confianza más
alto. El segundo componente es la base de datos lexicográfica de EuroWordNet para el
enriquecimiento de los términos de las tripletas. En este punto se utilizan los sinónimos de los
términos identificados de los nombres comunes y verbos siempre que estos contengan información en
la base de datos. Este enriquecimiento de los términos generan más probabilidades para realizar
mapeos con los elementos que se extraen de la bases de datos.
Se implementaron 3 diferentes tipos de algoritmos para la comparación de cadenas de texto
con los cuales se obtienen mejores resultados. Los algoritmos son aplicados dependiendo de la
longitud de la cadena así como el elemento ontológico que se evalué.
1. El algoritmo (Levenshtein, 1965) es utilizado cuando las cadenas de texto son menores o
iguales a 5 caracteres de longitud. Se aplica a las instancias e instancias de relaciones que
tienen la función de relación en donde en la mayoría de los casos sirven para unir una tripleta
con otra. Para este caso en particular se obtienen mejores resultados que los generados por
los algoritmos propuestos por (Monge&Elkan, 1996) y (Needleman&Wunch, 1970).
2. El algoritmo (Needleman&Wunch, 1970) es utilizado en cadenas de texto mayores a 5
caracteres y menores o iguales a 14 caracteres de longitud. Es aplicado en instancias,
instancias de relaciones y clases. Este algoritmo obtiene mejores resultados en cadenas de
texto que se encuentran con estas restricciones.
3. El algoritmo (Monge&Elkan, 1996) se utiliza únicamente para las instancias ontológicas donde
la longitud de la cadena supera los 14 caracteres, esto se debe a que el algoritmo es el que
mejor resultados obtiene en cadenas de texto grandes.
Capítulo VI. Conclusiones
94
Se identificaron 3 diferentes umbrales para obtener mejores resultados en el mapeo de los
elementos de las tripletas con los elementos de las ontologías de dominio en relación al tipo de
elemento ontológico que se evalúa.
1. El umbral que se estableció para determinar si una clase es mapeada sintácticamente
correcta fue de 0.9. Este valor es el mayor de los umbrales ya que la extracción de las
instancias correspondientes a este método exige tener la mejor similitud entre los conceptos.
2. El umbral de las relaciones se estableció en 0.8 ya que en varias ocasiones el etiquetador
TreeTagger no lograba encontrar la raíz verbal debido al tiempo en el que se encontraba
definido en la ontología o en las tripletas de búsqueda dicha instancia.
3. Las Instancias se establecieron en el umbral de 0.7 debido a que existen instancias
representadas por cadenas de texto muy largas.
La herramienta generada a partir de esta investigación se presenta como una forma novedosa
para realizar la extracción de información por medio de ontologías de dominio utilizando para ello
técnicas de alineamiento de ontologías. Por lo que permite tener una mayor flexibilidad para realizar
esa tarea en comparación al uso de un lenguaje de consulta estándar como lo es SPARQL.
6.2 Aportaciones
Las principales aportaciones realizadas en el estudio de la extracción de información en
ontologías con la herramienta desarrollada a partir de la presente investigación son los siguientes:
A. En esta investigación se realizó el tratamiento de los verbos en el idioma español con ayuda del
etiquetador TreeTagger lo que permite obtener el contexto de la consulta del usuario. Los verbos
representan acciones sobre distintos elementos de una oración o consulta se desean conocer.
B. La búsqueda de información se realiza en múltiples ontologías de dominio, logrando obtener un
mayor alcance en los resultados de las consultas ejecutadas por el usuario.
C. El enriquecimiento de los elementos que se utilizan para obtener una mayor expresividad y así
obtener mejores resultados al utilizar sinónimos para comparar a los elementos de las ontologías.
D. La integración con diferentes herramientas que se encargan de analizar preguntas elaboradas en
lenguaje natural siempre y cuando generen tripletas en el modo de los patrones establecidos en la
presente investigación.
E. Integración de bases de datos lexicográficas de WordNet y EuroWordNet para realizar la
extracción de información en ontologías elaboradas en el idioma Inglés y Español
respectivamente.
F. Se aplicaron diferentes algoritmos para la comparación de cadenas de texto así como de
diferentes umbrales para la obtención de mejores resultados.
Capítulo VI. Conclusiones
95
No obstante, es necesario realizar un tratamiento previo de la consulta en lenguaje natural
para realizar una mejor extracción de la información utilizando la herramienta de mapeo de tripletas
con ontologías, ya que esta investigación recibe como entrada el resultado de un módulo previo de
análisis del lenguaje natural a tripletas.
La unión de los dos módulos genera una herramienta completa para la búsqueda de
información basada en preguntas-respuestas mediante el uso de ontologías para responder las
interrogantes que se presentan.
6.3 Trabajos futuros
Partiendo de los resultados de las pruebas, conclusiones y aportaciones generadas en esta
investigación se logró obtener una serie de actividades que ayudarían a mejorar y validar el presente
trabajo de investigación. Estas actividades son listadas a continuación:
A. Pruebas de ironLP basándose en la herramienta completa; es decir, probar los módulos de
(Vázquez, 2010) y la presente investigación para que por medio de un gold estándar validado se
obtengan el porcentaje real de efectividad de ironLP.
B. Pruebas de la herramienta de mapeo de ontologías de dominio generada para el idioma Inglés.
C. Integración e implementación de métodos que exploten axiomas que se encuentren establecidos
en las ontologías.
D. Integración e implementación de métodos para la extracción de información contenida en
instancias de propiedades así como en las relaciones de estas propiedades.
E. Extender la herramienta para que pueda leer ontologías en codificadas en OWL 2.
F. Integrar un módulo para la generación de consultas en SPARQL al término de la identificación de
todos los elementos que se desean extraer.
G. Visualizador de textos a partir de la instancia encontrada.
Estas actividades que se proponen tienen la finalidad de generar nuevos proyectos de
investigación. Se pretende darle continuidad a la presente investigación para mejorarla en medida que
se integren los trabajos futuros a la misma y mejorar también el buscador semántico ironLP que se
encuentra en desarrollo.
Referencias
96
REFERENCIAS (Berners-Lee, 2000) Berners Lee T., “Semantic Web - XML2000”. [en linea],
http://www.w3.org/2000/Talks/1206-xml2k-tbl, Recuperado el 28
de marzo de 2010.
(Benslimane, 2007) Benslimane S. M., Bensaber D. A., “Ontology mapping for
querying heterogeneous information”. Año 2007.
(Chapman, 2005) Sam Chapman, (2005). “SimMetric: An open source extensible
library of Similarity and Distance Metrics”. Revisado el día:
05/10/2010. Disponible en: http://www.dcs.shef.ac.uk/
~sam/simme trics.html.
(Corcho, 2005) Corcho O, Fernández M, Gómez A, López A. “Building legal
ontologies with METHONTOLOGY and WebODE”. Law and the
Semantic Web. Legal Ontologies, Methodologies, Legal
Information Retrieval, and Applications. Año 2005.
(Cowie, 1996) Jim Cowie, Wendy Lehnert, “Information extraction”,
Communications of the ACM, v.39 n.1, p.80-91. Año 1996
doi:10.1145/234173.234209.
(Doshi, 2006) Doshi, P., Kolli, R., and Thomas, C. “Inexact matching of
ontology graphs using expectation-maximization”. Web
Semantica. 7, 2. Año 2006,90-106. DOI=
http://dx.doi.org/10.1016/j.Websem.2008.12.001
(Ehrig, 2004) Ehrig, Marc; Staab, Steffen; “QOM – Quick Ontology Mapping”
The Semantic Web – ISWC 2004 Lecture Notes in Computer
Science. Año 2004 Springer Berlin / Heidelberg Alemania pág
683-697.
(Ehrig, 2005) Ehrig, Marc and Sure, York. “FOAM - framework for ontology
alignment and mapping, results of the ontology alignment
evaluation initiative”. En Ashpole 2005, pp 72-76.
(Euzenat et al., 2008) Euzenat, J. et. al., ”Processing ontology alignments with
SPARQL”. INRIA & LIG. Grenoble, France 2008.
(Euzenat, 2004a) Euzenat, J., Loup, D., Touzani, M., Valtchev, “Ontology
alignment with ola”. McIlraith, S.A., Plexousakis, D., van
Referencias
97
Harmelen, F. (eds.) ISWC 2004. LNCS, vol. 3298, Springer,
Heidelberg (2004)
(Euzenat, 2004b) Euzenat J. and Valtchev P. “Similarity-based ontology alignment
in OWL-lite”. In Proc. 15th ECAI, pages 333–337, Valencia (ES),
2004.
(Furst, 2004) Furst, F., M. Leclere and F. Trichet “Operationalizing domain
ontologies: a method and a tool”, in European Conference on
Artificial Intelligence, R.L. de Mantaras and L. Saitta (eds),
Amsterdam: IOS Press, 318–322. año 2004.
(Furst, 2009) Frédéric F. and Francky T. “Axiom-based ontology matching”
Expert Systems, Año 2009, Vol. 26, No. 2 Pag: 218 -246
(Gruber, 1993) Gruber, T. “Toward Principles for the Design of Ontologies Used
for Knowledge Sharing”. Año 1995. International Journal of
Human and Computer Studies, 43(5/6): 907-928.
(Hakeem, 2004) Hakeem, A.; Shah, M.; “Ontology and taxonomy collaborated
framework for meeting classification” Sch. of Comput. Sci.,
Central Florida Univ., Orlando, FL, USA Pattern Recognition.
Proceedings of the 17th International Conference on. Año 2004.
pag: 219 - 222 Vol.4.ISSN: 1051-4651. ISBN: 0-7695-2128-2
(Hawke, 2010) Hawke S., Presentacion de “An Introduction to linked data”. MIT
Cambridge. Año 2010. [en linea]
http://www.w3.org/2010/Talks/0608-linked-data/ presentation.pdf
(Huang et al., 2010) Huang Chu-Ren et. al. “Ontology and the Lexicon A Natural
Language Processing Perspective”. Series: Studies in Natural
Language Processing. ISBN: 9780521886598. Año 2010.
(Jena, 2000) Jena; “Jena - A Semantic Web Framework for Java”; [en linea]
http://jena.sourceforge.net/index.html; Recuperado el Sábado
20 de noviembre de 2010.
(Kolli et al., 2008) Kolli, R et al., “OPTIMA: tool for ontology alignment with
application to semantic reconciliation of sensor metadata for
publication in SensorMap”. Semantic Computing, 2008 IEEE
International Conference on ISBN: 978-0-7695-3279-0, pág 484
– 485 agosto 2008.
Referencias
98
(Kotis&Vouros, 2004)
Kotis, Konstantinos and Vouros, George A., (2004). “The
HCONE Approach to Ontology Merging”; Springer Berlin /
Heidelberg Pag. 137-151.
(Kwak, 2010) Jungae Kwak; “Ontology Matching Based On Hypernym,
Hyponym, Holonym, And Meronym Sets In Wordnet”. Hwan-
Seung Yong; Department of Computer Science and Engineering,
Journal. International Journal of Web & Semantic Technology .
Ewha Womans University, Seoul, Korea. Issn 09762280; EIssn
09759026; año 2010; Volume 1 pag:1-14.
(Levenshtein, 1965) Levenshtein, (1966); “Binary Codes Capable of Correcting
Deletions, Insertions, and Reversals”. Soviet Physics Doklady,
10(8), 707-710.
(Li, 2004) J. Li, "LOM: A Lexicon-Based Ontology Mapping Tool". Proc.
Workshop Performance Metrics for Intelligent Systems (PerMIS
'04), 2004.
(López et. al., 2006a) Lopez Vanessa; Sabou Marta; Motta Enrico; ”PowerMap:
Mapping the Real Semantic Web on the Fly”; The Semantic Web
- ISWC 2006 Lecture Notes in Computer Science año 2006
Editorial Springer Berlin / Heidelberg pág. 414-427 url
http://dx.doi.org/10.1007/11926078_30
(López et. al., 2006b) López Vanessa, Uren Victoria, Motta Enrico, Pasin Michele
“AquaLog: An ontology-driven Question Answering system as an
interface to the Semantic Web”. Human Language Technology
Conference of North America Chapter of the Association of
Computational Linguistics Proceedings. Nueva York. 2006.
(López et al., 2009) López Vanessa, Victoria Urem, Marta Sabou, Enrico Motta.
“Cross ontology query answering on the semantic Web: An initial
evaluation”. Proceedings of the fifth International Conference on
Knowledge Capture, pag. 17-24. California, USA 2009.
(Manning, 2008) Christopher Manning, Raghavan, P., Schütze, H., “Introduction
to Information Retrieval”, Cambridge University Press. Año 2008.
ISBN: 0521865719.
(McBride, 2002) Brian McBride, (2002). “Jena: A Semantic Web Toolkit”, IEEE
Internet Computing, v.6 n.6, p.55-59, November 2002 pág. 55 -
Referencias
99
59 ISSN: 1089-7801.
(Monge&Elkan,1996) Monge, A., and Elkan, C., (1996). “The field-matching problem:
algorithm and applications”. In Proceedings of the Second
International Conference on Knowledge Discovery and Data
Mining.
(Miller, 1995) Miller, G. “WORDNET: A Lexical Database for English.
Communications” ACM , año 1995 pág 39-41.
(Navas et al, 2007) Ismael Navas et. al., “MaF: un marco de trabajo para el
alineamiento de ontologías” Campus de Teatinos 29071 Málaga
Universidad de Extremadura. [en línea ]
www.sistedes.es/sistedes/pdf/2007/eidbd-07-navas-maf.pdf.
Recuperado el día 22 de agosto de 2010
(Nedleman&Wunch, 1970) Saul B. Needleman, Christian D. Wunsch, “A General Method
Applicable to Search for Similarities in the Amino Acid Sequence
of Two Proteins”, J. Mol. Biol., 48, pp. 443-453, 1970.
(RDF, 2004) RDF. W., “RDF vocabulary description language 1.0:RDF
schema”. [en linea] http://w3.org/TR/rdf-schema. Recuperado el
28 de marzo de 2010.
(Reyes, 2011) Reyes J. A. (2011). “Creación automática de ontologías a partir
de textos con un enfoque lingüístico”. CENIDET. Cuernavaca,
Morelos, México.
(Reyes, 2011a) Reyes J. A. (2011). “Creación automática de ontologías a partir
de textos con un enfoque lingüístico”. Reporte cuatrimestral.
CENIDET Cuernavaca, Morelos, México.
(Schmid, 1994) Schmid, H., (1994) “Probabilistic part-of-speech tagging using
decision trees“.In: Proceedings of International Conference on
New Methods in Language Processing.
(Silva&Rocha, 2003) Silva, N. and Rocha, J., (2003) "MAFRA - An Ontology Mapping
Framework for the Semantic Web"; Proceedings of the 6th
International. Año 2003.
(Standford,2007) Standford, “What is an ontology?”. Universidad de Standford,
Stanford, California, USA [en linea] http://www-
ksl.stanford.edu/kst/what-is-an-ontology.html. Recuperado el 25
Referencias
100
de marzo de 2010
(SPARQL, 2008) SPARQL, W., “Query language for RDF”. [en linea] http://
w3.org/TR/rdf-sparql-query. Recuperado el 27 de febrero de
2010.
(Thanh Le et al,, 2007)
Thanh Le, B. and Dieng-Kuntz, R.. “A Graph-Based Algorithm for
Alignment of OWL Ontologies”. In Proceedings of the
IEEE/WIC/ACM international Conference on Web intelligence
(November 02 - 05, 2007). Web Intelligence. IEEE Computer
Society, Washington, DC, 466-469. Año 2007. DOI=
http://dx.doi.org/10.1109/WI.2007.10
(Tripleta, 2010) Tripleta, “Resource description framework”.[en linea]
http://es.wikipedia.org/wiki/Resource_Description_Framework.
Recuperado el 14 de abril de 2010.
(OWL, 2004) OWL, W., “Web ontology language”. [en linea] http://
w3.org/TR/owl-features . Recuperado el 27 de febrero de 2010.
(Valero et al., 2010) Valero A., et. al. “Towards Multi-Stream Question Answering
Using Answer Validation” Laboratorio de Tecnologías del
Lenguaje Instituto Nacional de Astrofísica, Óptica y Electrónica
Puebla, México. Año 2009.
(Vázquez, 2010) Vázquez, C., “Traductor de consultas en lenguaje natural a
SPARQL para realizar búsquedas sobre ontologías”, Tesis de
maestría. Cenidet, Morelos, México 2010.
(Vossen, 1998) Vossen, Piek. “Introduction to EuroWordNet” Computers and the
Humanities. Año 1998. Editorial Springer Netherlands. Computer
Science. Pág. 73-89.
(Taxonomía, 2004) Taxonomía. “Taxonomía”. [en linea] http://es.wikipedia.org /wiki
/Taxonom%C3%ADa Recuperado el 25 de febrero de 2010.
(XML, 2004) XML, W. “Extensible markup language (XML) 1.0”. [en linea]
http://www.w3.org/TR/2004/REC-xml-20040204/ Recuperado el
25 de febrero de 2010.
Anexos
101
ANEXOS
Referencias
102
Anexo A. Palabras vacías
En esta sección se presentan las palabras utilizadas para limpiar las cadenas de texto en la herramienta
y con la finalidad de obtener un mejor grado de similitud entre dos cadenas de texto que se van a comparar.
La tabla 1contiene las palabras vacías utilizadas para ontologías del idioma Español.
Tabla 1. Palabras vacías del idioma Español.
un, una, unas, unos, uno, sobre, todo, también, tras, otro, algún, alguno, alguna, algunos, algunas, ser, es,
soy, eres, somos, sois, estoy, esta, estamos, estáis, están, como, en, para, atrás, porque, porque, por, estado,
estaba, ante, antes, siendo, ambos, pero, por, poder, puede, puedo, podemos, podéis, pueden, fui, fue, fuimos,
fueron, hacer, hago, hace, hacemos, hacéis, hacen, cada, fin, incluso, primero, desde, conseguir, consigo,
consigue, consigues, conseguimos, consiguen, ir, voy, va, vamos, vais, van, vaya, bueno, ha, tener, tengo,
tiene, tenemos, tenéis, tienen, el, la, lo, las, los, su, aquí, mío, tuyo, ellos, ellas, nos, nosotros, vosotros,
vosotras, si, dentro, solo, solamente, saber, sabes, sabe, sabemos, sabéis, saben, ultimo, largo, bastante,
haces, muchos, aquellos, aquellas, sus, entonces, tiempo, verdad, verdadero, verdadera, cierto, ciertos, cierta,
ciertas, intentar, intento, intenta, intentas, intentamos, intentáis, intentan, dos, bajo, arriba, encima, usar, uso,
usas, usa, usamos, usáis, usan, emplear, empleo, empleas, emplean, ampliamos, empleáis, valor, muy, era,
eras, éramos, eran, modo, bien, cual, cuando, donde, mientras, quien, con, entre, sin, trabajo, trabajar,
trabajas, trabaja, trabajamos, trabajáis, trabajan, podría, podrías, podríamos, podrían, podríais, yo, aquel.
La tabla Anexo A-2 contiene las palabras vacías utilizadas para ontologías del idioma Inglés.
Tabla 2. Palabras vacías del idioma Inglés
a, about, above, after, again, against, all, am, an, and, any, are, aren't, as, at, be, because, been, before,
being, below, between, both, but, by, can't, cannot, could, couldn't, did, didn't, do, does, doesn't, doing, don't,
down, during, each, few, for, from, further, had, hadn't, he, he'd, he'll, he's, her, here, here's, hers, herself,
him, himself, his, how, how's, i, i'd, i'll, i'm, i've, if, in, into, is, isn't, it, it's, its, itself, let's, me, more, most,
mustn't, my, myself, no, nor, not, of, off, on, once, only, or, other, ought, our, ours, ourselves, out, over, own,
same, shan't, she, she'd, she'll, she's, should, shouldn't, so, some, such, than, that, that's, the, their, theirs,
them, themselves, then, there, there's, these, they, they'd, they'll, they're, they've, this, those, through, to, too,
under, until, up, very, was, wasn't, we, we'd, we'll, we're, we've, were, weren't, what, what's, when, when's,
where, where's, which, while, who, who's, whom, why, why's, with, won't, would, wouldn't, you, you'd, you'll,
you're, you've, your, yours, yourself, yourselves, has, hasn't, have, haven't, having.
Referencias
103
Anexo B. Resultados del análisis de algoritmos de similitud de cadenas
Los algoritmos analizados en el presente documento fueron obtenidos de la librería SimMetric
desarrollada por (Chapman, 2005). Esta librería fue desarrollada con la finalidad de proporcionar el grado de
similitud de dos cadenas de texto; donde el grado de similitud se encuentra dentro del rango de 0 a 1.
El objetivo principal del análisis de los algoritmos de comparación de cadenas es obtener el algoritmo
que mejor se adapte a las necesidades que se presentan en esta investigación. La cual se resume en realizar
comparaciones de cadenas de texto separadas por espacio en blanco considerando a cada una como un
conjunto de tokens. Para lo cual se realizaron 60 pruebas con cadenas de textos de diferente índole con la
finalidad de proporcionar distintas variaciones en las pruebas. Las pruebas se realizaron en base a las clases,
instancias y relaciones ontológicas existentes en ontologías del dominio de noticias que se utilizaron para
obtener el resultado de este análisis.
De acuerdo a los resultados obtenidos en el análisis realizado, el algoritmo desarrollado por
(Monge&Elkan, 1996) obtuvo mejores resultados. De las 60 pruebas realizadas el algoritmo obtuvo un
porcentaje significativo en relación a los 10 algoritmos evaluados en el análisis. El algoritmo que más cerca
estuvo fue (Needleman & Wunsch, 1970) el cual se encontró en un puntaje de -8 por debajo del algoritmo
propuesto por (Monge&Elkan, 1996) con 77%. En la gráfica 1 se aprecian los resultados de los algoritmos
aplicados en el análisis.
Gráfica 1. Resultados finales de los algoritmos.
0
10
20
30
40
50
60
70
80
90
100
Anexos
104
A continuación se presentan las gráficas donde se aprecian los resultados de todas las de las cadenas de texto y los algoritmos aplicados.
Tabla 3. El primer conjunto de datos está determinado por las siguientes cadenas de caracteres.
.
1 Anotacion Anotaciones
2 aplicaciones de la industria aplicacion de la industria
3 beltran leiva beltran
4 participantes de la llamada caminata contra la muerte participantes de la caminata contra la muerte
5 participantes de la llamada caminata contra la muerte caminata contra la muerte
6 participantes de la llamada caminata contra la muerte participantes de la caminata
7 cerrar la calzada del canal de tezontle cerraron la calzada de tezontle
8 cerrar la calzada del canal de tezontle cerraron canal de tezontle
9 cerrar la calzada del canal de tezontle cerraron la calzada tezontle
10 no concretarse la separacion del cohete no realizar la separacion del cohete
11 no concretarse la separacion del cohete no realizar la division del cohete
12 no concretarse la separacion del cohete No se realizo la division del cohete
13 cuerpo de bomberos bomberos
14 decenas de viviendas varias viviendas
15 decenas de viviendas viviendas
Referencias
105
Gráfica 2. Comparativa del rendimiento de los algoritmos con instancias ontológicas en el primer conjunto de datos.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Jaro Levenshtein Jaccard Similarity
Block Distance
Cosine Similarity
Dice Similarity
Euclidean Distance
Matching Coefficient
Monge Elkan Needleman Wunch
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Referencias
106
Tabla 4. El segundo conjunto de datos está determinado por las siguientes cadenas de caracteres.
No Cadena original Cadena modificada
16 difundir el desarrollo de la ciencia y la tecnologia difundir el desarrollo de la ciencia
17 difundir el desarrollo de la ciencia y la tecnologia divulgar el desarrollo de la ciencia
18 difundir el desarrollo de la ciencia y la tecnologia divulgar el desarrollo de la ciencia y tecnologia
19 fallecio dos niños y dos adultos fallecieron niños y adultos
20 insultos y disparos insultos
21 insultos y disparos disparos
22 intentar privar de la vida quitar la vida
23 intentar privar de la vida Intentar quitar la vida
24 intentar privar de la vida tratar de quitar la vida
25 kilometros al oeste del puerto de valparaiso kilometros al oeste del puerto
26 kilometros al oeste del puerto de valparaiso kilometros de valparaiso
27 kilometros al oeste del puerto de valparaiso kilometros del puerto
28 madrugada del viernes 04 de marzo madrugada 04 de marzo
29 madrugada del viernes 04 de marzo madrugada del viernes
30 madrugada del viernes 04 de marzo viernes 04 de marzo
Referencias
107
Gráfica 3. Comparativa del rendimiento de los algoritmos con instancias ontológicas en el segundo conjunto de datos.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Jaro Levenshtein Jaccard Similarity
Block Distance
Cosine Similarity
Dice Similarity
Euclidean Distance
Matching Coefficient
Monge Elkan Needleman Wunch
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Referencias
108
Tabla 5. El tercer conjunto de datos está determinado por las siguientes cadenas de caracteres.
No Cadena original Cadena modificada
31 almacenaba material pirotecnico guardaba material pirotecnico
32 almacenaba material pirotecnico almacenaba material inflamable
33 almacenaba material pirotecnico almacenaba pirotecnia
34 jose anotnio bermudez aguilar jose anotnio aguilar
35 jose anotnio bermudez aguilar jose anotnio bermudez
36 jose anotnio bermudez aguilar jose aguilar
37 jose anotnio bermudez aguilar anotnio bermudez
38 jose anotnio bermudez aguilar anotnio aguilar
39 produccion de uromodulina crea uromodulina
40 produccion de uromodulina produce uromodulina
41 tentativa de homicidio tentativa de asesinato
42 tentativa de homicidio Intento de homicidio
43 base vandenberg de la fuerza aerea en california base vanderberg de la fuerza aerea
44 base vandenberg de la fuerza aerea en california base de la fuerza aerea
45 base vandenberg de la fuerza aerea en california base de la fuerza aerea en california
Referencias
109
Gráfica 4. Comparativa del rendimiento de los algoritmos con instancias ontológicas en el tercer conjunto de datos.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Jaro Levenshtein Jaccard Similarity
Block Distance
Cosine Similarity
Dice Similarity
Euclidean Distance
Matching Coefficient
Monge Elkan Needleman Wunch
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
Referencias
110
Tabla 6. El primer conjunto de pruebas basado en relaciones está determinado por las siguientes cadenas de caracteres.
No Cadena original Cadena Modificada
1 es excretada en se excreto
2 es excretada en se excreto en
3 está formado por formado por
4 está formado por esta formado
5 fue coordinado por coordinado por
6 fue financiado por financiado por
7 fue financiado por financiado
8 fue llevado a cabo por Se llevo a cabo en
9 fue llevado a cabo por llevo a cabo
10 tiene asistencias asistencias
11 tiene ciudad ciudad
12 tiene documento documento
13 tiene fecha fecha
14 fue desarrollado por desarrollo
15 fue desarrollado por se desarrollo
Referencias
111
Gráfica 5. Comparativa del rendimiento de los algoritmos con relaciones ontológicas.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Jaro Levenshtein Jaccard Similarity
Block Distance
Cosine Similarity
Dice Similarity
Euclidean Distance
Matching Coefficient
Monge Elkan Needleman Wunch
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Referencias
112
Anexo C. Resultados de las pruebas realizadas
En esta sección se presentan los resultados finales obtenidos de los casos de prueba definidos dentro del plan de pruebas en este
documento se encuentran las pruebas exitosas así como también las pruebas fallidas.
En la tabla C-1 se describen las pruebas realizadas sobre la herramienta para la extracción de información contenida en ontologías:
Tabla 7. Comparativa del rendimiento de los algoritmos con relaciones ontológicas.
No. Consulta Parámetros Tripletas Correcto
1 [ demoraron, argumento1, x ?]
[demoraron, argumento2, el
lanzamiento del Endeavour ]
Idioma: Español
Dominio: Noticias
Subdominio: Ciencia y tecnología
aplazan argumento 1 la NASA
retrasar argumento 1 la NASA
aplazan argumento 2 diez días lanzamiento de transbordador endeavour
retrasar argumento 2 el lanzamiento del transbordador espacial endeavour
Si
2 [ aplazo, argumento1, x ? ]
[ aplazo, argumento2, el lanzamiento del transbordador ]
Idioma: Español
Dominio: Noticias
Subdominio: Ciencia y tecnología
La búsqueda realizada no causo ninguna respuesta. No
3 [llevara, argumento1, el Endeavour]
[llevara, argumento2, x?] [llevara, argumento3, para que sea instalado fuera de la estación espacial ]
Idioma: Español
Dominio: Noticias Subdominio: Ciencia y tecnología
llevara argumento 1 el Endeavour llevara argumento 2 detector de particulas llamado espectometro magnetico alpha
llevara argumento 3 para que sea montado fuera de la estación espacial
Si
4 [guiado, argumento1, el Endeavour]
[guiado, argumento2, x?] [guiado, argumento3, en la instalación fuera de la estación ]
Idioma: Español
Dominio: Noticias
Subdominio: Ciencia y tecnología
llevara argumento 1 el Endeavour llevara argumento 2 detector de particulas llamado espectometro magnetico alpha
llevara argumento 3 para que sea montado fuera de la estación espacial
Si
5 [retraso, causado por, x?] Idioma: Español retrasar causado por un problema de calendario Si
Referencias
113
[retraso, argumento2, lanzamiento del transbordador Endeavour]
Dominio: Noticias
Subdominio: Ciencia y tecnología
en la estacion espacial internacional
retrasar argumento 2 el lanzamiento del transbordador espacial endeavour
6 [demoraron, originado por, x?] [demoraron, argumento2, lanzamiento del transbordador Endeavour]
Idioma: Español Dominio: Noticias
Subdominio: Ciencia y tecnología
retrasar causado por un problema de calendario en la estacion espacial internacional
retrasar argumento 2 el lanzamiento del transbordador espacial endeavour
Si
7 [ postergo, argumento1, x ? ]
[ postergo, argumento2, la misión ]
[ postergo , argumento3, para evitar que se sobre pusiera con una nave rusa ]
Idioma: Español
Dominio: Noticias
Subdominio: Ciencia y tecnología
postergo argumento 1 la agencia espacial estadunidense
postergo argumento 2 la mision postergo argumento 3 para evitar que esta se sobrepusiera con el arribo de una nave de carga rusa al puesto en orbita
Si
8 [ demoraron, argumento1, x ? ]
[ demoraron, argumento2,la misión]
[demoraron, argumento3, para evitar una colisión con una nave de carga rusa ]
Idioma: Español
Dominio: Noticias
Subdominio: Ciencia y tecnología
postergo argumento 1 la agencia espacial estadunidense
postergo argumento 2 la mision postergo argumento 3 para evitar que esta se sobrepusiera con el arribo de una nave de carga rusa al puesto en orbita
Si
9 [ temblor, originado por, x ? ]
[ temblor, espacio, en Japón ]
Idioma: Español
Dominio: Noticias Subdominio: Desastres
temblor causa alerta tsunami
temblor espacio en japon
Si
10 [ comunicaron, argumento1, la Agencia Meteorológica Japonesa ]
[ comunicaron,argumento2,temblor]
[ temblor, espacio, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
anuncio argumento 1 la agencia meteorologica japonesa
anuncio argumento 2 sismo sismo espacio epicentro a 66 km al este de sendai y a una profundidad de 256 km
Si
11 [ alerto, argumento1, x ? ]
[ alerto, argumento2 , sobre el
riesgo de un tsunami ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
alerto argumento 1 la agencia meteorologica japonesa
alerto argumento 2 sobre el riesgo de un tsunami
Si
12 [ fue perjudicada, argumento1, la Idioma: Español fue afectada argumento 1 la prefectura de miyagi Si
Referencias
114
prefectura de Miyagi ]
[ fue perjudicada, tiempo, x ? ]
Dominio: Noticias
Subdominio: Desastres
fue afectada tiempo el 11 de marzo
13 [informo, argumento1, x ? ]
[informo,argumento2 ,lucha ] [lucha,argumento1 ,los técnicos ]
[lucha,argumento2 ,para controlar los reactores de la central de Fukushima ]
Idioma: Español
Dominio: Noticias Subdominio: Desastres
informo argumento 1 la empresa gestora de la planta tepco
informo argumento 2 luchan
luchan argumento 1 los tecnicos
luchan argumento 2 para controlar los reactores accidentados de la central nuclear japonesa de fukushima
Si
14 [ agrego, argumento1, el portavoz de Tokyo Electric Power ]
[ agrego, argumento2, x ? ]
Idioma: Español Dominio: Noticias
Subdominio: Desastres
añadio argumento 1 el portavoz de tokyo electric power añadio argumento 2 desconocemos si hay hubo algun impacto en las instalaciones pues los trabajadores salieron del area
Si
15 [se cotizaba, argumento1, el barril de petróleo tipo Brent del Mar del Norte ]
[ se cotizaba, argumento2, el mercado electrónico Intercontinental Petroleum Exchange ] [se cotizaba, tiempo, x ?]
Idioma: Español
Dominio: Noticias Subdominio: Finanzas
se cotizaba argumento 1 el barril de petroleo tipo brent del mar del norte se cotizaba argumento 2 en el mercado electronico intercontinental petroleum exchange ICE se cotizaba tiempo este jueves
Si
16 [se ubica, argumento1, el Brent ]
[se ubica, argumento2, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Finanzas
se ubica argumento 1 el brent se ubica argumento 2 en 12.199 dolares
Si
17 [cotizo, argumento1, la canasta de la Organización de Países Exportadores de Petróleo]
[cotizo, argumento2, x ? ]
Idioma: Español
Dominio: Noticias Subdominio: Finanzas
cotizo argumento 1 la canasta de la organizacipon de paises exportadores de petroleo OPEP cotizo argumento 2 en 11.762 dolares lo que represento una alza de 1.02 dolares 0.88 por ciento respecto al cierre del martes
Si
18 [cayo, argumento1, x?]
[cayo, argumento2, 31 centavos de dólar respecto al cierre del
Idioma: Español
Dominio: Noticias
La búsqueda realizada no causo ninguna respuesta. No
Referencias
115
miércoles] Subdominio: Finanzas
19 [ fue hospitalizado, argumento1, x?]
[ fue hospitalizado, argumento2, en estado crítico ]
Idioma: Español
Dominio: Noticias
Subdominio: Internacionales
hospitalizado argumento 1 alencar ex vicepresidente brasileno
hospitalizado argumento 2 en estado critico
Si
20 [ comunicaron,argumento1,el hospital Sirio Libanes de Sao Paulo]
[ comunicaron, argumento2, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Internacionales
anuncio argumento 1 el hospital sirio libanes de sao paulo anuncio argumento 2 el ex vicepresidente de brasil jose alencar volvio a ser internado hoy a raiz de fuertes dolores abdominales y se encuentra en estado critico
Si
21 [ goberno, argumento1, x ? ]
[ goberno, espacio, Brasil ]
[ goberno, tiempo, entre 2003 y 2010]
Idioma: Español
Dominio: Noticias
Subdominio: Internacionales
gobernó argumento 1 luiz inacio lula da silva
gobernó espacio Brasil
gobernó tiempo entre 2003 y 2010
Si
22 [administraron, argumento1, x ? ] [administraron, espacio, Brasil ]
[administraron, tiempo, entre 2003 y 2010 ]
Idioma: Español Dominio: Noticias
Subdominio: Internacionales
gobernó argumento 1 luiz inacio lula da silva
gobernó espacio Brasil
gobernó tiempo entre 2003 y 2010
Si
23 [administraron, argumento1, Luiz Inacio Lula da Silva] [administraron, espacio, Brasil]
[administraron, tiempo, x?]
Idioma: Español
Dominio: Noticias Subdominio: Internacionales
gobernó argumento 1 luiz inacio lula da silva
gobernó espacio brasil gobernó tiempo entre 2003 y 2010
Si
24 [batallado, argumento1, el político de 79 años de edad]
[batallado, argumento2, x?]
Idioma: Español
Dominio: Noticias
Subdominio: Internacionales
lucha argumento 1 el politico de 79 anos de edad lucha argumento 2 contra un cancer desde 1997
Si
25 [ dejaron, argumento1, 6 cuerpos ]
[ dejaron, espacio, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Nacionales
dejan argumento 1 6 cuerpos dejan espacio sobre autopista del sol
Si
26 [ encontraron, argumento1, los Idioma: Español encontraron argumento 1 agentes de la PME Si
Referencias
116
agentes de la PME]
[ encontraron,argumento2, x ? ]
Dominio: Noticias
Subdominio: Nacionales
encontraron argumento 2 un automóvil tipo accord abandonado y con manchas de sangre
27 [ hallaron, argumento1, los agentes de la PME ] [ hallaron, argumento2, x ? ]
Idioma: Español
Dominio: Noticias Subdominio: Nacionales
encontraron argumento 1 agentes de la PME encontraron argumento 2 un automóvil tipo accord abandonado y con manchas de sangre
Si
28 [ enfrentamiento, argumento1, entre grupos armados ]
[ enfrentamiento, espacio, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Nacionales
enfrentamiento argumento 1 entre grupos armados enfrentamiento espacio en la comunidad santana municipio de choix
Si
29 [replica de 6.4 grados sacude de nuevo Fukushima, tiene_fecha_pub, x ? ]
[replica de 6.4 grados sacude de nuevo Fukushima, tiene_lugar_pub, x ? ]
Idioma: Español
Dominio: Noticias Subdominio: Desastres
replica de 6 4 grados sacude de nuevo fukushima tiene lugar pub tokio japon
replica de 6 4 grados sacude de nuevo fukushima tiene fecha pub martes 29 de marzo de 2011
Si
30 [ fueron dañados, argumento1, seis reactores] [ fueron dañados, argumento2, x ?]
Idioma: Español
Dominio: Noticias Subdominio: Desastres
dañados por argumento 1 seis reactores dañados por argumento 2 terremoto
Si
31 [ fueron afectados, argumento1, seis reactores ]
[ fueron afectados,argumento2,x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
dañados por argumento 1 seis reactores dañados por argumento 2 terremoto
Si
32 [ temblor, tiempo, x ? ] Idioma: Español Dominio: Noticias
Subdominio: Desastres
sismo tiempo este jueves sismo tiempo a las 23:32 horas
Ontología: JR-DS-01
sismo tiempo dia 11
sismo tiempo 19:54 hora local
sismo tiempo 11 de marzo
terremoto tiempo hoy
Ontología: UN-DS-01
Si
33 [ sismo, tiempo, x ? ] Idioma: Español sismo tiempo este jueves Si
Referencias
117
Dominio: Noticias
Subdominio: Desastres
sismo tiempo a las 23:32 horas
Ontología: JR-DS-01
sismo tiempo día 11 sismo tiempo 19:54 hora local
sismo tiempo 11 de marzo
terremoto tiempo hoy
Ontología: UN-DS-01
34 [ temblor, tiempo, Hoy ]
[ temblor, espacio, x ? ]
Idioma: Español
Dominio: Noticias Subdominio: Desastres
terremoto tiempo hoy terremoto espacio noreste de Japón
Si
35 [terremoto, tiempo, Hoy]
[terremoto, espacio, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
terremoto tiempo hoy terremoto espacio noreste de Japón
Si
36 [ sismo, tiempo, Hoy ]
[ sismo, espacio, x ? ]
Idioma: Español
Dominio: Noticias Subdominio: Desastres
terremoto tiempo hoy terremoto espacio noreste de Japón
Si
37 [sismo, tiempo, Hoy ]
[sismo, espacio, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
terremoto tiempo hoy terremoto espacio noreste de Japón
Si
38 [ tsunami, espacio, las zonas de la costa noreste ]
[ tsunami, tiempo, x ? ]
Idioma: Español Dominio: Noticias
Subdominio: Desastres
tsunami espacio zonas de la costa noreste tsunami tiempo día 11
Si
39 [ tsunami, espacio, la costa
noreste ]
[ tsunami, tiempo, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
tsunami espacio zonas de la costa noreste tsunami tiempo día 11
Si
40 [ examina, argumento1, x ? ] [ examina, argumento2, los productos importados de Japón ]
Idioma: Español Dominio: Noticias
Subdominio: Desastres
examina argumento 1 taiwan
examina argumento 2 los productos importados de Japón
Si
Referencias
118
41 [ están investigando, argumento1,
x ? ]
[ están investigando, argumento2, los productos de Japón ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
examina argumento 1 Taiwán
examina argumento 2 los productos importados de japon
Si
42 [ anuncio, argumento1, un funcionario isleño ]
[ anuncio, argumento2, x ? ]
[ anuncio, tiempo, Hoy ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
anuncio argumento 1 un funcionario isle o anuncio argumento 2 Taiwán ha detectado niveles de radiación superiores a lo normal pero que no suponen peligro para la salud en el embalaje de cartón de fideos importados de Japón
anuncio tiempo hoy
Si
43 [ comunicado, argumento1, funcionario isleño ]
[ comunicado, argumento2, x ? ]
[ comunicado, tiempo, Hoy ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
anuncio argumento 1 un funcionario isle o anuncio argumento 2 Taiwán ha detectado niveles de radiación superiores a lo normal pero que no suponen peligro para la salud en el embalaje de cartón de fideos importados de Japón
anuncio tiempo hoy
Si
44 [ detecta, argumento1, Taiwán ]
[ detecta, argumento2, radiación en fideos japoneses ]
[ detecta, espacio, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
detecta argumento 1 taiwan
detecta argumento 2 radiación en fideos japoneses detecta espacio taiwan
Si
45 [ examina, argumento1, Taiwan ]
[ examina, argumento2, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
examina argumento 1 Taiwán examina argumento 2 los productos importados de japon
Si
46 [ investigando, argumento1,
Taiwan ]
[ investigando, argumento2, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
examina argumento 1 Taiwán examina argumento 2 los productos importados de Japón
Si
47 [ pidió, argumento1, el perredista ]
[ pidió, argumento2, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Policiacos
pidió argumento 1 el perredista pidió argumento 2 esperar los resultados que arrojen la consulta ciudadana realizada este domingo en territorio mexiquense
Si
Referencias
119
48 [ ha exigido, argumento1, el perredista ]
[ ha exigido, argumento2, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Policiacos
La búsqueda realizada no causo ninguna respuesta. No
49 [ reitero, argumento1, x ? ] [ reitero, argumento2, que no será el abanderado de una eventual alianza política con el Partido Acción Nacional (PAN) ]
Idioma: Español Dominio: Noticias
Subdominio: Policiacos
reitera argumento 1 alejandro encinas rodríguez
reitera argumento 2 que no será el abanderado de una eventual alianza entre este organismo político y el partido acción nacional PAN
Si
50 [ dijo, argumento1, el perredista ] [ dijo, argumento2, que celebra que se realicen ejercicios ciudadanos ]
[ dijo, tiempo, x ? ]
Idioma: Español Dominio: Noticias
Subdominio: Policiacos
dijo argumento 1 el perredista dijo argumento 2 celebra que se realicen ejercicios ciudadanos dijo tiempo alrededor de las 19:30 horas
Si
51 [ ha manifestado, argumento1, el perredista ] [ ha manifestado, argumento2, celebra que se realicen ejercicios ciudadanos ] [ ha manifestado, tiempo, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Policiacos
La búsqueda realizada no causo ninguna respuesta. No
52 [ señalo, argumento1, el exjefe del Gobierno del Distrito federal ] [ señalo, argumento2, x ? ] [ señalo, espacio, su cuenta de Twitter ]
Idioma: Español
Dominio: Noticias Subdominio: Policiacos
señalo argumento 1 el ex jefe del gobierno del distrito federal señalo argumento 2 lo que quiero reiterar es que no voy a participar en una eventual alianza entre mi partido el PRD y el PAN lo digo con toda claridad
señalo espacio su cuenta en twitter
Si
53 [ explosión, controlaron, x ? ] [ explosión, fue originada por, almacenamiento de material pirotécnico ]
Idioma: Español Dominio: Noticias
Subdominio:
explosión fue controlado por cuerpo de bomberos
explosión causado por almacenaba material pirotécnico
Si
54 [ explosión, fue controlada por, cuerpo de bomberos] [ explosión, provoco, x ? ] [explosión, afecto, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio:
explosión fue controlado por cuerpo de bomberos explosión provoca cerrar la calzada canal de tezontle
explosión afecto sies viviendas
Si
Referencias
120
55 [ explosión, fue originado por, el almacenamiento de material pirotécnico ] [ explosión, tiene unidad temporal, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio:
explosión causado por almacenaba material pirotécnico explosión tiene unidad temporal temporal 1
Si
56 [x?, sucedió en, Iztacalco] [x?, tiene unidad temporal, 18:00 ]
Idioma: Español
Dominio: Noticias
Subdominio:
La búsqueda realizada no causo ninguna respuesta. No
57 [ cuerpo de bomberos, is-a, x ? ]
Idioma: Español
Dominio: Noticias Subdominio:
cuerpo de bomberos es organización Si
58 [ x ?, is-a, acontecimientos ]
Idioma: Español
Dominio: Noticias
Subdominio:
terremoto es desastres
explosión es desastres
Ontología: Ontología 1
balean a estudiante es policiaco balacera es policiaco
expo robótica 2010 es ciencia
Ontología: Ontología 2
hallan gen es tecnológico
Ontología: Ontología 3
sismo es desastres
Ontología: Ontología 4
falla lanzamiento es evento
Ontología: Ontología 5
Si
59 [ balacera, participo, x ?] [balacera, fue originada por, disparos ]
Idioma: Español
Dominio: Noticias
Subdominio:
balacera participo José Gpe Ramírez
balacera participo José Antonio Bermúdez Aguilar
balacera causado por disparos
Si
Referencias
121
60 [Jose Gpe Ramirez, traslado, x?] [balacera, participo, Jose Gpe Ramirez ]
Idioma: Español
Dominio: Noticias
Subdominio:
José Gpe Ramírez fue trasladado por cruz roja
balacera participo José Gpe Ramírez
Si
61 [ balacera, provoco, x?] [ balacera, participaron, Jose Antonio Bermudez Aguilar ] [ balacera, participaron, Jose Gpe Ramirez ]
Idioma: Español Dominio: Noticias
Subdominio:
balacera participo José Gpe Ramírez
balacera participo José Antonio Bermúdez Aguilar
balacera causado por disparos
Si
62 [ Expo Robótica 2010, ofrecieron, x?]
Idioma: Español
Dominio: Noticias Subdominio:
expo robótica 2010 ofreció talleres
expo robótica 2010 ofreció conferencias Si
63 [ expo robótica 2010, participo, x?] [ expo robótica 2010, asistieron, jóvenes de instituciones educativas]
Idioma: Español
Dominio: Noticias
Subdominio:
La búsqueda realizada no causo ninguna respuesta. No
64 [hallazgo gen, corresponde a, nueva variante] [ nueva variante, regula, x ? ]
Idioma: Español
Dominio: Noticias Subdominio:
hallan gen pertenece a nueva variante
nueva variante regula producción de uromodulina
Si
65 [ hallazgo gen, corresponde, nueva variante ]
[ hallazgo gen, descubrió, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio:
La búsqueda realizada no causo ninguna respuesta. No
66 [ hallazgo gen, pertenece a, nueva variante]
[ nueva variante, disminuye, hipertensión]
[ hipertensión, afecta a, adultos de la Unión Europea]
[ hallazgo gen, coordinó, x ? ]
Idioma: Español Dominio: Noticias
Subdominio:
La búsqueda realizada no causo ninguna respuesta. No
67 [ sismo, fue seguido, por miles de replicas] [ sismo, afectó, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio:
sismo ha sido seguido por miles de replicas sismo afectó zona central chilena
Si
68 [ sismo, afectó, zona central Idioma: Español sismo afecto zona central chilena Si
Referencias
122
Chilena ] [ sismo, con epicentro, Epicentro ] [ Epicentro, fue fijado a, x?]
Dominio: Noticias
Subdominio:
sismo tiene epicentro epicentro epicentro fue fijado a 70 kilómetros al oeste del puerto de Valparaíso
69 [ x ?, informo acerca de, falla del lanzamiento ]
Idioma: Español
Dominio: Noticias
Subdominio:
Omar Báez informó sobre falla lanzamiento Si
70 [falla lanzamiento, origino, x ?]
Idioma: Español
Dominio: Noticias
Subdominio:
falla lanzamiento originado por no concretarse la separación del cohete
Si
Referencias
123
top related