web semática clase 2

36
Ing. Waleska Perdomo Cáceres Msc www.lineadeinvestigacion.blogspot.com

Upload: w-pc

Post on 29-Nov-2014

982 views

Category:

Documents


0 download

DESCRIPTION

 

TRANSCRIPT

  • 1. Ing. Waleska Perdomo Cceres Msc www.lineadeinvestigacion.blogspot.com
  • 2. De la Web 1.0 a laWeb 3.0
  • 3. Confluencia de la Inteligencia Artificial y las tecnologas en lnea, que proponenuevas tcnicas y paradigmas para la representacin del conocimiento. Facilita la localizacin, distribucin e integracin de recursos en lnea. [Berners-Lee 2001]. Estas nuevas tcnicas se basan en la introduccin de conocimiento semnticoexplcito que describa y/o estructure la informacin y servicios disponibles. Procura la interconexin de usuarios, desarrolladores y servicios diversos. Tomando la ontologa del campo de la Inteligencia Artificial como vehculo para ello [Gruber 1993]. Ontologa: Clasificacin de conceptos con atributos y relaciones, que proporciona un definicin semntica de unidades de informacin interrelacionadas. Se han desarrollado diversos lenguajes y estndares para la definicin de ontologas, entre ellos XML [Bray 2000], RDF [Lasilla 1999], DAML+OIL [Connoly 2001], y ms recientemente OWL [Dean 2002],
  • 4. Para ello se esta invirtiendo un gran esfuerzo en desarrollara) La infraestructura necesaria para su despliegueb) Aplicaciones que demuestren la viabilidad y el beneficio de la web semntica y a la vez motiven el desarrollo y consumo de infraestructurac) Nuevas soluciones para resolver problemas especficos, e ideas que mejoren, amplen y/o exploten las posibilidades de la web semntica. Entre las principales lneas de trabajo que estn siendo objeto de atencin cabe citar: Lenguajes de definicin de ontologas Metodologas de desarrollo de ontologas Integracin de ontologas Aprendizaje de ontologas Desarrollo de vocabularios en dominios concretos Agentes Servicios web
  • 5. En el mbito del acceso, recuperacin y organizacin de informacin, la minera Web se utiliza para el estudio del comportamiento de la arquitectura de un sitio.Etzioni define la minera Web como el empleo de las tcnicas de la minera de datos datamining (DM) Para descubrir y extraer informacin automticamente del Web por medio de : Los motores de bsqueda. El comercio electrnico. El diseo Web. El posicionamiento Web. La seguridad digital
  • 6. Definicin. Lista alfabtica de materias o temas acompaada de las referencias bibliogrficas correspondientes para localizar los documentos completos. Propsito. Sealan informacin localizada en otro lugar o documento. Contenido. Cubren temas generales y algunos ms especficos. Incluyen citas bibliogrficas de revistas, boletines y documentos de gobierno. Preguntas que pueden contestar al usuario: Necesito libros sobre un tema especfico. Requiero tres artculos de revistas sobre un autor en especial.
  • 7. Definicin. Proporcionan referencias (ligas) para localizar los documentos en texto completo. Propsito. Sealan informacin localizada en otro lugar o documento. Contenido. Cubren desde temas generales hasta especficos. Preguntas que pueden contestar al usuario: Necesito documentos sobre un tema especfico. Requiero tres artculos de revistas sobre un autor en especial. Cul es el mejor reproductor de MP3 en el mercado mexicano?
  • 8. Definicin. Programa de software diseado para facilitar el acceso a la informacin en la web. Kasi, Vijay and Radhika Jain. "Internet Search Engines. " Encyclopedia of E-Commerce, E-Government and Mobile Commerce. Mehdi Khosrow- Pour. Vol. 1. Hershey, PA: Idea Group Reference, 2006. [672]-677. Gale Virtual Reference Library. Gale. Universidad de Las Americas Puebla. 1 Sept. 2009 . Propsito. Encontrar documentos y todo tipo de contenidos en la web. Contenido. Temas generales hasta especficos. Preguntas que pueden contestar al usuario: Necesito documentos sobre un tema especfico. Requiero tres artculos sobre un autor en especial. Cul es el mejor reproductor de MP3 en el mercado mexicano?
  • 9. Google: http://www.google.com/ Yahoo: http://www.yahoo.com/ Altavista: http://www.altavista.com/ Ask antes Ask Jeeves: http://www.ask.com/
  • 10. Definicin. Motores de bsqueda que exploran y recuperan informacin de diferentes motores de bsqueda. Kasi, Vijay and Radhika Jain. "Internet Search Engines. " Encyclopedia of E- Commerce, E-Government and Mobile Commerce. Mehdi Khosrow-Pour. Vol. 1. Hershey, PA: Idea Group Reference, 2006. [672]-677. Gale Virtual Reference Library. Gale. Universidad de Las Americas Puebla. 1 Sept. 2009 . Propsito. Encontrar documentos en diferentes motores de bsqueda para integrarlos en una sola lista de resultados. Contenido. Temas generales hasta especficos. Preguntas que pueden contestar al usuario: Necesito documentos de diferentes fuentes sobre un tema general. Requiero tres artculos sobre un autor en especial.
  • 11. Acadmicos Scirus: http://www.scirus.com/ Google Scholar: http://scholar.google.com/ Libros electrnicos Google Books: http://books.google.com/ Temticos Negocios: Business: http://www.business.com/ Qumica: Chemindustry: http://www.chemindustry.com/ Fotografa: OpenPhoto: http://openphoto.net/ Picsearch: http://www.picsearch.com/
  • 12. Buscadores: es posible recuperar informacin ms exacta pero tienen una menor cobertura. Metabuscadores: Es posible recuperar mayor informacin no significativa pero tienen una mayor cobertura por acceder a diferentes bases de datos.
  • 13. MetaCrawler: http://www.metacrawler.com/ DonBusca: http://www.donbusca.com/ Clusty: http://clusty.com/ KartOO: http://www.kartoo.com/ Dogpile: http://www.dogpile.com/
  • 14. Definicin. Listados (sistematizados) de vnculos a diferentes sitios en Internet. Propsito. Proporcionar listados temticos organizados por categoras sobre sitios en Internet. Contenido. Temas generales hasta especficos. Preguntas que pueden contestar al usuario: Necesito consultar diferentes sitios sobre un tema en particular. Quiero explorar los principales sitios de defensa del medio ambiente.
  • 15. YellowPages: http://www.yellowpages.com/ The Environment Directory: http://www.webdirectory.com/
  • 16. Definicin. Informacin de produccin local generada por las empresas, instituciones y organizaciones la cul no ha sido publicada por ningn medio. Propsito. Difundir de manera inmediata los resultados de estudios e investigaciones. Contenido. Acadmico, oficial, institucional, econmico y mercantil. Preguntas que pueden contestar al usuario: Necesito consultar informacin reciente sobre un tema. Quiero consultar las tendencias de investigacin en nanotecnologa.
  • 17. ARXIV.ORG: Creado en la Universidad de Cornell.Materiales preimpresos en fsica, matemticas eingeniera.http: //www.arxiv.org
  • 18. Definicin. Es una iniciativa para difundir y organizar la literatura gris disponible en la web. "Digital Information Sources." Digital Libraries: Principles and Practices in a Global Environment. Ed. Lucy A. Tedd and Andrew Large. Munich: K. G. Saur, 2005. [49]-83. Gale Virtual Reference Library. Gale. Universidad de Las Americas Puebla. 1 Sept. 2009 . Propsito. Proporcionar acceso gratuito a contenidos cientficos, acadmicos y arbitrados a la comunidad cientfica internacional. Contenido. Investigaciones, reportes y artculos acadmicos para la revisin por pares. Preguntas que pueden contestar al usuario: Necesito consultar las investigaciones ms recientes sobre fractales.
  • 19. Citebase:http://www.citebase.orgSherpa:http://www.sherpa.ac.uk/archives.html
  • 20. Definicin. Informacin, generalmente almacenada y accesible mediante bases de datos, que no es recuperable utilizando los buscadores convencionales. Web invisible.(2009). Documento recuperado de Internet el 30 de junio de 2009. Disponible en: http://www.internetinvisible.com/ii/index.php?option=com_content&task=vie w&id=2633&Itemid=308 Propsito. Encontrar documentos no accesibles y no localizables por medio de los buscadores de la web tradicional. Contenido. Temas generales hasta especficos. Preguntas que pueden contestar al usuario: Necesito documentos acadmicos sobre un tema especfico. Requiero artculos sobre las tendencias de investigacin en determinada rea del conocimiento.
  • 21. SearchEngineWatch: http://www.searchenginewatch.com Listados de buscadores especializados. Evaluacin mensual de buscadores. Tips de bsqueda. Estadsticas.
  • 22. Bsqueda Web de contenido. En el Web existen variados documentos, hipertexto, imgenes, vdeos,audio, smbolos, datos, meta-datos, link, textos, pdf y muchos otros, que dificulta su clasificacin. Laminera de contenido del Web trata de extraer informacin relevante sobre el contenido del Web, convista a su clasificacin y mejor organizacin de este, para posteriormente perfeccionar el acceso y larecuperacin de la informacin.Bsqueda Web de estructura. Permite conocer cmo se organiza un Web, cmo se estructura y cmoocurre la navegacin en ella.Bsqueda de uso Web. Tiene como principal objetivo extraer patrones de uso del Web por parte delos usuarios. Para esto, se utilizan los archivos Log (registros de sucesos/eventos) de los servidoresWeb. Este tipo de minera tiene dos objetivos principales: Extraer patrones generales de uso de un sitio Web de manera que pueda reestructurarse para que sea ms fcil de utilizar y mejore el acceso por parte de los usuarios. Obtener perfiles de los distintos tipos de usuarios a partir de su comportamiento y navegacin, para ofrecer una atencin ms personalizada.
  • 23. La minera de uso Web presenta cuatro fases fundamentales:1. Recoleccin de datos- bsqueda. Consiste en la recuperacin automtica de la informacin relevante para su posterior procesamiento.2. Procesamiento de los datos. Una vez recuperados los documentos, se ordenan y se preparan para la prxima etapa; se utilizan herramientas para obtener informacin valiosa en forma automtica.3. Descubrimiento de patrones. Existen mltiples tcnicas, aplicables al descubrimiento de patrones. Entre ellas, para el agrupamiento y clasificacin, para el establecimiento de reglas de asociacin y el hallazgo de secuencias frecuentes.4. Anlisis de patrones. Comprende la interpretacin y validacin de los patrones.
  • 24. Entre las tcnicas utilizadas se encuentran:3Agrupamiento y clasificacin. Las tcnicas de agrupamiento o clustering distribuyencomportamientos de individuos similares en grupos homogneos, es decir, doselementos con caractersticas similares pertenecern al mismo grupo y lascaractersticas de un grupo (definidas por el elemento prototipo o ideal) sern diferentesa las de otro grupo. En dependencia de la informacin almacenada en los ficheros Log,es posible detectar grupos de usuarios como: Aquellos que visitan gran cantidad de pginas con un tiempo de estancia similar en todas ellas. Los que visitan un nmero pequeo de pginas en sesiones cortas. Los que visitan un nmero pequeo-mediano de pginas con tiempo variable en cada una de ellas.
  • 25. Una vez descubiertos los prototipos o perfiles de cada grupo, se pueden utilizar las caractersticas de cada uno de ellos para realizar la clasificacin. En las bsquedas Web, las tcnicas de clasificacin permiten desarrollar un perfil para clientes/usuarios que acceden a ficheros particulares del servidor, en funcin de sus patrones de acceso. La informacin en los que ocurren transacciones de datos puede resultar como tcnica que permite relacionarse sin que exista intervencin alguna por parte de algn operador. El descubrimiento de estas reglas ayuda a las organizaciones dedicadas al desarrollo de plataformas en lneas como e- banking, e-commerce, e-learning todas permiten a definir estrategias de mercado efectivas y de desarrollo particular .
  • 26. 1. Extraccin de los conjuntos de tems que cumplen con la cobertura requerida a partir de los datos.2. Generacin de las reglas a partir de estos documentos.Secuencias frecuentes. La minera de secuencias permite descubrir el tiempo de lassecuencias ordenadas de URLs que han seguido los usuarios y predecir los futuros. Engeneral, en las bases de datos de transacciones estn disponibles los datos en unperodo de tiempo y se dispone de la fecha en que se realiz la transaccin. Eldescubrimiento de patrones de secuencia (sequential patterns) en el Log puede utilizarsepara predecir las futuras visitas y as poder organizar mejor los accesos y publicidadespara determinados perodos de tiempo. Por ejemplo, los das laborables entre las 9 a.m.y las 12 m., muchas de las personas que accedieron al servidor lo hicieron para ver lasofertas, y en los siguientes das la mayora compr productos. Entonces, por lasmaanas se debera facilitar el acceso a las ofertas y brindar lapublicidad ms llamativa posible.
  • 27. Realice una propuesta informativa que pueda integrar los trminos: Educacin, Arte, Religin, Enfermera, consultora, tecnologa, deporte y militar. La propuesta debe ser una revista digital de 2 o 3 pginas que debe ser diseada en word o powerpoint. Coloque un nombre atractivo para que su contenido sea ledo. Conformar grupos de 3 o 4 personas. Enviarlo por correo de contacto. Ing. Waleska Perdomo Cceres Msc www.lineadeinvestigacion.blogspot.com