buscador

6
BUSCADOR A) CARACTERÍSTICAS Los buscadores, o motores de búsqueda son aplicaciones web que buscan en una base de datos, clasifican y organizan información que se relaciona para mostrarla al usuario. Funcionan mediante programas que buscan en bases de datos y a través de índices, que clasifican la información por temas. Facilitan la manera de encontrar los recursos (imágenes, páginas, videos, etc.), para lo cual consta de los siguientes componentes: Índices de búsqueda: Las páginas son clasificadas por categorías y subcategorías de acuerdo a su contenido, es por esto que la base de datos tiene una lista de direcciones de páginas web que contienen dicho contenido. Motores de búsqueda: La búsqueda lo hace un programa, que se lo conoce como motor, que visita las páginas y relaciona la dirección de la página con las primeras 100 palabras que se encuentran en ella. Para poder clasificar por categorías, se debe identificar y clasificar la página web y esto se realiza de dos formas, tanto manualmente como de una forma automática, para la manual, se deberá ingresar, título de la página, URL, descripción y tipo de información. En cambio para la automática se dispone de un robot que visita y analiza la página principal y todas las páginas enlazadas, este programa o robot, lee las etiquetas o metadatos y extrae toda la información contenida en ellas y así poder ordenar las palabras clave como el título, idioma, autor, localización, temas, etc. Los motores de búsqueda utilizan un robot de búsqueda, que son programas que se dedican a recorrer la Web automáticamente, recopilando todo el texto que encuentran, y de esta manera ir creando bases de datos en las que los usuarios podrán realizar búsquedas mediante la introducción

Upload: israel-rey

Post on 25-Jul-2015

17 views

Category:

Software


0 download

TRANSCRIPT

Page 1: Buscador

BUSCADOR

A) CARACTERÍSTICAS

Los buscadores, o motores de búsqueda son aplicaciones web que buscan en una base de datos, clasifican y organizan información que se relaciona para mostrarla al usuario. Funcionan mediante programas que buscan en bases de datos y a través de índices, que clasifican la información por temas.

Facilitan la manera de encontrar los recursos (imágenes, páginas, videos, etc.), para lo cual consta de los siguientes componentes:

Índices de búsqueda: Las páginas son clasificadas por categorías y subcategorías de acuerdo a su contenido, es por esto que la base de datos tiene una lista de direcciones de páginas web que contienen dicho contenido.

Motores de búsqueda: La búsqueda lo hace un programa, que se lo conoce como motor, que visita las páginas y relaciona la dirección de la página con las primeras 100 palabras que se encuentran en ella.

Para poder clasificar por categorías, se debe identificar y clasificar la página web y esto se realiza de dos formas, tanto manualmente como de una forma automática, para la manual, se deberá ingresar, título de la página, URL, descripción y tipo de información. En cambio para la automática se dispone de un robot que visita y analiza la página principal y todas las páginas enlazadas, este programa o robot, lee las etiquetas o metadatos y extrae toda la información contenida en ellas y así poder ordenar las palabras clave como el título, idioma, autor, localización, temas, etc. 

Los motores de búsqueda utilizan un robot de búsqueda, que son programas que se dedican a recorrer la Web automáticamente, recopilando todo el texto que encuentran, y de esta manera ir creando bases de datos en las que los usuarios podrán realizar búsquedas mediante la introducción de palabras clave. Los robots recorren los distintos servidores de forma recursiva, a través de los enlaces que proporcionan las páginas, para que su base de datos se mantenga siempre actualizada.

Los motores tienen la opción de limitar las búsquedas, utilizando un formulario sencillo de búsqueda, que permite ingresar el texto de la siguiente forma: todas las palabras, algunas palabras y la frase exacta. También utilizando operadores, tanto posicionales como lógicos.

Operadores lógicos: AND, el cual ordena buscar una página web o documento que contenga ambas palabras clave, y otros como OR y NOT.

Operadores posicionales: estos operadores nos permiten medir la distancia entre las palabras clave que se desean buscar en la página web o documento, como:

NEAR: Las palabras clave de la búsqueda aparecen separadas por más de 80 caracteres o 10-25 palabras. 

FAR: Las palabras clave de la búsqueda aparecen con 10-25 palabras o más de distancia.

Page 2: Buscador

ADJ: Las palabras clave juntos, sea en el orden que sea.

BEFORE: Las palabras clave deben aparecer en el orden especificado, pero pueden encontrarse a cualquier distancia en el mismo documento.

FOLLOWED BY: Las palabras tendrán que aparecer en el mismo orden que ingresa en la búsqueda.

PHRASE: Se utiliza comillas para obtener el mismo resultado, es decir trata las palabras clave como una frase.

B) ARQUITECTURA

1) Robot: Los buscadores, utilizan robots, para crear las bases de datos; estos son programas que recorren la web y obtienen documentos HTML u otro tipo de formatos como pdf, imágenes, etc., de forma automática, es decir acceden a las páginas web y recolectan determinada información sobre su contenido, donde se incluya determinadas palabras clave, estos documentos junto con sus direcciones URL, son clasificados y almacenados en las bases de datos, a partir de un listado de URLs, los robots utilizan algoritmos para determinar la frecuencia de las visitas a los enlaces para verificar las modificaciones que se han realizado [1].

Tipos de robots:

Arañas (Spiders): Programa usado para rastrear la red, lee la estructura de hipertexto y accede a todos los enlaces en el sitio web.

Hormigas (WebAnts): Trabajan de forma distribuida, explorando a la vez diferentes porciones de la Web. 

Vagabundos (Wanderes): Realizan estadísticas sobre la Web, como por ejemplo, número de servidores, servidores conectados, número de webs, etc.

Robots de conocimiento  (Knowbots): localizan referencias hipertextuales dirigidas hacia un documento o servidor concreto.

Orugas (Web crawlers): Da al programa un grupo de direcciones iniciales, la araña descarga estas direcciones, analiza las páginas y busca enlaces a páginas nuevas

Los robots utilizan algoritmos para seleccionar los enlaces, como algoritmos de profundidad, amplitud y algoritmos heurísticos, basados en la información sobre enlaces de mayor relevancia y popularidad.

2) Indexador: Programa que recibe las páginas recuperadas por un robot, estos programas almacenan los titulo HTML y otros los primeros párrafos.

Para ayudar a los robots a indizar las páginas, se utilizan mecanismos como: Crear un archivo de texto (robots.txt) que se ubica en el directorio raíz, el cual permitirá al administrador de un sitio web controlar el acceso de los robots a su sitio. También se utiliza la meta etiqueta "robots".

Por ejemplo: <META NAME>="robots" CONTENT="index,follow">

La etiqueta robots cuenta con atributos que se pueden utilizar:  

Page 3: Buscador

Index: indica al robot de búsqueda que indice la página y la añada a la base de datos.

All: indica que se indexen todas las páginas.

Follow: indica que han de seguirse los enlaces que están en la página.

Las acciones opuestas son "noindex" y "nofollow".

3) Motor de búsqueda: Programa que analiza las palabras claves ingresadas por los usuarios y busca los documentos relacionados, los motores de búsqueda ordena los resultados de diferentes maneras, por Localización, presenta documentos en la que constan todas las palabras buscadas, Frecuencia de aparición, presenta documentos con mayor número de apariciones de las palabras clave.

4) Interfaz: es una página web, con un formulario, en el que se presenta una caja de texto para ingresar la consulta, es decir las palabras clave, y un botón para enviar la consulta. Los resultados igual se presentan en una página web, con ítems que contienen una pequeña descripción.

C) TECNOLOGÍAS

Las tecnologías que se van a utilizar para la creación del buscador se utilizará la técnica Rest y también constituirá:

Base de datos MySql para el almacenamiento de la url de los OCW conjuntamente con los s educativos que ofrecen.

La colección de herramientas Bootstrap para el diseño de la página web, y la presentación de los recursos.

El entorno de desarrollo Netbeans para la creación del HTML, y la programación con el lenguaje Java.

Bibliografía

Page 4: Buscador

[1] Arquitectura de un buscador. sf. Consultado el 29 de noviembre del 2014. Recuperado de: http://buscadores.fullblog.com.ar/arquitectura_de_un_buscador_531191953898.html

[2] Carlos, P. (2004). La selección de palabras clave para el posicionamiento en buscadores. Hipertext.net. Recuperado de http://www.hipertext.net

[3] Lamarca, M. (2013). Hipertexto: El nuevo concepto de documento en la cultura de la imagen. Recuperado de http://www.hipertexto.info/documentos/buscar.htm

[4].Ramos, J. (2010). Spider, crawler, arañas y rastreadores, primeros pasos para un seo. Recuperado de http://userstrend.com/seo/spider-seo/

[5]. Stark, N. sf. Motores de Busqueda en Internet. Consultado: 28 de noviembre del 2014.Recuperado de: http://www.unlu.edu.ar/~tyr/tyr/TYR-motor/stark-motor.pdf