los robots páginas web

30
Los robots Páginas Web Web robots (también conocidos como Web Wanderers, Crawlers, o arañas), son programas que recorren la Web de forma automática. Los motores de búsqueda como Google y utilizar para indexar el contenido de la web, los spammers los utilizan para buscar direcciones de correo electrónico, y tienen muchos otros usos. En este sitio usted puede aprender más acerca de robots web. Acerca de / robots.txt explica qué / robots.txt es y cómo usarlo. El FAQ responde a muchas preguntas frecuentes, tales como ¿Cómo puedo dejar de robots visitando mi sitio? y ¿Cómo puedo obtener la mejor cotización en los motores de búsqueda? " Los otros sitios de enlaces de la página de recursos externos para los escritores del robot y los webmasters. La base de datos de los robots tiene una lista de los robots. El robots.txt corrector / puede comprobar su sitio / archivo robots.txt y metaetiquetas. La búsqueda de PI puede ayudar a saber más acerca de lo que son los robots que visitan. Acerca de / robots.txt In a nutshell En una palabra Web site owners use the /robots.txt file to give instructions about their site to web robots; this is called . propietarios de sitios Web utilizan el archivo robots.txt / a dar instrucciones sobre su sitio web a los robots, lo que se llama El Protocolo de Exclusión de Robots. It works likes this: a robot wants to vists a Web site URL, say http://www.example.com/welcome.html. Funciona le gusta esto: un robot quiere los visiten una URL del sitio Web, por ejemplo http://www.example.com/welcome.html. Before it does so, it firsts checks for http://www.example.com/robots.txt, and finds: Antes de hacerlo, lo primeros controles de http://www.example.com/robots.txt, y encuentra: User-agent: * User-agent: * Disallow: / Disallow: / The " " means this section applies to all robots. El "User-agent: *" significa que esta sección se aplica a todos los robots. The " " tells the robot that it should not visit any pages on the site. El "No permitir: /" le dice al robot que no debe visitar las páginas en el sitio. There are two important considerations when using /robots.txt: Hay dos consideraciones importantes cuando se utiliza / robots.txt:

Upload: ramirez-hugo-armando

Post on 30-Jun-2015

318 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Los robots Páginas Web

Los robots Páginas Web

Web robots (también conocidos como Web Wanderers, Crawlers, o arañas), son programas que recorren la Web de forma automática. Los motores de búsqueda como Google y utilizar para indexar el contenido de la web, los spammers los utilizan para buscar direcciones de correo electrónico, y tienen muchos otros usos.

En este sitio usted puede aprender más acerca de robots web.

Acerca de / robots.txt explica qué / robots.txt es y cómo usarlo. El FAQ responde a muchas preguntas frecuentes, tales como ¿Cómo puedo dejar de robots

visitando mi sitio? y ¿Cómo puedo obtener la mejor cotización en los motores de búsqueda? " Los otros sitios de enlaces de la página de recursos externos para los escritores del robot y

los webmasters. La base de datos de los robots tiene una lista de los robots. El robots.txt corrector / puede comprobar su sitio / archivo robots.txt y metaetiquetas. La búsqueda de PI puede ayudar a saber más acerca de lo que son los robots que visitan.

Acerca de / robots.txt

In a nutshell En una palabra

Web site owners use the /robots.txt file to give instructions about their site to web robots; this is called . propietarios de sitios Web utilizan el archivo robots.txt / a dar instrucciones sobre su sitio web a los robots, lo que se llama El Protocolo de Exclusión de Robots.

It works likes this: a robot wants to vists a Web site URL, say http://www.example.com/welcome.html. Funciona le gusta esto: un robot quiere los visiten una URL del sitio Web, por ejemplo http://www.example.com/welcome.html. Before it does so, it firsts checks for http://www.example.com/robots.txt, and finds: Antes de hacerlo, lo primeros controles de http://www.example.com/robots.txt, y encuentra:

User-agent: * User-agent: *Disallow: / Disallow: /

The " " means this section applies to all robots. El "User-agent: *" significa que esta sección se aplica a todos los robots. The " " tells the robot that it should not visit any pages on the site. El "No permitir: /" le dice al robot que no debe visitar las páginas en el sitio.

There are two important considerations when using /robots.txt: Hay dos consideraciones importantes cuando se utiliza / robots.txt:

robots can ignore your /robots.txt. los robots pueden ignorar su / robots.txt. Especially malware robots that scan the web for security vulnerabilities, and email address harvesters used by spammers will pay no attention. Especialmente los robots de software malicioso que exploran la web en busca de vulnerabilidades de seguridad, y cosechadoras dirección de correo electrónico utilizada por los spammers no prestan atención.

the /robots.txt file is a publicly available file. el fichero / robots.txt es un archivo a disposición del público. Anyone can see what sections of your server you don't want robots to use. Cualquiera puede ver qué secciones de su servidor en el que no quiere robots de usar.

So don't try to use /robots.txt to hide information. Así que no trate de usar / robots.txt para ocultar información.

See also: Ver también:

Page 2: Los robots Páginas Web

o ¿Puedo bloquear los robots malos justo? o ¿Por qué este robot ignorar mi / robots.txt? o ¿Cuáles son las implicaciones de seguridad de / robots.txt?

The details Los detalles

The /robots.txt is a de-facto standard, and is not owned by any standards body. El robots.txt / es un estándar de facto, y no es propiedad de ningún organismo de normalización. There are two historical descriptions: Hay dos descripciones históricas:

the original 1994 document. original de 1994 Un estándar para exclusión de robots documento.

a 1997 Internet Draft specification en 1997 un proyecto de especificación de Internet un método para control de robots web

In addition there are external resources: Además, hay recursos externos:

HTML 4.01, apéndice B.4.1 Wikipedia - Los robots estándar de exclusión

The /robots.txt standard is not actively developed. El estándar / robots.txt no está desarrollado activamente. See for more discussion. Ver ¿Qué pasa con un mayor desarrollo de / robots.txt? para más discusión.

The rest of this page gives an overview of how to use /robots.txt on your server, with some simple recipes. El resto de esta página ofrece una visión general de cómo usar / robots.txt en su servidor, con algunas recetas sencillas. To learn more see also the . Para obtener más información, véase también el FAQ .

How to create a /robots.txt file Cómo crear un fichero / robots.txt

Where to put it Donde ponerlo

The short answer: in the top-level directory of your web server. La respuesta corta: en el directorio de nivel superior de su servidor web.

The longer answer: La respuesta larga:

When a robot looks for the "/robots.txt" file for URL, it strips the path component from the URL (everything from the first single slash), and puts "/robots.txt" in its place. Cuando un robot se ve para el "/ robots.txt" archivo de la URL, se quita el componente de ruta de la URL (todo, desde la barra primer single), y pone "/ robots.txt" en su lugar.

For example, for " , it will remove the " ", and replace it with " ", and will end up with "http://www.example.com/robots.txt". Por ejemplo, para "http://www.example.com/shop/index.html, también eliminará el directorio" / tienda / index.html ", y sustituirlo por" "/ robots.txt, y terminará con "http://www.example.com/robots.txt".

So, as a web site owner you need to put it in the right place on your web server for that resulting URL to work. Así que, como propietario de un sitio web es necesario ponerlo en el lugar correcto en el servidor web para que los URL que se obtiene al trabajo. Usually that is the same place where you put your web site's main " " welcome page. Por lo general, que es el mismo lugar donde poner su sitio web principal "index.html" página de bienvenida. Where exactly that is, and how to put the file there, depends on your web server software. ¿Dónde exactamente que es, y cómo poner el archivo existe, depende de su software de servidor web.

Remember to use all lower case for the filename: " ", not " . Recuerde que debe utilizar todo en minúsculas el nombre de archivo "robots.txt", no "robots.txt.

Page 3: Los robots Páginas Web

See also: Ver también:

o ¿Qué programa debo usar para crear / robots.txt? o ¿Cómo se usa / robots.txt en una máquina virtual? o ¿Cómo se usa / robots.txt en un servidor compartido?

What to put in it Qué poner en ella The "/robots.txt" file is a text file, with one or more records. El "/ robots.txt" es un archivo de texto, con uno o más registros. Usually contains a single record looking like this: Por lo general, contiene un único registro en busca de este:

User-agent: * User-agent: *Disallow: /cgi-bin/ Disallow: / cgi-bin /Disallow: /tmp/ Disallow: / tmp /Disallow: /~joe/ Disallow: / ~ juan /

In this example, three directories are excluded. En este ejemplo, tres directorios son excluidos.

Note that you need a separate "Disallow" line for every URL prefix you want to exclude -- you cannot say "Disallow: /cgi-bin/ /tmp/" on a single line. Tenga en cuenta que necesita separar la "Disallow" línea para cada prefijo de URL que desea excluir - no se puede decir "No permitir: / cgi-bin / / tmp /" en una sola línea. Also, you may not have blank lines in a record, as they are used to delimit multiple records. Además, no puede haber líneas en blanco en un registro, ya que se utilizan para delimitar varios registros.

Note also that globbing and regular expression are supported in either the User-agent or Disallow lines. Tenga en cuenta también que esta expansión y de expresiones regulares no son compatibles ni en el usuario-agente o líneas Disallow. The '*' in the User-agent field is a special value meaning "any robot". El '*' en el campo User-agent es un valor especial que significa "ningún robot". Specifically, you cannot have lines like "User-agent: *bot*", "Disallow: /tmp/*" or "Disallow: *.gif". En concreto, no se puede tener líneas como "User-agent: * * bot", "No permitir: / tmp / *" o "Disallow: *. gif".

What you want to exclude depends on your server. Lo que quiere excluir depende de tu servidor. Everything not explicitly disallowed is considered fair game to retrieve. Todo lo que no se considera explícitamente rechazado juego justo para recuperar. Here follow some examples: He aquí algunos ejemplos:

To exclude all robots from the entire server Para excluir todos los robots de todo el servidor

User-agent: * User-agent: *Disallow: / Disallow: /

To allow all robots complete access Para permitir que todos los robots de acceso completo

User-agent: * User-agent: *Disallow: No permitir:

(or just create an empty "/robots.txt" file, or don't use one at all) (O simplemente crear un vacío "/ robots.txt" archivo, o no usar ninguno en absoluto)

Page 4: Los robots Páginas Web

To exclude all robots from part of the server Para excluir todos los robots de la parte del servidor

User-agent: * User-agent: *Disallow: /cgi-bin/ Disallow: / cgi-bin /Disallow: /tmp/ Disallow: / tmp /Disallow: /junk/ Disallow: / basura /

To exclude a single robot Para excluir un solo robot

User-agent: BadBot User-agent: BadBotDisallow: / Disallow: /

To allow a single robot Para permitir que un solo robot

User-agent: Google User-agent: GoogleDisallow: No permitir:

User-agent: * User-agent: *Disallow: / Disallow: /

To exclude all files except one Para excluir todos los archivos excepto uno This is currently a bit awkward, as there is no "Allow" field. Este es actualmente un poco incómodo, ya que no hay "Permitir" sobre el terreno. The easy way is to put all files to be disallowed into a separate directory, say "stuff", and leave the one file in the level above this directory: La forma más fácil es poner todos los archivos a ser rechazado en un directorio aparte, decir "cosas", y dejar el archivo en un nivel por encima de este directorio:

User-agent: * User-agent: *Disallow: /~joe/stuff/ Disallow: / ~ juan / cosas /

Alternatively you can explicitly disallow all disallowed pages: Alternativamente, usted puede prohibir explícitamente todas las páginas no permitidos:

User-agent: * User-agent: *Disallow: /~joe/junk.html Disallow: / ~ juan / junk.htmlDisallow: /~joe/foo.html Disallow: / ~ juan / foo.htmlDisallow: /~joe/bar.html Disallow: / ~ juan / bar.html

El robot.txt es un fichero en el cual nosotros le damos algunas instrucciones o mejor dicho recomendaciones a los crawlers (los robot que utilizan los buscadores para rastrear nuestro sitio) que deben seguir mientras visitan nuestro sitio, para crearlo solo tenemos que abrir nuestro bloc de notas e introducirle dichas instrucciones que acontinuacion explicare.

User-agent: Aqui introduciremos el nombre del crawler si es que lo conocemos, en caso de que no, tan solo podemos poner un asterisco * el cual

Page 5: Los robots Páginas Web

indicara que cualquier crawler puede escanear nuestro sitio, pero mucho cuidado ya que varios crawler en lugar de darnos beneficios, tan solo nos perjudican.

Disallow: En esta linea podemos ingresar la ruta de algun archivo o directorio que no queramos que sea escaneada por el crawler, ejemplo; disallow: /ejemplo/ lo que hemos hecho es indicarle al crawler que no rastree el directorio "ejemplo" de nuestro sitio.

Craw-delay: 30 Con esto le decimos al crawler que espere 30 segundos entre cada acceso, pero ojo ya que no todos los crawler soportan el craw-delay (actualmente ya no se utiliza).

Visit-time: 0300-0400 En esta linea le indicamos al crawler que visite nuestro sitio de 3 am a 4 am, Recuerda que las horas siempre se colocan en Greenwitch (actualmente ya no se utiliza).

Request-rate: 1/30 Siendo el 1 el numero de documentos a rastrear y el 30 el tiempo que transcurre entre un rastreo y el siguiente, algo parecido al craw-delay, en mi opinion mas efectivo (actualmente ya no se utiliza).

NOTA.- solo falta recordarles de no dejar lineas en blanco, ya que el crawler al encontrarlas deja de leer el archivo, ademas de que si quieren agregar un comentario a alguna linea del archivo, lo pueden hacer con el siguiente simbolo #.

A continuacion muestro un ejemplo de un archivo robots.txt bien estructurado.-

1. User-agent: * #Para todos los crawlers

2. Disallow: /ejemplo/

3. Disallow: /admin/

4. Allow: /

5.  

Veran que en la ultima linea se agrego "Allow: /", esto significa que todo el contenido es accesible, claro con exepcion de los directorios delimitados por el Disallow.

Leer más: http://www.programacionazteca.com/seo-Que-es-y-para-que-sirve-el-robot.txt-33.html#ixzz1GSVQXsE5

robots.txt

Page 6: Los robots Páginas Web

Los buscadores tipo google se sirven de robots, programas con algoritmos mas o menos complejos, que les permiten leer una página web, recuperar y guardar su contenido -o partes relevantes del mismo- en una base de datos y seguir los enlaces que tenga a otras páginas web

Estos programas navegan incansablemente saltando de enlace a enlace. Su labor es utilisima, ya que permite que estos buscadores tengan resultados que ofrecernos. Pero también puede ser perjudicial. Los propietarios de una página pueden desear que parte de su contenido no sea indexado (por ejemplo, porque se trata de contenido temporal) o puede suceder que los robots (spiders) sometan al servidor a un esfuerzo excesivo, al pedir demasiadas páginas muy seguidas.O puede suceder lo contrario ... que deseemos asegurarnos que determinadas páginas son indexadas.

Con diversas limitaciones, podemos dar instrucciones a los robots. ¿Como? mediante el archivo robots.txt.

El archivo robots.txt

Cuando un robot visita una página, por ejemplo http://www.ignside.net/, lo primero que solicita al servidor es el archivo http://www.ignside.net/robots.txt.

Si puede localizar el documento, lo analiza para ver si está permitido acceder a su contenido, y de ser así, analiza las directivas existentes respecto de la indexación del contenido del sitio web.

El archivo robots.txt puede personalizarse para que se aplique solo a los robots de determinados buscadores, o para excluir solo determinados directorios o páginas.

En primer lugar un ejemplo de archivo robots.txt que excluye TODAS las busquedas a TODOS los robots:

User-agent: * # aplicable a todosDisallow: / # impide la indexacion de todas las paginas

En cuanto a la colocacion del archivo robots.txt, solo puede haber uno en cada sitio web, precisamente en el directorio raizUn robot no buscará nunca el archivo robots.txt en un subdirectorio, por lo que es inútil colocarlo alli.

Al preparar tu archivo robots.txt ten en cuenta que las urls son sensibles a mayúsculas y minúsculas

Page 7: Los robots Páginas Web

El archivo se compondrá de diversas directivas agrupadas en relación con el robot al que se aplican. Dentro de cada uno de estos grupos de directivas NO puede haber lineas en blanco.

Cada sección o grupo de directivas empezará con el campo User-agent, que sirve para identificar al robot a que dichas directivas se refieren. Siempre tiene que existir este campo

A continuacion pondremos una o mas directivas Disallow: .Aqui tienes algun ejemplo. Nota que el signo # señala que la linea que le sigue es un comentario, y no será leida:

# Establecemos total libertad para webcrawler# Ya que dejamos Disallow vacio

User-agent: webcrawlerDisallow:

# En cambio lycra y BadBot# tiene prohibido integramente el acceso

User-agent: lycraUser-agent: BadBotDisallow: /

# El resto de bots (señalado mediante *)# tiene prohibido el acceso a los directorios# /tmp y /log; libertad para el resto.

User-agent: *Disallow: /tmpDisallow: /logs

Puedes consultar una lista de los robots conocidos en robotstxt.org

Recuerda que si el valor de User-agent es *, las directivas que le sigan se aplicarán a cualquier robot que no tenga directivas específicas.

Mediante las directivas "Disallow" especificamos los directorios o archivos concretos que deseamos excluir. Por ejemplo:

Disallow: /help # afecta a /help.html y a /help/index.htmlDisallow: /help/ # afecta a /help/index.html pero no a /help.html.

Siempre tiene que haber un campo Disallow, pero si lo dejamos vacio indicamos que no contiene restricción ninguna.

Ten en cuenta que en la directiva Disallow no se admiten comodines. /help/* no serviría (el equivalente sería /help).

Page 8: Los robots Páginas Web

Robots y etiquetas META

Si no podemos crear un archivo robots.txt, o si queremos personalizar las instrucciones página por página, podemos utilizar las etiquetas META:

<META name="ROBOTS" content="NOINDEX, NOFOLLOW">

Este ejemplo indica al robot que no debe ni indexar el documento ni seguir sus links.

Las opciones a poner en content son ALL, INDEX, NOFOLLOW, NOINDEX

Visit-time

Se están intentando añadir nuevas directivas que permitan controlar el tiempo en el que los robots indexan las páginas:

...

# Permitir trabajar a los botsde 2 am a 7:45 am# Las horas son siempre Greenwitch

Visit-time: 0200-0745

# Un documento CADA 30 minutos

Request-rate: 1/30m

# Combinado: 1 doc cada 10 minutos# y solo de una a 5 tardeRequest-rate: 1/10m 1300-1659

¿necesitas mas?

http://www.w3.org/TR/html40/appendix/notes.html#h-B.4.1.1http://www.robotstxt.org/wc/norobots.htmlhttp://www.robotstxt.org/wc/robots.htmlhttp://www.w3.org/Search/9605-Indexing-Workshop/ReportOutcomes/Spidering.txthttp://www.robotstxt.org/wc/faq.htmlhttp://www.conman.org/people/spc/robots2.html#format.directives.visit-time

Page 9: Los robots Páginas Web

El archivo Robots.txt es ideal tenerlo en cada uno de los sitios, ya que con él podremos indicar a los buscadores lo que queremos que indexe y lo que no, pudiendo decirle el tiempo máximo que puede estar por cada carpeta.

Veamos una lista de los tres mejores generadores de robots.txt

En Mcanerin nos presentan una aplicación para generar archivos para robots, en él nos permite especificar las carpetas que queremos que rastreen y el tiempo máximo que deben estar los robots en dicha carpeta/página.

Frobee.com nos permite validar nuestro archivo robots.txt, para ver si éste está correcto antes de mostrarlo a los robots.

En invision-graphics.com nos presentan a su herramienta de gestión de archivos robots.txt, en ella podremos decir qué acciones va a poder realizar cada uno de los robots y en qué carpetas va a poder acceder.

En definitiva, es mejor tener un archivo Robot.txt para que no tengamos problemas con los buscadores, ya que sin él podrían indexar hasta la carpeta de administración del sitio.

Page 10: Los robots Páginas Web

Robot.txt: Decide el contenido de tu web que no quieres que sea indexado

Escrito por Gonzalo Valverde

El protagonista del actual post suele llevarse menos menciones que los demás factores de una estrategia SEO de una manera injusta ya que es quien nos permite indicar a los buscadores, en sus rastreos, que páginas deseamos que sean indexadas y, por el contrario, que tipo de contenidos no queremos que aparezcan en los resultados de búsqueda. Nos referimos al fichero “robots.txt”

Si entre nuestra estructura del site existen parcelas de la misma que aloja contenidos que no queremos que sean indexados por los buscadores, podemos utilizar el archivo “robots.txt” para dar esa orden pues es el primero de los ficheros que analizan las arañas de los motores de búsqueda para seguir sus instrucciones. Eso si, no es obligatorio contar con este tipo de archivos aunque esto puede dar lugar que en nuestras estadísticas de tráfico aparezcan errores 404 (de ficheros no encontrados). Pero es de gran utilidad, por ejemplo, para que nuestra web no tenga indexado el mismo contenido dependiente de diferentes urls, es decir, contenido duplicado. O bien para nuestra página de estadísticas si las tenemos abiertas o de acceso a nuestro CMS.

“Robot.txt” debe colocarse en al directorio raíz o root directory de nuestro site y, además, introducir la etiqueta del Robot en el encabezado de la página:

<head><title> Marketing Online Blog - Lineas de Marketing</title><meta name="description" content="Blog de las disciplinas del marketing online"><meta name="robots" content="index, follow"></head>

En los ejemplos que os ofrecemos a continuación, indicaremos a los buscadores que es lo que deseamos que nunca aparezca en un resultado de búsqueda.

El archivo robots.txt más simple utiliza dos reglas:

User-Agent – El robot al que se aplica la siguiente regla Disallow – La URL que desea bloquear

Estas líneas se consideran una única entrada en el archivo. Puede incluir todas las entradas que desee, varias líneas Disallow y varios user-agents en una misma entrada.

Cada sección del archivo robots.txt es independiente y no se genera a partir de secciones anteriores.

Por ejemplo:

User-agent: *Disallow: /carpeta1/User-Agent: GooglebotDisallow: /carpeta2/

En este ejemplo, no se permitirían para Googlebot únicamente las URL coincidentes con /carpeta2/.

El aspecto de una entrada que se aplica a todos los robots es el siguiente:

User-agent: *

Google utiliza varios robots diferentes (user-agents). El robot que utilizamos para nuestra búsqueda web es Googlebot. El resto de nuestros robots, como Googlebot-Mobile y Googlebot-Image, siguen las reglas configuradas para Googlebot, aunque también pueden definirse reglas específicas para ellos.

Bloqueo de user-agents

Page 11: Los robots Páginas Web

La línea Disallow indica las páginas que desea bloquear. Puede insertar una URL específica o un patrón. La entrada debe comenzar con una barra inclinada (/).

Bloquear todo el sitio, utilice una barra inclinada.

Disallow: /

Bloquear un directorio y todo lo que contiene, inserte una barra inclinada después del nombre del mismo.

Disallow: /directorio-sintitulo/

Para bloquear una página, insérte la ruta de esa página.

Disallow: /archivo_privado.html

Para eliminar una imagen de Google Imágenes:

User-agent: Googlebot-ImageDisallow: /imagenes/perros.jpg

Para eliminar todas las imágenes de su sitio de Google Imágenes:

User-agent: Googlebot-ImageDisallow: /

Para bloquear archivos de un tipo determinado (por ejemplo, .pdf):

User-agent: GooglebotDisallow: /*.pdf$

ROBOTS.TXT

Algunos buscadores usan robots para indexar tus páginas. Para ello buscan un fichero de texto llamado robots.txt en el que puedes indicar que partes de tu sitio son indexables y que robots pueden acceder a estas.

 

Page 12: Los robots Páginas Web

Inicio

Serv. Web

Promoción

Intercambio banners

Visitas Extras

Premios

Rankings

Alta en Buscadores

Generador Metatags

Robot.txt

Recomendar

Publicidad

Serv.Visit.

JavaScript

Los buscadores o crawlers que funcionan lanzando su robot a la caza de las páginas que irán recolectando para añadir a su base de datos, para su posterior inclusión e indexación, comprueban unicamente los contenidos del fichero robots.txt. Este fichero lo buscan en el directorio raíz del web site y es un fichero de texto plano, no un fichero HTML.

La existencia y el funcionamiento del fichero robots.txt se deben a los protocolos del W3, con la intención de que el webmaster pueda ocultar al robot aquellos contenidos que no se desea hacer públicos o aplicar dichas reglas sólo para algún o algunos robots en concreto.

El robot busca primero en http//www.tudominio.com/robots.txt cuando aterriza en tu website, de manera que ahí es donde deberás incluir tu fichero robots.txt. El número de peticiones que reciba este ficherito y que constará en las estadísticas nos indicará pues el número de veces que hemos sido visitados por el robot.

En caso de que no dispongas del fichero, el robot considera que no hay ninguna exclusión y podrá rastrear cualquier página del web site sin excepción.

Ejemplos:

User-agent: *Disallow :

El asterisco * significa TODOS LOS ROBOTS. En este caso no hay ninguna regla especial, así que este fichero no restringe el acceso a

Page 13: Los robots Páginas Web

ninguna página ni a ningún robot. Implica acceso total.

User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /borrador/

Todos los robots tienen restringido el acceso a los directorios /cgi-bin, al /tmp o / borrador .

Atención porque necesitarás una sentencia para cada directorio.

User-agent: * Disallow: /

Todos los robots tienen prohibido el acceso a cualquier directorio del web site.

User-agent: GooglebotDisallow : /

Excluir un determinado robot, en este caso el robot de Google no tiene acceso a ningún directorio.

User-agent: GooglebotDisallow : /User-agent: *Disallow:/borrador/pruebas.html

Ahora Google no tiene acceso a ningún directorio, en cambio, todos los otros robots tienen acceso ilimitado excepto para la página pruebas.html del directorio borrador que está restringido.Lo importante es restringir teniendo en cuenta la ruta de acceso a ese fichero o directorio.

Y también puedes restringir el acceso a una página determinada, con las etiquetas META <META NAME="robots" CONTENT =

Page 14: Los robots Páginas Web

"noindex">

No abuses de las restricciones, recuerda que cuantas más páginas estén indexadas mucho mejor para lograr la promoción que deseas para tu web.

Archivos Robots.txt10 Jan 2011

in Share 0

El fichero “robots.txt” es un fichero de texto (.txt) normal que se encuentra en la carpeta raíz del servidor donde se encuentra alojado nuestro sitio web. Este fichero es  uno de los factores internos que influyen en el SEO on site, aunque algunos autores lo

situan en la subcategoría de factores on server o de servidor.

Los bots de los motores de búsqueda van a rastrear éste archivo de texto, el cual proporcionará algunas indicaciones que pueden optimizar la indexación de nuestro sito. El robot.txt también indica a los buscadores qué partes de la web deben indexar y cuáles no, pudiéndose incluír en el fichero directrices para restringir el acceso a contenidos . 

Por lo general los CMS o gestores de contenidos dinámicos generan el archivo robots.txt con los parámetros básicos  de manera automática.

Un  “robots.txt” básico utiliza varios comandos básicos:

* User-Agent:  se refiere al bot  al que se aplica la regla.* Disallow:  las páginas o capretas  que se desea bloquear.

* Allow:  define las páginas que desea indexar.

Un fichero robot.txt tipo que permite el libre acceso al sitio quedaría así:

User-Agent: *

Con este comando se le indica a los rastreadores que tienen libre acceso para indexar todos los contenidos que haya en el sitio web.

El caso opuesto, un robot.txt que bloquearía por completo el acceso a los motores de búsqueda se leería de la siguiente forma:

User-Agent: *Disallow: /

Tambiñen podemos bloquear el acceso por parte de los buscadores a un achivo, directorio o subdirectorio en particular.

Page 15: Los robots Páginas Web

User-Agent: *Disallow: /directorio/archivostemporales

El fichero robots.txt es útil para evitar indexación de contenido duplicado, así como para informar a los buscadores de la implementación de un sitemap.  Para ello, tan sólo

es necesario añadir una línea al fichero con la URL absoluta donde se encuentre el archivo sitemap.

Ejemplo:

http://www.misitio.com/sitemap.xml

Las herramientas para webmasters de Google incluyen validación de ficheros robots.txt para comprobar posibles errores.

El archivo robots.txt, nos permite especificar páginas de nuestra web a las que no podrán acceder los sistemas automatizados de rastreo de páginas web ( como por ejemplo los robots de buscadores ), esto es útil para evitar que algunas secciones cómo páginas de resultado de búsqueda, URL's con parámetros no representativos, páginas privadas o de usuario...

Es un protocolo de caracteres puramente consultivo que confía en la cooperación del robot, de modo que excluir un área de tu sitio con robots.txt no garantiza que no va a ser accedida de forma automática, ya que existen robots que no cumplen este protocolo ( spambots ... ) e incluso existen algunos que utilizan robots.txt para encontrar nuevas páginas que rastrear.

ArribaTabla de contenido

· El archivo robots.txt · Ejemplo

ArribaEl archivo robots.txtEl archivo robots.txt debe tener como nombre ( que cosas tiene la vida ) robots.txt y debe estar situado en la raíz de nuestro dominio:

http://www.programacionweb.net/robots.txt

En este archivo indicaremos las páginas que no pueden ser rastreadas utilizando única y exclusivamente las siguientes directivas sensibles a mayúsculas:

Disallow - Especifica la URL que no puede ser rastreada User-Agent - Especifica que robot no queremos que acceda a las URL marcadas con Disallow hasta el siguiente User-Agent o el final del archivo.

Ambas directivas nos permiten usar el carácter asterisco ( * ) como comodín para una o más letras.

Podemos escribir comentarios de una sola línea con el caracter almohadilla ( # ) al principio de línea.

ArribaEjemplo

Este es un ejemplo de robots.txt correcto:

Page 16: Los robots Páginas Web

robots.txt

000 

001 

002 

003 

004 

005 

006

# Permitir todas las páginas a todos los robots ... User-agent: * Disallow:  # ... pero Googlebot no puede acceder al directorio /antigoogle/ User-agent: Googlebot Disallow: /antigoogle/

Maximizar   Seleccionar   CMD

 Podeis ver y chequear el archivo robots.txt de vuestra web, con nuestra herramienta de analisis y edición de robots.txt

 Estándar de exclusión de robotsDe Wikipedia, la enciclopedia libre

Saltar a navegación, búsqueda

El estándar de exclusión de robots, también conocido como el protocolo de la exclusión de robots o protocolo de robots.txt es un método para evitar que ciertos bots que analizan los sitios Web u otros robots que investigan todo o una parte del acceso de un sitio Web, público o privado, agreguen información innecesaria a los resultados de búsqueda. Los robots son de uso frecuente por los motores de búsqueda para categorizar archivos de los sitios Webs, o por los webmasters para corregir o filtrar el código fuente.

Contenido

[ocultar]

1 El archivo robots.txt 2 Desventajas 3 Cuerpo o estándar RFC oficial para el protocolo de robots.txt 4 Ejemplos 5 Observaciones 6 Véase también 7 Enlaces externos

Page 17: Los robots Páginas Web

[editar] El archivo robots.txt

Un archivo robots.txt en un sitio web funcionará como una petición que especifica que determinados robots no hagan caso a archivos o directorios específicos en su búsqueda. Esto puede realizarse, por ejemplo, para dejar fuera de una preferencia los resultados de una búsqueda avanzada, o de la creencia que el contenido de los directorios seleccionados puede ser engañoso o inaplicable a la clasificación del sitio en su totalidad.

[editar] Desventajas

Este protocolo es consultivo. Confía en la cooperación de los robots del sitio Web, de modo que marca una o más áreas de un sitio fuera de los límites de búsqueda con el uso de un archivo robots.txt, aunque éste no necesariamente garantice aislamiento completo. Algunos administradores de sitios Web utilizan el archivo robots.txt para hacer algunas secciones privadas, invisibles al resto del mundo, pero dado que los archivos están disponibles en forma pública, su contenido podría ser visto de todas maneras por cualquier persona con un navegador Web y conocimientos medianamente avanzados. En algunos casos el incluir un directorio en este archivo le anuncia su presencia a posibles hackers, así ellos pueden determinar fácilmente algunos softwares usados en el sitio mediante buscar "huellas típicas" en el robots.txt.

[editar] Cuerpo o estándar RFC oficial para el protocolo de robots.txt

Fue creado por consenso en junio de 1994 por los miembros de robots que enviaban la lista ([email protected]). La información que especifíca las piezas que no deben ser alcanzadas se especifica en un archivo llamado robots.txt en el directorio de nivel superior del sitio Web. Los patrones de robots.txt son emparejados por comparaciones simples de subsecuencia, así que se debe tomar cuidado para cerciorarse de que los directorios tengan concordancia con el modelo, y que tengan añadido el carácter “/” al final, si no todos los archivos con nombres comenzando con esa subsecuencia emparejarán, más bien que apenas ésos en el directorio previsto.

[editar] Ejemplos

Este ejemplo permite que todos los robots visiten todos los archivos que se encuentran almacenados en el código raíz de la página web porque el comodín “*” especifica todos los robots:

User-agent: *Disallow:

Cabe destacar que el comodín (*) significa "ALL" o en lo sucesivo en español "TODOS"

Page 18: Los robots Páginas Web

Este ejemplo les niega el acceso a todos los bots (implementando el comodín [/], en todos los archivos almacenados en el directorio raíz:

User-agent: *Disallow: /

Cabe destacar que el comodín (/), le niega el acceso la entrada al bot.

El siguiente es un ejemplo que dice que todos los subdirectorios que incluyan el comodín (/) deben ser bloqueados, únicamente éstos, exceptuando a todos los demás archivos y directorios que no contienen un comodín, para su revisión:

User-agent: *Disallow: /cgi-bin/Disallow: /images/Disallow: /tmp/Disallow: /private

Tenga los Los Robots Web a su Favor

>> DOMINGO 13 DE JUNIO DE 2010

Los robots web (también conocidos como Web Wanderers, Crawlers, o arañas),

son programas que recorren la Web de forma automática para solicitar información

de los mismos. Cuando un robot visita una página, lo primero que hace, es solicitar

el archivo / robots.txt, el cual le dice al robot, si tiene permiso para indexar la

pagina, y qué contenido de esta puede visitar. Los motores de búsqueda como

Page 19: Los robots Páginas Web

Google los utilizan para indexar el contenido de su sitio web, los spammers los

utilizan para buscar direcciones de correo electrónico y hacer de las suyas.

Acerca de / robots.txt

Los propietarios de sitios Web utilizan el archivo / robots.txt  para dar instrucciones sobre su sitio web a los robots de búsqueda, lo que se llama El Protocolo de Exclusión de Robots.

¿Qué pasa cuando un robot quiere visitar una página Web URL?

Por ejemplo http://www.example.com/welcome.html. Antes de hacerlo, lo verifica primero http://www.example.com/robots.txt y encuentra:

  User-agent: *

Disallow: /

El "User-agent: *" significa que esta sección se aplica a todos los robots. Disallow ": /" indica al robot que no debe visitar las páginas del sitio.

Hay dos consideraciones importantes cuando se utiliza / robots.txt:

1. los robots pueden ignorar su / robots.txt. Especialmente los robots que escanean

malware de la web en busca de vulnerabilidades de seguridad, y la dirección de correo

electrónico recolectado por los spammers para vender las direcciones de correo

electrónico.

2. el fichero / robots.txt es un archivo a disposición del público. Cualquiera puede ver qué

secciones de su servidor tiene y puede indicar cuales no desea que vean.

Así que no trate de usar / robots.txt para ocultar información, porque, si lo descubren los motores de búsqueda, no lo visitará nadie.

Page 20: Los robots Páginas Web

¿Se pueden bloquear los robots dañinos?

En teoría sí, en la práctica no. Si ha identificado que un robot dañino visita su página, y usted sabe su nombre explora el campo User-agent. Entonces usted puede crear una sección en su archivo / robotst.txt y excluirlo específicamente. Pero casi todos los robots maliciosos ignoran los / robots.txt.

Si el robot malicioso opera desde una única dirección IP, puede bloquear su acceso a su servidor web a través de la configuración del servidor o con un firewall de red.

Si el robot copia gran cantidad de direcciones IP, de varias PCs que son parte de una gran red de PC´s, entonces se vuelve más difícil. La mejor opción entonces es utilizar las reglas de configuración de seguridad de su servidor para que en forma automática bloquee el acceso a las direcciones IP que desean hacer muchas conexiones, pero el problema es que se reciben tanto robots buenos como malos.

¿Por qué los robots ignoran su / robots.txt?

Podría ser porque fue escrito por un programador de software sin experiencia. En estos días es más probable que el robot esté explícitamente escrito para analizar su sitio, en lugar de obtener información de los abusos, es más rentable, pero poco ético recoger direcciones de correo electrónico y venderlas para enviar spam.

Implicaciones de Seguridad

Algunas personas están preocupadas porque en sus páginas de venta o páginas de aterrizaje, puedan tener accesos maliciosos a través de estos robots y logren robarles su dinero de sus cuentas de banco.

La verdadera respuesta es que / robots.txt no fue diseñado para controlar el acceso, así que no trate de utilizarlo como tal. Piense en ello como una señal de "Prohibido el Paso", como una puerta cerrada con llave. Si usted tiene archivos en su sitio web que no desea que personas no autorizadas accedan a ellos, configure el servidor para hacer la autenticación, genere la autorización correspondiente y configúrelo. La autenticación básica ha estado presente desde los primeros días de la web. Hoy en día existen sistemas de gestión modernos de contenido compatibles con los controles de acceso a páginas individuales y sus recursos en forma segura.

Page 21: Los robots Páginas Web

¿Cómo crear un fichero / robots.txt en caso de que desee ponerlo?

Cuando un robot visita el archivo "/ robots.txt", se elimina el componente de ruta de la URL (todo desde la barra inicial), y pone el  archivo "/ robots.txt" en su lugar.

Por ejemplo, para "http://www.example.com/shop/index.html, eliminará el" / shop / "index.html, y lo sustituirá por" / "robots.txt, y terminará así "http://www.example.com/robots.txt".

Así que, como propietario de un sitio web usted necesita ponerlo en el lugar correcto en el servidor web para que funcione. Por lo general, es el mismo lugar donde pone su página de bienvenida principal "index.html".

Qué poner en él

El archivo "/ robots.txt" es un archivo de texto, con uno o más registros. Por lo

general, contiene un registro único de este aspecto:

 User-agent: *

Disallow: / cgi-bin /

Disallow: / tmp /

Disallow: / ~ juan /

En este ejemplo, tres directorios son excluidos.

Tenga en cuenta que necesita separar la línea "Disallow" para cada prefijo de URL que desea excluir - usted no puede decir "No permitir: / cgi-bin / / tmp /" en una sola línea. Además, no puede haber líneas en blanco en un registro, ya que se utilizan para delimitar varios registros.

Tenga en cuenta también que esta expansión en las expresiones regulares no es compatible ni en el User-agent  o en líneas Disallow. El '*' en el campo User-agent es un valor especial que significa "ningún robot". En concreto, no se puede tener líneas como "User-agent: * *" bot "Disallow: / tmp / *" o "Disallow: *. gif".

Page 22: Los robots Páginas Web

Lo que usted puede excluir depende de su servidor. Todo lo que no está explícitamente permitido es considerado legítimo para recuperar. He aquí algunos ejemplos:

Para excluir todos los robots de todo el servidor

 User-agent: *

Disallow: /

Para permitir que todos los robots tengan acceso completo

 User-agent: *

No permitir:

(O simplemente crear un "/ robots.txt" vacío de archivos, o no usar ninguno en absoluto)

Para excluir todos los robots de la parte del servidor

 User-agent: *

Disallow: / cgi-bin /

Disallow: / tmp /

Disallow: / junk /

Para excluir un solo robot

 User-agent: BadBot

Disallow: /

Page 23: Los robots Páginas Web

Para permitir un solo robot

 User-agent: Google

No permitir:

 

User-agent: *

Disallow: /

Para excluir todos los archivos excepto uno.

Este es actualmente un poco incómodo, ya que no hay un "campo" Permitir. La forma más fácil es poner todos los archivos a ser rechazados en un directorio diferente y dejar el archivo en un nivel por encima de este directorio:

 User-agent: *

Disallow: / ~ juan / cosas /

Como alternativa, puede explícitamente rechazar todas las páginas:

 User-agent: * Disallow: / ~ juan / junk.html Disallow: / ~

juan / foo.html Disallow: / ~ juan / bar.html

Para aprender más acerca de robots web, visitar:

1. La Búsqueda de la Dirección IP puede ayudar a saber más acerca de qué robots están visitando su sitio.