sitemap.xml i robots.txt

3
Més manuals a: http://www.exabyteinformatica.com/manuales-y-apuntes-freeware © Roger Casadejús Pérez | http://www.exabyteinformatica.com/tienda/ Sitemap.xml i robots.txt Què és i per a què serveix el sitemap? El posicionament en buscadors dels llocs que dissenyem o que simplement estem administrant té una gran importància en un entorn tan competitiu com és la web avui en dia. Del posicionament web depèn moltes vegades l’èxit o el fracàs del site i per això hem de fer tot el possible per informar als buscadors de la existència del nostre lloc web. Un sitemap.xml és un arxiu que conté una llista de les pàgines del lloc web junt amb alguna informació extra, tal com en quina freqüència la web canvia els seus continguts, quan va ser la última vegada que es va actualitzar i com d’important és respecte a la resta de pàgines del mateix site. El robots.txt és un arxiu que tots els buscadors han de llegir. Com construim el sitemap.xml La programació de l’arxiu sitemap.xml ha de seguir una sèrie de pautes especificades en el protocol de sitemaps i després hem d’informar als buscadors de la existència del mateix, estigueu al cas dels següents passos: · Continguts obligatoris del sitemap.xml: El sitemap.xml es construeix fent servir etiquetes XML o tags incloses en un arxiu sempre amb codificació UTF8. Els valors de dades (contraposats a les mateixes etiquetes) han de fer servir codis d’escapament per certs caràcters especials, tal com s’acostuma a fer en HTML. Veiem un exemple: Les cometes dobles “ s’han de substituir per “ Els signes de major > i menor < per > i < respectivament. · Exemple senzill d’un sitemap.xml: Amb la primera etiqueta, definim la versió de XML que fem servir i la codificació en aquest cas (com en la majoria) de UTF8 En la segona línia, fem referència al protocol d’ús: 0.9 · Etiquetes que formen el sitemap.xml: <loc>http://www.xxx.xxxx….</loc> adreça de la pàgina que forma part del sitemap.xml <lastmod>Data</lastmod>, data de la última modificació.

Upload: roger-casadejus-perez

Post on 26-Jan-2015

107 views

Category:

Documents


3 download

DESCRIPTION

Que és sitemap.xml i robots.txt? Més manuals a: http://www.exabyteinformatica.com

TRANSCRIPT

Page 1: Sitemap.xml i robots.txt

Més manuals a: http://www.exabyteinformatica.com/manuales-y-apuntes-freeware

© Roger Casadejús Pérez | http://www.exabyteinformatica.com/tienda/

Sitemap.xml i robots.txt

Què és i per a què serveix el sitemap?

El posicionament en buscadors dels llocs que dissenyem o que simplement estem administrant

té una gran importància en un entorn tan competitiu com és la web avui en dia. Del

posicionament web depèn moltes vegades l’èxit o el fracàs del site i per això hem de fer tot el

possible per informar als buscadors de la existència del nostre lloc web.

Un sitemap.xml és un arxiu que conté una llista de les pàgines del lloc web junt amb alguna

informació extra, tal com en quina freqüència la web canvia els seus continguts, quan va ser la

última vegada que es va actualitzar i com d’important és respecte a la resta de pàgines del

mateix site.

El robots.txt és un arxiu que tots els buscadors han de llegir.

Com construim el sitemap.xml

La programació de l’arxiu sitemap.xml ha de seguir una sèrie de pautes especificades en el

protocol de sitemaps i després hem d’informar als buscadors de la existència del mateix,

estigueu al cas dels següents passos:

· Continguts obligatoris del sitemap.xml:

El sitemap.xml es construeix fent servir etiquetes XML o tags incloses en un arxiu sempre amb

codificació UTF8. Els valors de dades (contraposats a les mateixes etiquetes) han de fer servir

codis d’escapament per certs caràcters especials, tal com s’acostuma a fer en HTML. Veiem un

exemple:

Les cometes dobles “ s’han de substituir per “

Els signes de major > i menor < per > i < respectivament.

· Exemple senzill d’un sitemap.xml:

Amb la primera etiqueta, definim la versió de XML que fem servir i la codificació en aquest cas

(com en la majoria) de UTF8

En la segona línia, fem referència al protocol d’ús: 0.9

· Etiquetes que formen el sitemap.xml:

<loc>http://www.xxx.xxxx….</loc> adreça de la pàgina que forma part del sitemap.xml

<lastmod>Data</lastmod>, data de la última modificació.

Page 2: Sitemap.xml i robots.txt

Més manuals a: http://www.exabyteinformatica.com/manuales-y-apuntes-freeware

© Roger Casadejús Pérez | http://www.exabyteinformatica.com/tienda/

El format de la data és: ANY-MES-DIA (On ANY és de 4 xifres, el MES de 2 i el DIA de 2).

Exemple: 2013-03-13

<changefrec>Freqüència</changefrec>, Freqüència o cada quan es produeix el canvi.

always, sempre per pàgines que canvien cada vegada que es mostren. Principalment les

dinàmiques.

hourly, la freqüència de canvi es produeix cada hora.

daily, la freqüència de canvi es produeix diàriament.

weekly, la freqüència de canvi es produeix setmanalment.

monthly, la freqüència de canvi es produeix mensualment.

Yearly, la freqüència de canvi es produeix anualment.

never, mai, típicament per a pàgines arxivades o històriques.

<priority>Value</priority> La prioritat es refereix a la importància que té la pàgina que es

troba en respecte de les demès que composen el site. És simplement una manera d’indicar

prioritats relatives dins del site, sense efecte cap a l’exterior del mateix. El valor o value pot

prendre valors entre el 0 i el 1, considerarem el valor per defecte el 0.5

Allotjament del sitemap.xml

L’arxiu sitemap.xml programat, s’allotja en el servidor com un arxiu més del site, amb la

peculiaritat de que pot contenir les adreces web contingudes en el mateix directori en que es

troba o en d’altres continguts en ell mateix. Normalment, es posa a l’arrel del server com a

sitemap.xml

Enviament del sitemap.xml als servers

A través de les eines per a webmasters de Google o el Yahoo site explorer, podem

proporcionar directament la informació del nostre sitemap.xml als buscadors. Però també ho

podem fer amb l’arxiu robots.txt

Podeu trobar més informació relativa a robots.txt en la següent adreça web:

http://www.sitemaps.org/protocol.php#submit_robots

Page 3: Sitemap.xml i robots.txt

Més manuals a: http://www.exabyteinformatica.com/manuales-y-apuntes-freeware

© Roger Casadejús Pérez | http://www.exabyteinformatica.com/tienda/

Programació de l’arxiu robots.txt

L’arxiu robots.txt diu als motors de recerca a quines parts del teu site poden accedir per

indexar i rastrejar. Aquest arxiu s’ha d’anomenar sempre robots.txt i ha d’estar situat a l’arrel

del teu site.

Un exemple seria:

User-Agent: *

Disallow: /privat/theme.css

Disallow: /confidencial/

Disallow: /webadmin/

Disallow: /sessions/

Sitemap: http://www.exabyteinformatica.com/sitemap.xml

En primer lloc amb el paràmetre User-Agent: * estem dient que tots els buscadors tenen

cabuda per rastrejar i indexar el lloc web (tal com indica el *), es pot posar també per exemple

google per indicar que només volem que sigui aquest buscador el que pugui indexar.

La resta de paràmetres del disallow, indiquen quines carpetes o directoris tenen la indexació

prohibida o quins resultats NO volem que el buscador indexi.

La línia del sitemap, indica als buscadors i robots crawlers, on està situat l’arxiu sitemap.xml

perquè el puguin llegir i a l’hora indexar.