
Mediante el fichero robots.txt podemos realizar varias acciones:
- Impedir acceso a determinados robots, muy útil sobre todo para evitar sobrecargas en el servidor.
- Prohibir el acceso a determinadas zonas, por ejemplo al área de administración de la web.
- Identificar la ubiación del sitemap.
- Eliminar contenido duplicado. Muy valorado por los buscadores.
El fichero robots.txt debe estar colocado en el directorio raíz del sitio, de tal forma que sea accesible a través de: www.example.com/robots.txt
Este ejemplo permitiría el acceso total a la web, es como si no tuvieramos fichero robots.txt:
User-agent: *
Disallow:
Añadiendo una carpeta a Disallow impediriamos el acceso a esa carpeta, en este ejemplo permitimos a los robots indexar cualquier página excepto las que estén dentro de /administracion:
User-agent: *
Disallow: /administracion
Si sólo queremos prohibir el acceso a un determinado robot, deberíamos indicarlo en el user-agent, de la siguiente forma:
User-agent: msnbot
Disallow: *
También podemos utilizar carácteres comodín (*) o comentarios (#), de esta forma impedimos el acceso a todos los documentos html (puede interesarnos que sólo indexe documentos php) y además impedimos el acceso a cualquier web que contenga /num/ en su dirección, esto es muy útil para evitar contenido duplicado pero debemos tener cuidado porque si por ejemplo escribimos /*num, estamos bloqueando cualquier web que contenga num, por ejemplo www.example.com/numerosas-personas-acudieron.html :
#Robots.txt con comodinesDisallow: /*.html$
Disallow: /noticia/*/num/*
Si detectamos accesos repetitivos que están saturando el servidor, podemos indicarle al robot un tiempo (en segundos) entre cada petición:
User-agent: msnbot
Crawl-delay: 30
También podemos indicarle en el fichero robots.txt el lugar donde se encuentra nuestro sitemap:
Sitemap: http://www.example.com/sitemap.xml De esta forma, un fichero robots.txt básico quedaría:
User-agent: *
Disallow: /administracion
Sitemap: http://www.example.com/sitemap.xml



5 comentarios: