
Mediante el fichero robots.txt podemos realizar varias acciones:
- Impedir acceso a determinados robots, muy útil sobre todo para evitar sobrecargas en el servidor.
- Prohibir el acceso a determinadas zonas, por ejemplo al área de administración de la web.
- Identificar la ubiación del sitemap.
- Eliminar contenido duplicado. Muy valorado por los buscadores.
El fichero robots.txt debe estar colocado en el directorio raíz del sitio, de tal forma que sea accesible a través de: www.example.com/robots.txt
Este ejemplo permitiría el acceso total a la web, es como si no tuvieramos fichero robots.txt:
User-agent: *
Disallow:
Añadiendo una carpeta a Disallow impediriamos el acceso a esa carpeta, en este ejemplo permitimos a los robots indexar cualquier página excepto las que estén dentro de /administracion:
User-agent: *
Disallow: /administracion
Si sólo queremos prohibir el acceso a un determinado robot, deberíamos indicarlo en el user-agent, de la siguiente forma:
User-agent: msnbot
Disallow: *
También podemos utilizar carácteres comodín (*) o comentarios (#), de esta forma impedimos el acceso a todos los documentos html (puede interesarnos que sólo indexe documentos php) y además impedimos el acceso a cualquier web que contenga /num/ en su dirección, esto es muy útil para evitar contenido duplicado pero debemos tener cuidado porque si por ejemplo escribimos /*num, estamos bloqueando cualquier web que contenga num, por ejemplo www.example.com/numerosas-personas-acudieron.html :
#Robots.txt con comodinesDisallow: /*.html$
Disallow: /noticia/*/num/*
Si detectamos accesos repetitivos que están saturando el servidor, podemos indicarle al robot un tiempo (en segundos) entre cada petición:
User-agent: msnbot
Crawl-delay: 30
También podemos indicarle en el fichero robots.txt el lugar donde se encuentra nuestro sitemap:
Sitemap: http://www.example.com/sitemap.xml De esta forma, un fichero robots.txt básico quedaría:
User-agent: *
Disallow: /administracion
Sitemap: http://www.example.com/sitemap.xml





4 comentarios:
No sabia que se podía añadir el sitemap en el fichero robots.txt
Tenía ganas de poner un robots.txt en mi web pero siempre que entraba a mirar como hacerlo acababa harto de ver demasiado información y muy disgregada.
Tú en unos cuantos párrafos lo has explicado mucho mejor.
Ahora mismo me pongo a hacer uno.
hola, muy bueno este articulo, mi opregunta aquí es si solo debo colocar el robots.txt en el raiz o tambien debo colocar un metatag en cada pagina ?
@Anonimo es suficiente con que lo coloques en el raíz.
Publicar un comentario en la entrada