sábado, 1 de septiembre de 2012

Etiqueta META robots y archivo robots.txt.

Mediante las diferentes etiquetas META que podemos colocar en un sitio web disponemos de una variedad amplia de metainformaciones para comunicar a cualquier sistema que lea nuestra página web.
Nota: Conviene recordar que también se puede definir el comportamiento de los robots de búsqueda con nuestro sitio, a la hora por ejemplo de permitir o no indexar las distintas páginas, mediante el archivo robots.txt.
Ahora veamos cómo se define esta etiqueta META de robots.

Como se puede ver, se define el etiqueta META y se acompaña de dos atributos esenciales:
Name: que para la etiqueta META que controla los comportamientos en motores de indexación el valor es "robots".
Content: se indica las directivas que queremos que apliquen los motores de indexación cuando visitan la página.

Valores posibles de la etiqueta META ROBOTS

En el atributo Content de la etiqueta meta debemos colocar las directrices que deseemos para buscadores, tantas como deseemos, separadas por comas. Las distintas directrices a aplicar son las siguientes: INDEX / NOINDEX
Sirve para indicar si se desea o no permitir la indexación de la página por los motores de búsqueda.
FOLLOW / NOFOLLOW
Con esta directriz se indica si se debe o no permitir a los motores de búsqueda recorrer o seguir recorriendo la web a través de los enlaces que encuentre en el cuerpo del documento.
ARCHIVE / NOARCHIVE
Esto permite decir si deseamos o no que el motor de búsqueda archive el contenido del sitio web en su caché interna. Como habremos podido ver, buscadores como Google tienen una caché y podemos ver las páginas web tal como las tiene cacheadas el buscador. Para ello, en los resultados de las búsquedas aparece un enlace que pone caché. Si decimos que no archive la página, no debería mostrar ese enlace de caché. Esto en realidad, según Google, no evita que se guarde en caché la página, sino que no permite verla a los usuarios del buscador y por lo tanto no muestra el enlace.
SNIPPET / NOSNIPPET
Esta directriz en principio no resulta muy útil, al menos a primera vista. Sirve para que el motor de búsqueda no muestre ninguna descripción de un sitio, sólo su título. Si utilizas NOSNIPPET automáticamente defines un NOARCHIVE, por lo que la página tampoco se mostrará en caché.
ODP / NOODP
Sirve para decirle al buscador que debe, o no, mostrar el título y descripción de la página iguales a los que se encuentra en el Open Directory Project. En algunos casos, algunos buscadores muestran como título y descripción de una web los que se han publicado en el ODP (ENLACE A http://www.dmoz.org/).
YDIR / NOYDIR
Es básicamente lo mismo que ODP / NOODP, con la diferencia que es para que no se pueda, o si, mostrar la descripción y título que aparece en el directorio de Yahoo.
Cuando no existe esta etiqueta los buscadores interpretan las condiciones más favorables para ellos, es decir, que pueden hacer todo lo que suelen hacer con otras páginas a la nuestra, como indexarla, seguir sus enlaces, archivarla, etc.

Ejemplos de etiquetas META ROBOTS

A la hora de utilizar la META ROBOTS básicamente lo que podemos hacer es restringir las posibilidades de los motores de búsqueda, puesto que las posibilidades por defecto son las menos restrictivas. Esto quiere decir que una etiqueta como la siguiente es irrelevante, porque el buscador siempre va a indexar la página y seguir sus enlaces de manera predeterminada:

Podemos definir entonces casos más restrictivos como estos:

Para indicar que se desea que se indexe la página, pero no se sigan los enlaces. Dada que la opción INDEX es la que se sobreentiende por defecto, esta etiqueta tendría el mismo valor que la siguiente:

Para indicar que no queremos que se sigan los enlaces de la página.

Para indicar que no queremos que se indexe la página ni se sigan los enlaces que pueda contener.

Lo único que indicamos es que no se muestre el enlace para ver la página en la caché del buscador.

Con esta restrictiva etiqueta forzamos para que no se indexe la página, no se sigan los enlaces, no se muestre el link de caché, no se muestre el título y descipción del Open Directory Project y sólo se muestre el título de la página en los resultados de las búsquedas.

Archivo robots.txt

Un robot es un programa más o menos complicado que se dedica a rastrear nuestras páginas web y guardar su contenido en una base de datos y seguir los enlaces que tengamos a otras páginas web. Esto nos beneficia pero también nos puede perjudicar, ya que a veces no nos conviene que se indexen ciertas páginas de nuestras webs.

Actualmente los robots actúan de tal forma que lo primero que hacen es buscar en la raíz de nuestra página si tenemos un archivo llamado robots.txt, si lo encuentra lo lee y sigue las directrices que en él se encuentran, si no lo encuentra empieza a rastrear toda la web.

Por este tema es importante crear bien este archivo y pensar que páginas queremos que sean rastreadas y cuáles no, ya que las que no sean rastreadas no serán indexadas en los navegadores.

Crear el archivo robots.txt
Este archivo es muy fácil de construir tan solo tienes que saber ciertas pautas y podrás hacerlo sin problema.

robots.txt puede construirse para que se aplique solo a los robots de determinados buscadores.

Pasamos a escribir un ejemplo para ir explicando las posibilidades:

User-agent: * # aplicable a todos los robots
Disallow: / # impide la indexacion de todas las paginas

En este ejemplo los robots no podrían indexar ninguna pagina del dominio.
User-agent lo que nos dice es a que robots se les aplica las características que le siguen debajo. Si usamos el * estamos diciendo que esas reglas son aplicables para todos los robots. Pero también podemos hacerlo para determinados robots, como ves en el siguiente ejemplo:

User-agent: lycra
User-agent: BadBot
Disallow: /

En este ejemplo los robots lucra y BadBot tendría prohibida la indexación de cualquier pagina del dominio.

El disallow nos dice los archivos o carpetas que queremos que no sean indexadas. De esta forma podríamos hacer un archivo como este:

User-agent: *
Disallow: /tmp/prueba.html
Disallow: /logs

Este ejemplo lo que haría sería prohibir la indexación de la carpeta logs y el archive prueba.html a todos los robots.

Con esto ya podríamos realizar un archivo robots.txt perfectamente válido, pero también existen términos para determinar en qué horas queremos que esos robots rastreen nuestras páginas. La forma de construirlo es la siguiente:

Visit-time: 0300-0400 #esta opción obligaría a rastrear las paginas solo de 3 am a 4 am

Recuerda que las horas siempre se colocan en Greenwitch

Por otro lado podemos decirle que indexe una página o varias cada equis tiempo, para ello se utiliza la siguiente sintaxis:

Request-rate: 1/30

Siendo el 1 el número de documentos a rastrear y el 30 el tiempo que transcurre entre un rastreo y el siguiente.

Es importante saber que no puedes dejar líneas en blanco ya que no funcionaria, el robots dejaría de leer en el momento que encuentra la línea en blanco.

Otro aspecto que no he comentado antes pero que habréis notado es que los comentarios ser realizan utilizando la #.

Un ejemplo completo seria el siguiente:

User-agent: *
Disallow: /tmp/prueba.html
Disallow: /logs
Visit-time: 0300-0400

Esto permitirá a todos los robots rastrear todas las paginas menos prueba.html y la carpeta logs, además solo podrían indexar de 3 de la mañana a 4.
 
 Info:http://www.desarrolloweb.com/articulos/robots-txt.html
 Info:http://www.desarrolloweb.com/articulos/etiqueta-meta-robots.html

No hay comentarios:

Publicar un comentario