terça-feira, 25 de maio de 2010

Robots.txt - Ajudando os buscadores

Voltamos a mais um artigo sobre boas práticas de web.

O assunto de hoje não tem a ver diretamente com usuários, e sim com os buscadores: robots.txt

O que é?

O arquivo robots.txt é algo extremamente simples. De verdade. É um arquivo, com o nome "robots.txt", que deve ficar na raíz do site, e com um conteúdo similar a:

User-agent: *
Disallow: /img/
Disallow: /styles/
Disallow: /scripts/
Disallow: /busca.php

Explicação

Na primeira linha definimos o user-agent, que nada mais é que o nome do crawler. No caso especificamos *, curinga para todos os crawlers. Para saber melhor quais os nomes válidos, veja a lista completa.

Nas outras linhas temos Disallow, que é a dica de quais diretórios e arquivos não indexar. No caso acima, dizemos que todo o conteúdo dos diretórios img, scripts e styles não devem ser indexados, e que o arquivo /busca.php também não.

Outras opções

Existem várias outras opções que não fazem parte do padrão como
  • Allow - funciona como o disallow, mas ao invés de proibir, permite
  • Delay - diz qual o intervalo em segundos entre uma requisição e outra
  • Request-rate - que diz qual a taxa de requisições.
  • Visit-time - diz qual o melhor intervalo para visitação do crawler
  • Sitemap - diz onde está o sitemap xml do site.

O que usar?

É muito incomum ver nos robots.txt existentes, alguma diretiva que fuja do padrão (user-agent e disallow), com exceção da diretiva sitemap. Para os crawlers dos maiores buscadores (google, yahoo, bing, ask), o uso dessa diretiva é bastante útil, então o uso da diretiva sitemap é recomendado.

Considerações

Assim como o sitemap, a função do robots.txt é meramente informativa. O trabalho de indexação acontece de forma independente. Um badbot pode - e provavelmente irá - ignorar uma cláusula de disallow. Para evitar a indexação de informações privilegiadas, use o .htaccess.

Mas sem neuroses, a existência do robots.txt no seu site indica a preocupação em ajudar os crawlers na tarefa de indexação, e isso com certeza conta alguns pontos para uma melhor colocação do site. É mais poderoso ainda se você indicar um sitemap.

Exemplo final

User-agent: *
Disallow: /scripts/
Disallow: /styles/
Disallow: /private/
Disallow: /busca.php
Sitemap: http://www.seusite.com/sitemaps/sitemap.xml

Até a próxima.
----------- keepReading

Nenhum comentário:

Postar um comentário