Robots.txt - Bloqueando conteúdos aos buscadores
Um robot, também chamado de spider ou crawler é um software que percorre a web automaticamente, seguindo links de site em site e indexando os conteúdos. Esses conteúdos serão depois listados nos resultados de buscadores como Google, Yahoo, MSN etc.
O que freqüentemente ocorre, é que temos conteúdos ou arquivos que não queremos que apareçam nos resultados de busca. São páginas de login, pastas de sistemas ou imagens, ou simplesmente algum conteúdo que não queremos que seja listado mesmo. Pode ser também que os bots usem muito os recursos do servidor e você tenha sido advertido pela sua empresa de hosting. Ou ainda, você não quer ser listado em alguns buscadores específicos ou receber visitas de bad bots.
A forma de fazer com que os buscadores ignorem certas páginas ou diretórios é através do protocolo Robots.txt, que nada mais é que um arquivo de texto colocado na raíz do site com informações para os bots.
A base do Robots.txt é:
User-agent:Disallow:
User-agent é o o nome do bot que você deseja bloquear. Para bloquear todos os bots se usa um asterisco (*). Disallow onde é especificado o arquivo ou diretório que deve ser ignorado.
Exemplos de uso:
Bloquear todos os bots a todo site:
User-agent: *Disallow: /
Bloquear somente um bot a todo site:
User-agent: GooglebotDisallow: /
Bloquear diretórios ou arquivos:
User-agent: *Disallow: /arquivosDisallow: /login.php
Alguns bots são compatíveis com uma configuração estendida do Robots.txt para criar exceções de diretórios, incluir sitemap, definir horários de visita dos bots etc. Você poderá conferir isso num próximo artigo: Robots.txt - Configurações estendidas.
Posted in SEO




