Banco de dúvidas

O que é o robots.txt?

Sites de busca (Google, Bing, Facebook, Amazon, etc.) indexam páginas na internet com bots que constantemente rastreiam as páginas dos sites.

O robots.txt é um arquivo texto que você coloca na pasta raiz do seu site para dar instruções aos bots, coisas como:

  • Quais bots têm permissão para indexar seu site
  • Quais páginas devem (ou não devem!) ser indexadas
  • Onde está o sitemap do seu site
  • Quantos segundos esperar entre cada acesso à páginas

A existência do arquivo robots.txt não é obrigatório em seu site. Se você não quiser regular a indexação de seu site, basta não criá-lo.

Como funciona o arquivo robots.txt

Entenda como funciona com exemplos. Para proibir o acesso do bot do Google a uma certa pasta:

User-agent: Googlebot
Disallow: /pasta-secreta/

Para bloquear todos os bots:

User-agent: *
Disallow: /nao-indexe-isso/

Para bloquear completamente a indexação do seu site pelo bot do site de busca chinês Baidu:

User-agent: Baiduspider
Disallow: *

Para impedir a indexação de imagens:

User-agent: Googlebot-Image
Disallow: /imagens/cachorros.jpg
Disallow: /imagens/gatos.jpg
Disallow: /imagens/girafas.jpg

# Use asterisco para incluir várias imagens
Disallow: /imagens/animais-*.jpg

Você também pode impor uma espera entre cada acesso com "Crawl-delay". Ela indica quantos segundos o bot deve aguardar entre cada acesso a um URL. Isso é para quando seu site tem páginas "pesadas" e os bots estão percorrendo seu site muito rapidamente, consumindo recursos que poderiam ser usados por visitantes humanos.

User-agent: *
Crawl-delay: 5

Obs.: apesar de ser respeitado pelo Bing, Yahoo!, e Yandex, entre outros, o Google ignora o Crawl-delay, porém é possível regular a taxa de indexação pelo Google Search Console.

Para informar um local alternativo para o arquivo sitemap.xml do seu site:

Sitemap: https://xyzparafusos.com.br/mapadosite.xml

Após criar o arquivo texto, é só usar o Gerenciador de arquivos para enviá-lo para a pasta raiz do seu site (o robots.txt não funciona em uma subpasta). Você também pode editá-lo diretamente pelo Gerenciador de arquivos.

Bots mais populares

  • Googlebot (bot do Google)
  • Bingbot (bot do Bing)
  • Slurp (bot do Yahoo)
  • DuckDuckBot (bot do DuckDuckGo)
  • Baiduspider (bot do site chinês Baidu)
  • YandexBot (bot do site russo Yandex)
  • Sogou Pic Spider/3.0, Sogou head spider/3.0, Sogou web spider/3.0, Sogou Orion spider/3.0 e Sogou-Test-Spider/4.0 (bots do site chinês Sogou)
  • Exabot (bot do site francês Exalead)
  • facebot (bot do Facebook)
  • Applebot (bot da Apple)

Para mais informações, veja instruções detalhadas na documentação para desenvolvedores do Google.

Este artigo foi útil para você?