8 Erros Comuns do Arquivo Robots.txt e Como Corrigi-los

março 6, 2024

Conteúdo traduzido de Search Engine Journal.

O arquivo robots.txt é uma ferramenta útil e poderosa para dizer aos robôs dos motores de busca como você quer que eles explorem seu site. Cuidar desse arquivo é uma parte importante de um bom SEO Técnico.

Ele não é superpoderoso. Nas palavras do próprio Google, “não é um mecanismo para manter uma página fora do Google”, mas pode ajudar a evitar que seu site ou servidor fique sobrecarregado por muitos pedidos dos robôs.

Se você tem esse arquivo no seu site, é essencial usá-lo corretamente.

Isso é especialmente importante se você usa URLs dinâmicas ou outros métodos que criam um número teoricamente infinito de páginas.

Neste guia, vamos olhar para alguns dos problemas mais comuns com o arquivo robots.txt, o impacto no seu site, e como corrigir esses problemas se você encontrar elas.

Mas primeiro, vamos dar uma olhada rápida sobre o que é o arquivo.

O que é Robots.txt?

Robots.txt é um arquivo de texto simples que fica na pasta raiz do seu site.

Ele precisa estar na pasta mais alta do seu site. Os motores de busca vão ignorá-lo se você colocá-lo em uma subpasta.

Apesar de seu grande poder, o robots.txt é um documento simples, e um arquivo básico de robots.txt pode ser criado em segundos usando um editor como o Bloco de Notas. Você pode se divertir com eles e adicionar mensagens extras para os usuários que o encontrarem (veja o Robots.txt da Nike)

Existem outras maneiras de alcançar alguns dos mesmos objetivos que o robots.txt faz.

Páginas individuais podem incluir uma meta tag de robots dentro do código da própria página.

Você também pode usar o cabeçalho HTTP X-Robots-Tag para influenciar como (e se) o conteúdo é mostrado nos resultados de busca.

O que o Robots.txt pode fazer?

Robots.txt pode alcançar uma variedade de resultados em diferentes tipos de conteúdo:

Páginas da web podem ser bloqueadas para não serem exploradas.

Elas ainda podem aparecer nos resultados de busca, mas não terão uma descrição de texto. O HTML renderizável na página também não será explorado.

Arquivos de mídia podem ser bloqueados para não aparecerem nos resultados de busca do Google. Isso inclui imagens, vídeos e arquivos de áudio.

Se o arquivo for público, ele ainda “existirá” online e poderá ser visto e linkado, mas esse conteúdo privado não aparecerá nas buscas do Google.

Arquivos de recursos, como scripts externos não importantes, podem ser bloqueados.

Isso significa que: se o Google explorar uma página que requer esse recurso para carregar, o robô do Googlebot “verá” uma versão da página como se esse recurso não existisse, o que pode afetar a indexação.

Você não pode usar o robots.txt para bloquear completamente uma página de aparecer nos resultados de busca do Google.

Para conseguir isso, você deve usar um método alternativo, como adicionar uma meta tag de noindex no cabeçalho da página.

Qual o impacto dos erros no Robots.txt?

Um erro no robots.txt pode ter consequências não intencionais, mas geralmente não é o fim do mundo.

A boa notícia é que, corrigindo seu arquivo robots.txt, você pode se recuperar de quaisquer erros rapidamente e (geralmente) completamente.

A orientação do Google para Desenvolvedores SEO diz isso sobre erros no arquivo robots.txt:

“Os robôs de busca são muito flexíveis e normalmente não são afetados por pequenos erros no arquivo robots.txt. Em geral, o pior que pode acontecer é que diretrizes incorretas, ou não suportadas, serão ignoradas.

No entanto, tenha em mente que o Google não pode ler mentes ao interpretar um arquivo robots.txt. Temos que interpretar o arquivo que buscamos. Dito isso, se você está ciente de problemas no seu arquivo robots.txt, eles geralmente são fáceis de corrigir.”

8 Erros comuns no arquivo Robots.txt

Se o seu site está agindo de forma estranha nos resultados de busca, o arquivo robots.txt é um bom lugar para procurar erros, problemas de sintaxe e regras excessivas.

Vamos ver cada um dos erros com mais detalhes e garantir que você tenha um arquivo robots.txt válido.

1. Robots.txt fora da pasta raiz

Os robôs de busca só encontram o arquivo se ele estiver na pasta principal do seu site. Deve haver apenas uma barra (/) entre o domínio do seu site e o nome ‘robots.txt’ na URL do seu arquivo robots.txt.

Se houver uma subpasta, os robôs de busca provavelmente não verão o arquivo, e seu site agirá como se não houvesse arquivo robots.txt. Para corrigir, mova o arquivo robots.txt para a pasta principal do seu site.

2. Uso inadequado de caracteres

O arquivo robots.txt suporta dois caracteres principais:

Asterisco (*) – representa qualquer caractere válido, como um coringa em um baralho.
Sinal de dólar ($) – indica o final de uma URL, permitindo aplicar regras apenas à parte final da URL, como a extensão do tipo de arquivo.

É sensato usar esses caracteres com moderação, pois eles podem restringir uma parte muito maior do seu site. Também é fácil bloquear o acesso dos robôs a todo o seu site com um asterisco mal colocado.

Teste suas regras com uma ferramenta de teste de robots.txt para garantir que elas funcionem como esperado. Tenha cuidado com o uso de caracteres para não bloquear ou permitir acesso demais acidentalmente.

3. Noindex no Robots.txt

Esse erro é comum em sites mais antigos. Desde setembro de 2019, o Google parou de obedecer às regras de ‘noindex’ nos arquivos robots.txt. Se o seu arquivo foi criado antes dessa data ou contém instruções de noindex, é provável que essas páginas apareçam nos resultados de busca do Google.

A solução para esse problema é implementar um método alternativo de “noindex”. Uma opção é a meta tag de robots, que você pode adicionar ao cabeçalho de qualquer página que deseja impedir que o Google indexe.

4. Scripts e folhas de estilo bloqueados

Pode parecer lógico bloquear o acesso dos rastreadores a JavaScripts externos e folhas de estilo em cascata (CSS). No entanto, lembre-se de que o Googlebot precisa de acesso a arquivos CSS e JS para “ver” suas páginas HTML e PHP corretamente.

Se suas páginas estão se comportando de forma estranha nos resultados do Google, ou parece que o Google não está vendo-as corretamente, verifique se você está bloqueando o acesso dos rastreadores aos arquivos externos necessários.

Uma solução simples para isso é remover a linha do seu arquivo robots.txt que está bloqueando o acesso. Ou, se você tem alguns arquivos que precisa bloquear, insira uma exceção que restaure o acesso ao CSS e JavaScript necessário.

5. Sem menção da URL do Sitemap XML

Isso é mais sobre SEO do que qualquer outra coisa. Você pode incluir a URL do seu sitemap XML no seu arquivo robots.txt. Como este é o primeiro lugar que o Googlebot olha quando rastreia seu site, isso dá ao rastreador uma vantagem em conhecer a estrutura e as principais páginas do seu site.

Embora isso não seja estritamente um erro – pois omitir um sitemap não deve afetar negativamente a funcionalidade central e a aparência do seu site nos resultados de busca – ainda vale a pena adicionar a URL do seu sitemap ao robots.txt se você quiser dar um impulso aos seus esforços de SEO.

6. Acesso a sites em desenvolvimento

Bloquear os rastreadores do seu site ao vivo não é bom, mas permitir que eles acessem e indexem suas páginas que ainda estão em desenvolvimento também não é. O ideal é adicionar uma instrução de “Disallow” no arquivo robots.txt de um site em construção para que o público em geral não o veja até que esteja pronto.

Da mesma forma, é crucial remover a instrução de “Disallow” quando você lançar um site completo. Esquecer de remover essa linha do robots.txt é um dos erros mais comuns entre os desenvolvedores; isso pode impedir que seu site inteiro seja rastreado e indexado corretamente.

Se o seu site de desenvolvimento parece estar recebendo tráfego do mundo real, ou se o seu site recém-lançado não está se saindo bem nas buscas, procure por uma regra de “Disallow” para todos os agentes de usuário no seu arquivo robots.txt:

User-Agent: *

Disallow: /

Se você ver isso quando não deveria, faça as alterações necessárias no seu arquivo robots.txt e verifique se a aparência de busca do seu site é atualizada de acordo.

7. Uso de URLs absolutas

Embora usar URLs absolutas em coisas como canônicos e hreflang seja a melhor prática, para URLs no robots.txt, o inverso é verdadeiro.

Usar caminhos relativos no arquivo robots.txt é a abordagem recomendada para indicar quais partes de um site não devem ser acessadas pelos rastreadores.

Isso está detalhado na documentação do robots.txt do Google, que afirma:

“Um diretório ou página, relativo ao domínio raiz, que pode ser rastreado pelo agente de usuário mencionado.”

Quando você usa uma URL absoluta, não há garantia de que os rastreadores a interpretarão como pretendido e que a regra de “Allow/Disallow” será seguida.

8. Diretivas desatualizadas e não suportadas

Embora as diretrizes para arquivos robots.txt não tenham mudado muito ao longo dos anos, dois elementos que são frequentemente incluídos são:

Crawl-delay.

Noindex.

Enquanto o Bing suporta crawl-delay, o Google não, mas é frequentemente especificado pelos webmasters. Você costumava poder definir configurações de rastreamento no Google Search Console, mas isso foi removido no final de 2023.

O Google anunciou que pararia de suportar a diretiva noindex em arquivos robots.txt em julho de 2019. Antes dessa data, os webmasters podiam usar a diretiva noindex em seu arquivo robots.txt.

Isso não era uma prática amplamente suportada ou padronizada, e o método preferido para noindex era usar robôs na página, ou medidas x-robots em nível de página.

Como se recuperar de um erro no Robots.txt

Se um erro no robots.txt tiver efeitos indesejados na aparência de busca do seu site, o primeiro passo é corrigir o robots.txt e verificar se as novas regras têm o efeito desejado.

Algumas ferramentas de rastreamento SEO podem ajudar para que você não tenha que esperar que os motores de busca rastreiem seu site novamente.

Quando você estiver confiante de que o robots.txt está se comportando como desejado, você pode tentar fazer com que seu site seja rastreado novamente o mais rápido possível.

Plataformas como o Google Search Console e o Bing Webmaster Tools podem ajudar.

Envie um sitemap atualizado e solicite um novo rastreamento de quaisquer páginas que tenham sido indevidamente retiradas da lista.

Infelizmente, você está à mercê do Googlebot – não há garantia de quanto tempo pode levar para que quaisquer páginas ausentes reapareçam no índice de busca do Google.

Tudo o que você pode fazer é tomar a ação correta para minimizar esse tempo o máximo possível e continuar verificando até que o Googlebot implemente o robots.txt corrigido.

Considerações finais

Quando se trata de erros no arquivo robots.txt, prevenir é sempre melhor do que remediar.

Em um site grande que gera receita, um asterisco perdido que remove seu site inteiro do Google pode ter um impacto imediato nos ganhos.

As edições no robots.txt devem ser feitas com cuidado por desenvolvedores experientes, verificadas duas vezes e – quando apropriado – sujeitas a uma segunda opinião.

Se possível, teste em um editor sandbox antes de publicar ao vivo no seu servidor real para evitar criar problemas de disponibilidade inadvertidamente.

Lembre-se, quando o pior acontecer, é importante não entrar em pânico.

Diagnostique o problema, faça os reparos necessários no robots.txt e reenvie seu sitemap para um novo rastreamento.

Espera-se que seu lugar nos rankings de busca seja restaurado em questão de dias.