8 Erros do arquivo Robots.txt e como corrigi-los

março 6, 2024

O arquivo robots.txt é uma ferramenta poderosa para dizer aos robôs dos motores de busca como você quer que eles explorem seu site. Cuidar desse arquivo é uma parte importante de um bom SEO Técnico.

Ele não é superpoderoso. Conforme a documentação do Google, “não é um mecanismo para manter uma página fora do Google”, mas pode ajudar a evitar que seu site ou servidor fique sobrecarregado por muitos pedidos dos robôs.

Se você tem esse arquivo no seu site, é essencial usá-lo corretamente. Se você não tem, é hora de ativá-lo. Especialmente se você usa URLs dinâmicas ou outros formatos que criam um número infinito de páginas.

Neste guia, vamos olhar para alguns dos problemas mais comuns com o arquivo robots.txt, o impacto no seu site, e como corrigir se você encontrar eles.

Mas primeiro, vamos dar uma olhada rápida sobre o que é o arquivo?

O que é Robots.txt?

Robots.txt é um arquivo de texto simples que fica na raiz do seu site. Se estiver em uma subpasta, os motores de busca vão ignorá-lo.

Apesar do seu grande poder, o robots.txt é um documento simples e pode ser criado em segundos usando um bloco de notas no seu computador. Além das diretivas, você pode se divertir com ele e adicionar mensagens extras para os usuários que o encontrarem, como o Robots.txt da Nike.

Porém, existem outras maneiras de alcançar alguns dos mesmos objetivos que o robots.txt faz, como por exemplo o uso da meta tag de robots dentro do código das páginas individuais.

E se você quiser se aventurar mais a fundo, também pode usar o cabeçalho HTTP X-Robots-Tag para influenciar como (e se) o conteúdo é mostrado nos resultados de busca.

O que o Robots.txt pode fazer?

O arquivo robots.txt pode alcançar diversos resultados em diferentes tipos de conteúdo.

Através dele, páginas podem ser bloqueadas para não serem exploradas. Isso não impede de elas aparecerem nos resultados de busca, mas não terão uma descrição de texto e o HTML renderizável da página também não será explorado.

Outro exemplo é o bloqueio de arquivos de mídia para não aparecerem nos resultados de busca do Google, isso inclui imagens, vídeos e arquivos de áudio. Vale lembrar que, se o arquivo for público, ele ainda “existirá” online e poderá ser visto e linkado, mas esse conteúdo privado não aparecerá nas buscas do Google.

E há também os arquivos de recursos, como scripts externos não importantes, que podem ser bloqueados pelo robots.txt. Porém utilize essa opção com cautela, pois se o Google rastrear uma página que requer esse recurso para carregar, o robô do Googlebot “verá” uma versão da página como se esse recurso não existisse, o que pode afetar a indexação.

Qual o impacto dos erros no Robots.txt?

Um erro no robots.txt pode trazer consequências para o seu site, mas a boa notícia é que você pode se recuperar rapidamente.

Por mais que documentação do Google informa que “os robôs de busca são muito flexíveis e normalmente não são afetados por pequenos erros no arquivo robots.txt, …, que diretrizes incorretas, ou não suportadas, serão ignoradas”, o Google não pode ler mentes ao interpretar um arquivo robots.txt.

E fato, como profissional de SEO Técnico já vi inúmeros projetos não performando por diretrizes indevidas no robots.txt. A documentação, infelzimente, não é tão certeira quanto gostaríamos.

8 erros comuns no arquivo Robots.txt

Se o seu site está agindo de forma estranha nos resultados de busca, o arquivo robots.txt é um bom lugar para procurar erros, problemas de sintaxe e regras excessivas.

Vamos ver cada um dos erros com mais detalhes e garantir que você tenha um arquivo robots.txt adequado sem bloqueios inadequados.

1. Robots.txt fora da pasta raiz

Os robôs de busca só encontram o arquivo se ele estiver na pasta principal do seu site. Deve haver apenas uma barra (/) entre o domínio do seu site e o nome ‘robots.txt’ na URL do seu arquivo robots.txt:

Correto: https://seoliddi.tech/robots.txt

Errado: https://seoliddi.tech/wp-content/robots.txt

Se houver uma subpasta, os robôs de busca provavelmente não verão o arquivo, e seu site agirá como se não houvesse arquivo robots.txt. Para corrigir, mova o arquivo robots.txt para a pasta principal do seu site, garantindo que ele esteja como no exemplo citado acima.

2. Uso inadequado de caracteres

O arquivo robots.txt suporta apenas dois caracteres principais:

Asterisco (*): representa qualquer informação, é como um coringa em um baralho.
Dólar ($): indica o final de uma URL, permitindo aplicar regras apenas à parte final da URL, como a extensão do tipo de arquivo.

Use esses caracteres com moderação, pois eles podem restringir uma parte muito maior do seu site. Também é fácil bloquear o acesso dos robôs a todo o seu site com um asterisco mal colocado.

E não deixe de testar as regras com ferramentas de teste de robots.txt para garantir que elas funcionem como esperado. Tenha cuidado com o uso de caracteres para não bloquear ou permitir acesso demais acidentalmente. Uma ferramenta boa é a robots.txt Validator and Testing Tool.

3. Noindex no Robots.txt

Esse erro é comum ser encontrado em sites mais antigos. Desde setembro de 2019, o Google parou de obedecer às regras de ‘noindex’ nos arquivos robots.txt. Se o seu arquivo foi criado antes dessa data ou contém instruções de noindex, é provável que essas páginas estejam aparecendo nos resultados de busca do Google, enquanto você queria que não estivessem.

A solução é implementar um método alternativo de “noindex” com o uso de meta tag de robots, você pode adicionar ao head de todas as páginas que deseja impedir que o Google indexe.

4. Scripts e folhas de estilo bloqueados

Pode parecer lógico bloquear o acesso dos rastreadores a JavaScripts externos e folhas de estilo (CSS). No entanto, o Googlebot precisa de acesso a arquivos CSS e JS para ver suas páginas corretamente.

Se suas páginas estão se comportando de forma estranha nos resultados do Google, ou parece que o Google não está vendo-as corretamente, verifique se você está bloqueando o acesso dos rastreadores aos arquivos externos necessários.

Uma solução rápida é remover a linha do seu arquivo robots.txt que está bloqueando esse acesso. E se você ainda tem arquivos que precisa bloquear, insira uma exceção que restaure o acesso ao CSS e JavaScript necessário.

5. Sem menção da URL do Sitemap XML

Já me questionei inúmeras vezes porque devo incluir a URL do sitemap XML no arquivo robots.txt se eu já o inseri no Google Search Console. Mas o fato é que, como este é o primeiro lugar que o Googlebot olha quando rastreia seu site, essa diretivá dá ao rastreador uma vantagem em conhecer a estrutura e as principais páginas do seu site ali mesmo, como passo seguinte do processo de rastreamento.

Embora isso não seja um erro, pois omitir um sitemap não afeta a aparência do seu site nos resultados de busca, ainda vale a pena adicionar a URL do seu sitemap ao robots.txt se você quiser dar um impulso no “O” de otimização.

6. Acesso a sites em desenvolvimento

Bloquear os rastreadores do seu site em produção não é bom, mas permitir que eles acessem e indexem suas páginas que ainda estão em desenvolvimento também não é. O ideal é adicionar uma diretiva de “Disallow” no arquivo robots.txt de um site em desenvolvimento para que o público não o encontre até que esteja pronto.

Da mesma forma, é necessário remover essa mesma diretiva de “Disallow” quando você lançar o site completo. Esquecer de remover essa linha do robots.txt é um dos erros mais comuns entre os desenvolvedores, e sim, impede que seu site recém ao ar seja rastreado e indexado corretamente.

Se o seu site em desenvolvimento está recebendo tráfego orgânico, ou se o seu site principal não está se saindo bem nas buscas, procure por uma regra de “Disallow” para todos os agentes no seu arquivo robots.txt:

User-Agent: *

Disallow: /

Se você ver isso quando não deveria, faça as alterações necessárias no seu arquivo robots.txt e acompanhe a aparência de busca do seu site.

7. Uso de URLs absolutas

Embora usar URLs absolutas em elementos como link canonical e hreflang seja a melhor prática, para URLs no robots.txt o inverso é verdadeiro. Usar caminhos relativos no arquivo robots.txt é a abordagem recomendada para indicar quais partes de um site não devem ser acessadas pelos rastreadores.

Isso está detalhado na documentação do robots.txt do Google, que afirma: “Um diretório ou página, relativo ao domínio raiz, que pode ser rastreado pelo agente de usuário mencionado.”

Ou seja, quando você usa uma URL absoluta, não há garantia de que os rastreadores a interpretarão como pretendido e que a regra de “Allow/Disallow” será seguida.

8. Diretivas desatualizadas e não suportadas

As diretrizes para arquivos robots.txt não mudam com frequencia, mas existe dois elementos que são frequentemente incluídos e que alguns mecanismos de rastreamento utilizam, mas que o Google não considera mais.

Uma já falamos acima, que é o caso de noindex. A segunda é o Crawl-delay.

Enquanto o Bing suporta crawl-delay, o Google não. Portanto, use esssa diretiva sempre direcionando para bots específicos com a chamada de User-agent.

Como se recuperar de um erro no Robots.txt

Se um erro no robots.txt tiver efeitos indesejados na aparência de busca do seu site, o primeiro passo é corrigir o robots.txt e verificar se as novas regras resolvem o seu problema de indexação.

Algumas ferramentas de rastreamento podem ajudar a acelerar essa análise para que você não tenha que esperar que os motores de busca rastreiem seu site novamente. Plataformas como o Google Search Console e o Bing Webmaster Tools podem ajudar.

Depois, envie um sitemap atualizado e solicite um novo rastreamento de quaisquer páginas que tenham sido indevidamente retiradas da lista por conta das diretivas no robots.txt.

Infelizmente neste processo, dependemos da velocidade do Googlebot, e não há garantia de quanto tempo pode levar para que quaisquer páginas ausentes reapareçam nos resultados de busca do Google.

Tudo o que você pode fazer é tomar a ação correta para minimizar esse tempo o máximo possível e continuar verificando até que o Googlebot implemente o robots.txt corrigido.

Considerações finais

Quando se trata de erros no arquivo robots.txt, prevenir é sempre melhor do que remediar.

Em um site grande que gera receita, um asterisco perdido que remove seu site inteiro do Google pode ter um impacto imediato no faturamento.

As edições no robots.txt devem ser feitas com cuidado por profissionais experientes, se possível, teste em um ambiente de stage antes de publicar no seu site principal para evitar problemas de indexação.

Diagnostique o problema, faça os reparos necessários no robots.txt e reenvie seu sitemap para um novo rastreamento. Seu retorno nos rankings de busca será restaurado em alguns dias.

Referência:

8 Common Robots.txt Issues And How To Fix Them