- Autor: Victor Pinheiro
- 12 Minutos de leitura
- 27 de setembro de 2024
Conteúdo criado por humano
Como criar um arquivo robots.txt e sua função no rastreamento
A eficiência no rastreamento do seu site é um diferencial significativo para gerar visibilidade e tráfego orgânico. Por isso, você precisa saber gerar um arquivo robots.txt.
Esse arquivo orienta o buscador sobre quais páginas do seu site são acessíveis e podem ser rastreadas e indexadas. Também indica aquelas que devem ser mantidas fora dos mecanismos de busca, como por exemplo, uma página de acesso/login de um produto.
Assim, ao configurar corretamente este arquivo, você pode otimizar a performance do site para ser encontra na SERP.
Esse controle é fundamental para a sua estratégia de SEO, já que ajuda a evitar que conteúdos sejam exibidos, priorizando apenas páginas importantes.
Então, se você quer conhecer as melhores práticas de robots.txt, continue neste guia. Descubra como o robots.txt pode ser um aliado estratégico na indexação do seu site no Google. Boa leitura!
Qual é a função do arquivo robots.txt?
O robots.txt é um arquivo cujo conteúdo permite que o Google saiba quais páginas podem e não podem ser rastreadas no seu site.
Ele é usado para instruir os bots (também conhecidos como spiders ou crawlers) a partir de termos como “allow” (permitir) ou “disallow” (não permitir).
Trata-se de um arquivo de texto simples. Ele não possui código de marcação HTML e segue o protocolo padrão (chamado de Protocolo de Exclusão de Robôs) usado para comunicar com os web crawlers e outros bots da web durante o rastreamento de páginas.
Na realidade, quando o bot chega a um site, a primeira tarefa é procurar o arquivo robots.txt. Se encontrar, ele será lido antes de qualquer outra ação.
O arquivo pode ser usado para impedir que informações confidenciais ou páginas temporárias apareçam nos resultados.
Além disso, ele limita os bots para rastrear apenas partes importantes do site, economizando recursos do servidor e melhorando a eficiência do rastreamento.
Já que ele fica na pasta raiz do site, acessar os arquivos robots.txt de outras páginas é fácil.
Você deve digitar o endereço da página e adicionar “/robots.txt” no fim da URL. Assim, você poderá captar insights.
Caso o arquivo robots.txt não seja usado, o rastreamento de todos os arquivos é permitido.
Entretanto, ele não funciona para manter uma página fora da SERP. Nesses casos, bloqueie a indexação com o “noindex” ou use uma senha para proteger o conteúdo.
Por que o robots.txt é importante para o SEO de um site?
Garantir que seu site apareça nas buscas é importante. Isso ajuda a aumentar a visibilidade e o tráfego orgânico.
Para alcançar esses objetivos, a empresa deve adotar boas estratégias de SEO, ou seja, a otimização do site para motores de busca.
Além disso, marketing de conteúdo e anúncios são outras ações bastante comuns.
Assim, o arquivo robots.txt se faz uma ferramenta fundamental para a gestão do rastreamento e indexação, influenciando diretamente a eficácia do SEO, já que afeta o desempenho do site.
Entenda com detalhes onde o arquivo robots influencia:
1. Otimiza o rastreamento
O mecanismo de busca tem um orçamento de rastreamento (crawl budget) limitado, ou seja, uma quantidade de páginas que serão rastreadas em um período.
Com o robots.txt, você passa a definir o número de páginas de maior relevância.
Essa definição é essencial, pois, se o número for muito grande, algumas páginas podem não ser indexadas, prejudicando os seus resultados.
Além disso, pode ser, por exemplo, que você queira manter alguns materiais privados ou fazer com que o Google mostre primeiro os materiais priorizados pela sua estratégia.
Assim, o robots.txt ajuda a direcionar os bots para rastrear as páginas mais importantes, evitando seções irrelevantes ou duplicadas, e melhorando a qualidade geral do que é indexado.
2. Bloqueia duplicatas
Não é preciso que o Google rastreie todos os seus conteúdos.
Afinal, o conteúdo duplicado ou de má qualidade pode causar problemas como a diluição do PageRank e a confusão sobre qual versão deve ser indexada.
Nem todas as páginas estão otimizadas e precisam ser classificadas, principalmente se não vão contribuir para que o seu site tenha um bom rankeamento do Google.
Ao bloquear páginas de baixo valor, você garante que os bots gastem seu tempo rastreando conteúdo que pode contribuir positivamente para o SEO.
Uma prática comum é incluir a localização do sitemap, o que facilita a descoberta de todas páginas relevantes. Basta adicionar a URL do local do sitemap dentro do arquivo robots.txt.
3. Controla o acesso a imagens, arquivos e páginas
O robots.txt pode impedir que os arquivos e imagens sejam mostrados nos resultados de busca, o que te ajuda a delimitar o acesso às informações importantes ou sensíveis.
Assim, o usuário precisará acessar a página para solucionar dúvidas maiores, clicando no seu site e passando a navegar nos seus conteúdos. Por exemplo:
Se a ideia é atrair os potenciais leads para uma Landing Page, é possível direcionar os usuários para a LP e bloquear o acesso dos robôs ao e-book ofertado, garantindo que o visitante precisará fazer o cadastro para acessar o conteúdo.
Além disso, como você viu, é possível especificar quais páginas são processadas e ficam acessíveis. Isto passa a aumentar a visibilidade dos conteúdos que interessam para a sua estratégia de SEO. Ao direcionar os robôs, o seu site ganha eficiência e relevância.
Como criar um arquivo robots.txt?
Como o próprio nome indica, o robots.txt é um arquivo no formato .txt. Por isso, pode ser criado no próprio bloco de notas. Você pode, ainda, usar uma ferramenta geradora de robots.txt.
Então, se você estava com preocupações quanto a ferramenta para criar o seu arquivo, pode descansar. É possível, ainda, utilizar o TextEdit no macOS, ou um editor de código como o Visual Studio Code.
Ao salvar o arquivo, ele deve estar com a codificação UTF-8, caso seja necessário. Também é preciso ter acesso à pasta raiz de seu domínio, onde irá salvar o arquivo.
É um processo relativamente simples, mas requer atenção, principalmente com as necessidades de SEO e com os comandos e a sintaxe do arquivo. Afinal, como você viu, SEO e robots.txt andam juntos.
Então, abra um editor de texto e escreva as diretivas do arquivo, comunicando aos bots o que eles podem ou não rastrear.
O arquivo é composto por pelo menos um bloco de diretivas, cada bloco tem um agente de usuário e as instruções allow ou disallow.
As diretivas possuem várias linhas de instruções, começando com um “User-agent” e informando:
- A quem se aplica;
- Quais páginas ou arquivos o agente pode acessar;
- Quais páginas ele não pode acessar;
- Sitemap.
Qualquer pessoa ou programa tem um user-agent. Então, o agente pode te ajudar a saber que tipo de bots estão rastreando o site e como instrui-los.
No arquivo, você passa a fornecer instruções específicas para bots específicos.
Por exemplo, se você quer enviar uma demanda para o Google, mas não para o Bing, pode implementar dois conjuntos de comandos, um com “User-agent: Bingbot” e outro com “User-agent: Googlebot”. Existem ainda, por exemplo:
- Googlebot-Image (imagens)
- Googlebot-News (notícias)
- Googlebot-Video (vídeos)
Se for “User-agent: *”, com o asterisco, o agente de usuário se aplica a todos os bots, não a um em específico.
Depois, o próximo passo é digitar “Disallow”. Se não houver nada para acrescentar no “Disallow”, os bots irão rastrear todas as páginas do seu site.
O comando “Disallow” é o mais comum, pois diz aos bots para não acessarem a página ou o conjunto de páginas.
Assim, as páginas não serão mostradas como úteis para o usuário, mas, caso ele saiba como encontrá-las, ainda poderá.
Lembre-se que todos os subdomínios precisam do seu próprio arquivo. Por exemplo, se o www.seomarketing.com tiver seu próprio arquivo, todos os subdomínios, como blog.seomarketing.com, também precisam ter um robots.txt próprio.
O arquivo provavelmente não será encontrado por usuários, mas a maioria dos bots procurarão por ele primeiro antes de partir para o rastreamento.
Lembre-se que o arquivo robots.txt fornece instruções, mas não pode fazer com que elas sejam cumpridas. Um bom bot verá o arquivo e seguirá as instruções.
Por fim, basta ir no Google para testar o seu arquivo. O relatório produzido pelo buscador mostra quais arquivos robots.txt foram encontrados, a última vez que foram rastreados e todos os resultados, como possíveis falhas.
Se, após o teste, aparecer “permitido”, o robots.txt consegue acessar a página indicada. Se aparecer “bloqueado”, você pode procurar possíveis erros e corrigi-los.
Quais são os principais comandos do Robots.txt
São exemplos de comandos ou diretivas:
- User-agent: onde vai o nome do robô ou crawler. O principal é o Googlebot.
- Disallow: páginas que não devem ser rastreadas.
- Allow: páginas que podem ser acessadas.
- Crawl-delay: define um atraso de rastreamento em segundos para impedir que os bots deixem o seu site lento.
Por exemplo: se você quer que o Googlebot não rastreie a página de /registros/, pois é interna, ficará dessa forma:
User-agent: Googlebot
Disallow: /registros/
Mas, se você não quer que nenhum bot rastreie uma determinada página chamada registros, pode ser:
User-agent: *
Disallow: /registros/
Depois, você pode dar “enter” duas vezes para criar um novo bloco.
Por vezes, é mais eficiente bloquear várias páginas. Se todas estiverem na mesma seção, é possível bloquear o diretório. Entenda na prática:
Disallow: /__registros/
Assim, todas as páginas contidas no diretório __registros não serão rastreadas pelo bot.
Alguns robôs seguem regras específicas, o que pode obrigar que você determine especificidades para cada um deles no robots.txt.
Para impedir o bot de rastrear todas as páginas, o comando seria:
Disallow: /
O “/” é a página a partir da qual todas as outras nascem, ou seja, a página inicial e todas as que estão vinculadas.
Com este comando, o Google não pode rastrear o site.
Como você viu, também há como direcionar a localização do sitemap no arquivo para ajudar os bots a encontrar e rastrear todas as URLs listadas.
Salve o arquivo de texto como “robots.txt”. Garanta que ele seja salvo como um arquivo de texto simples e não como um documento formatado.
Então, coloque o arquivo robots.txt na raiz do seu servidor ou diretório principal do site.
Para um site em www.exemplo.com, o arquivo deve estar acessível em www.exemplo.com/robots.txt. O upload do robots.txt depende da estrutura do seu site e do serviço de hospedagem usado.
Depois de fazer o upload do arquivo, veja se ele está acessível. Digite no Google, com o nome do seu site: www.exemplo.com/robots.txt para encontrar o arquivo em questão.
Como acessar e modificar o arquivo robots.txt no site?
Como você viu, um bom arquivo robots.txt faz parte das técnicas de SEO que o seu site precisa.
É normal que, entre as melhores práticas robots.txt, esteja a melhoria contínua, a correção de erros ou falhas que atrapalhem o melhor rastreamento.
Então, para que você possa fazer download dele e partir para as melhorias, acesse o arquivo robots.txt, como no exemplo que demonstramos acima, e copie o conteúdo num novo arquivo em seu computador. Faça o download de uma cópia do seu arquivo com uma ferramenta como cURL:
curl https://exemplo.com/robots.txt -o robots.txt
Novamente, siga as regras que indicamos sobre o formato do seu arquivo, adaptando conforme desejar, fazendo as edições necessárias.
Lembre-se que, segundo o RFC 9309, o arquivo precisa estar na raiz do site. Se estiver em qualquer outro lugar, os rastreadores não encontrarão os dados. Então, faça o upload no diretório raiz.
Você pode conferir a última versão buscada do seu arquivo no Google, na lista do relatório gerado.
Também pode solicitar um novo rastreamento depois de corrigir os erros encontrados ou fazer mudanças.
Normalmente, isso não é necessário, já que os rastreamentos do Google são regulares. Mas, se você quer mudanças urgentes ou a correção de um erro crítico, pode valer a pena. Então, basta clicar em “solicitar um novo rastreamento”.
Gostou das dicas e quer saber mais para manter os bons resultados? Se você achou tudo isso meio confuso e não sabe como aplicar na prática, então é indicado contar com a ajuda de uma consultoria especializada como a Queen.
Somos especialistas em SEO, aplicando as melhores práticas para deixar a sua página performando e sendo rastreada pelos mecanismos de busca.
Além disso, acompanhamos e seguimos a principais tendências do mercado para que a sua empresa saia na frente da concorrência e alcance o topo das pesquisas do Google, fazendo com que os clientes acessem sua página e se convertam em vendas.
Para entender melhor como aplicar estratégias de SEO e manter o seu site funcionando para os mecanismos de busca, clique aqui e conheça nossas soluções.