16
2010
[Otimize seu site] O Básico sobre Robots.txt
Bom, até agora na série Otimize seu site nós vimos o que é SEO, a importância do Analytics para o site, como inserir o site nos buscadores e como criar o sitemap. Neste post continuarei falando sobre algo importantíssimo para a indexação, o robots.txt. Se não viu os últimos posts sobre SEO, veja-os abaixo:
- O que é Search Engine Optimization ?
- Google Analytics: O Canivete Suíço das Buscas
- Insira seu site nos buscadores
- O que é Sitemap e como criar
O que é robots.txt e qual a sua função?
O Robots é um arquivo de texto que fica hospedado na raiz do seu site ( geralmente www ou public_html). Quando os buscadores encontram o seu site, eles vão analisar e indexar todas as páginas, scripts, imagens etc. O Robots.txt serve para não deixar que determinadas páginas sejam indexadas. Para fazer isto deve-se usar algumas regras para o robots saber quais páginas deve ou não indexar.
É interessante fazer o Robots.txt antes que os mecanismos de busca indexem as páginas do seu site, veja abaixo porque:
“A utilização do robots.txt pode evitar que os bots entrem em uma determinada página ou diretório, mas se a url já foi indexada anteriormente a partir de fontes externas, ela usará essas informações para fazer o julgamento da página e formular os snippet (título e descrição que aparecerá nos players de busca).” – Mestreseo
Regras do Robots.txt
Como eu citei acima, para fazer os Robots.txt é necessário saber uma regra, que não é muito complicada, pelo menos o básico, não. Veja abaixo as formatações do robots:
O “asterisco” e o “barra”
* identifica todos os Bots de busca
/ identifica diretório raiz
Permite que todos diretórios e arquivos sejam indexados
User-agent: *
Disallow:
Não permite que nenhum diretório nem arquivo seja indexado
User-agent: *
Disallow: /
Não permite que uma pasta seja indexada (no Google), com a exceção do arquivo visualg.html
User-agent: Googlebot
Disallow: /algoritmos/
Allow: /algoritmos/visualg.html
No exemplo acima foi especificado que apenas o Google não indexará a pasta /algoritmos. Ou seja você pode criar regras específicas para cada bot de busca, por exemplo:
User-agent: MSNBot
Disallow: /imagens
Neste caso o Bot do Bing não indexará o os arquivos da pasta /imagens.
Principais Bots de buscas:
Google – GoogleBot
Yahoo – Slurp
Bing/MSN – MSNBot
Como fazer o Robots.txt
Como eu disse, o robots é um arquivo .txt, ele pode ser feito no próprio Notepad ou Gedit (Whatever!),Eu usei o Gerador de Robots da MestreSEO, que facilita o trabalho. Veja o Robots.txt do Algoritmizando, que é um blog feito em WordPress.
No robots.txt do blog, eu configurei para que a pasta /wp-content não seja indexada, com exceção a pasta /uploads que está dentro dela. Também configurei para que os mecanismos não indexem as pastas /wp-admin, /cgi-bin, /wp-includes que são pastas de scripts e códigos. Além de ter “mandado” indexar o /pacman que não é uma página dentro do Worpress, onde eu coloquei o jogo, Pacman. E na ultima linha linkei para o sitemap.xml do blog.
Tenho site no Blogger e agora?
Felizmente o Google pensou em tudo e adicionou o Robots.txt, para vê-lo para digitar o nome do blog/robots.txt (por exemplo http://pedrohenriqueferreiramendes.blogspot.com/robots.txt). Entretanto este robots é só para não indexar as tags e diminuir o conteúdo duplicado, sendo assim, não tem como alterá-lo.
Leis mais sobre Robots
Robots.txt: 4 coisas que você deve saber
Como criar um Robots – Análise blogueira
Como o Google e os outros Mecanismos de Busca nos acham (inglês)
Gostou do post?Comente!

Artigo criado por















Obrigado pelas dicas! (:
[Reply]
Pedro Henrique Ferreira Mendes Reply:
July 18th, 2010 at 19:52
Acompanhe o blog, sempre posto algumas dicas…
[Reply]
Muito obrigado pela postagem!
[Reply]