A lição da indexação do Google Translate: Bloqueio resultados da pesquisa dos resultados de pesquisa

A+ A-

No ano passado, o Google publicou um Report Card SEO de 100 propriedades do Google. Nela, eles classificaram-se em quão bem os locais foram otimizados para pesquisa. Matt Cutts, do Google apresentou os resultados no SMX Oeste 2010 em formato Ignite. Ele observou que nem todos os Googler é um especialista em busca e search engine optimization. Googlers que não trabalham em busca não recebem tratamento preferencial de quem e como qualquer site na internet, às vezes as coisas não são implementadas corretamente. Só porque um site é propriedade do Google não significa que ele é o melhor exemplo do que fazer em termos de SEO.

Esta manhã Rishi Lakhani twittou sobre o Google Translate páginas apareçam nos resultados de pesquisa do Google. Como você pode ver no exemplo abaixo, páginas com pedidos de tradução individuais foram indexados.

Google Translate Search Results

Todos os URLs que incluem um parâmetro parecem ser traduções individuais. Por exemplo, http://translate.google.com/?q=ART# exibe o seguinte:

Google Translate Example

Os problemas com esses tipos de páginas a ser indexadas nos motores de busca é duplo:

  • As diretrizes para webmasters do Google dizem que o Google não quer mostrar resultados de pesquisa em seus resultados de busca e recomenda que os proprietários de conteúdo bloquear resultados de busca em seu site sejam indexados usando robots.txt ou uma meta tag robots.
  • Essa mesma diretriz recomenda bloqueio de páginas geradas automaticamente de ser indexados e um Webmaster Central Blog do Google há alguns meses forneceu recomendações para lidar com texto traduzido-máquina para que ela não aparecer nos resultados de busca.

Um proprietário de site pode também querer bloquear esses tipos de páginas de ser rastreado e indexado para aumentar a eficiência rastreamento e garantir os mais valiosos páginas do site estão sendo rastreados e indexados em seu lugar.

Perguntei Google sobre isso e eles confirmaram que de fato era simplesmente uma questão do Google Translate equipe não estar ciente do problema e disse que iria resolvê-lo.

Bloqueio Autogenerated Pesquisa a indexação das páginas

No caso do Google Translate, o cenário ideal é que a página principal e todas as páginas secundárias (como esta página de ferramentas) ser indexada, mas que quaisquer páginas de pedidos de tradução não ser indexado.

usando robots.txt

A melhor maneira de fazer isso seria adicionar uma linha de disallow no arquivo robots.txt para o site que bloqueia a indexação com base em uma correspondência de padrão do parâmetro de consulta URL. Por exemplo:

 Não permitir: / * q = 

Este padrão iria impedir que os motores de busca de indexar quaisquer URLs contendo q =. (A * antes do q = significa que o q = podem aparecer em qualquer lugar do URL.)

No caso de translate.google.com (e todos os TLDs relacionada), o arquivo robots.txt que existe para os subdomínios parece ter sido copiado do www.google.com. Lembre-se que os motores de busca obedecer o arquivo robots.txt para cada subomain separadamente. Usando o mesmo arquivo robots.txt para um subdomínio que é usado para a variação www do domínio poderia ter consequências inesperadas porque o subomain provavelmente tem uma estrutura de pastas e URL completamente diferente. (Você sempre pode verificar o comportamento do seu arquivo robots.txt usando o Google Webmaster Tools.)

Adicionando o padrão disallow mostrado acima para o arquivo www.google.com/robots.txt não iria funcionar como motores de busca não se verifique esse arquivo ao rastrear o subdomínio traduzir e, ao invés, causar motores de busca não para URLs de índice que correspondem ao padrão em www.google.com.

translate.google.com (e todos os subdomínios google.com devem ter seu próprio arquivo robots.txt que é personalizado para esse subdomínio.

Usando a tag robots meta

Se o Google não é capaz de criar um arquivo robots.txt separado para o subdomínio traduzir, eles devem primeiro remover o arquivo que está lá (e de outros subdomínios, bem como, uma vez que poderia estar causando resultados inesperados de indexação para os subdomínios). Em seguida, eles devem usar a meta tag robots nas páginas individuais que deseja bloquear. Desde as páginas em questão são gerados dinamicamente, a maneira de fazer isso seria a de adicionar lógica para o código que gera essas páginas que escreve os robots meta tag à página como seu criado. Esta tag pertence na seção <head> da página e é o seguinte:

 <Meta = "robots" content = "noindex"> 

As opiniões expressas neste artigo são as do autor convidado e não necessariamente Search Engine Land. Autores pessoal aqui.


Ads

Compartilhar