Motores de busca como o Google têm um problema – é chamado de ‘conteúdo duplicado’. Conteúdo duplicado significa que conteúdo semelhante aparece em vários locais (URLs) na internet e, como resultado, os mecanismos de pesquisa não sabem qual URL mostrar nos resultados da pesquisa. Isso pode prejudicar a classificação de uma página de um site, e o problema só piora quando as pessoas começam a criar links para versões diferentes do mesmo conteúdo. Este artigo o ajudará a compreender as várias causas de conteúdo duplicado e a encontrar a solução para cada uma delas.
- O que é conteúdo duplicado?
- Causas do conteúdo duplicado
- Solução conceitual: um URL “canônico”
- Identificação de problemas de conteúdo duplicado
- Soluções práticas para conteúdo duplicado
- Conclusão
O que é conteúdo duplicado?
Conteúdo duplicado é o conteúdo que está disponível em várias URLs na internet. Como mais de uma URL que mostra o mesmo conteúdo, os mecanismos de pesquisa não sabem qual URL listar no topo dos resultados da pesquisa. Portanto, eles podem ter uma classificação inferior de ambas as URLs e dar preferência a outras páginas da web.
Neste artigo, vamos nos concentrar principalmente nas causas técnicas do conteúdo duplicado e em suas soluções. Se você gostaria de ter uma perspectiva mais ampla sobre o conteúdo duplicado e aprender como ele se relaciona com o conteúdo copiado ou extraído ou até mesmo com a canibalização de palavras-chave, recomendamos que você leia este post: O que é conteúdo duplicado.
Vamos ilustrar isso com um exemplo
O conteúdo duplicado pode ser comparado a um cruzamento onde os sinais de trânsito apontam em duas direções diferentes para o mesmo destino: qual estrada você deve seguir? Para piorar as coisas, o destino final também é diferente, mas apenas ligeiramente. Como leitor, você não se importa porque obtém o conteúdo que veio, mas um mecanismo de busca tem que escolher qual página mostrar nos resultados da busca porque, é claro, ele não quer mostrar o mesmo conteúdo duas vezes.
Digamos que seu artigo sobre ‘palavra-chave x’ apareça em http://www.exemplo.com.br/palavra-chave-x/e o mesmo conteúdo também apareça em http://www.exemplo.com.br/article-category/palavra-chave-x/. Essa situação não é fictícia: ela ocorre em muitos sistemas de gerenciamento de conteúdo modernos. Então, digamos que seu artigo foi escolhido por vários blogueiros e alguns deles vinculam ao primeiro URL, enquanto outros vinculam ao segundo. É quando o problema do mecanismo de busca mostra sua verdadeira natureza: o problema é seu . O conteúdo duplicado é o seu problema porque esses links promovem URLs diferentes. Se todos eles estivessem vinculados a mesma URL, suas chances de classificação para a ‘palavra-chave x’ seriam maiores.
Causas do conteúdo duplicado
Existem dezenas de motivos para conteúdo duplicado. A maioria deles são técnicos: não é muito comum que um humano decida colocar o mesmo conteúdo em dois lugares diferentes sem deixar claro qual é o original. A menos que você tenha clonado um post e publicado acidentalmente, é claro. Mas, por outro lado, não parece natural para a maioria de nós.
Existem muitas razões técnicas e isso ocorre principalmente porque os desenvolvedores não pensam como um navegador ou mesmo um usuário, muito menos como um mecanismo de busca – eles pensam como um programador. Pegue aquele artigo que mencionamos anteriormente, que aparece em http://www.exemplo.com.br/palavra-chave-x/ e http://www.exemplo.com.br/article-category/palavra-chave-x/. Se você perguntar ao desenvolvedor, eles dirão que só existe uma vez.
Entendendo mal o conceito de URL
Não, aquele desenvolvedor não enlouqueceu, eles estão apenas falando um idioma diferente. Um CMS provavelmente irá impulsionar o site, e nesse banco de dados há apenas um artigo, mas o software do site apenas permite que o mesmo artigo no banco de dados seja recuperado por meio de várias URLs. Isso porque, aos olhos do desenvolvedor, o identificador exclusivo desse artigo é a ID que o artigo possui no banco de dados, não a URL. Mas, para o mecanismo de pesquisa, a URL é o identificador exclusivo de uma parte do conteúdo. Se você explicar isso a um desenvolvedor, ele começará a ter o problema. E depois de ler este artigo, você poderá até mesmo fornecer uma solução imediatamente.
IDs de sessão
Frequentemente, você deseja acompanhar seus visitantes e permitir que, por exemplo, armazenem itens que desejam comprar em um carrinho de compras. Para fazer isso, você deve dar a eles uma ‘sessão’. Uma sessão é um breve histórico do que o visitante fez em seu site e pode conter itens como os itens em seu carrinho de compras. Para manter essa sessão enquanto um visitante clica de uma página para outra, o identificador exclusivo para aquela sessão – chamado de ID de sessão – precisa ser armazenado em algum lugar. A solução mais comum é fazer isso com cookies. No entanto, os mecanismos de pesquisa geralmente não armazenam cookies.
Nesse ponto, alguns sistemas voltam a usar IDs de sessão na URL. Isso significa que cada link interno no site obtém aquele ID de sessão adicionado a sua URL e, como esse ID de sessão é exclusivo para aquela sessão, ela cria uma nova URL e, portanto, conteúdo duplicado.
Parâmetros de URL usados para rastreamento e classificação
Outra cousa de conteúdo duplicado é o uso de parâmetros de URL que não alteram o conteúdo de uma página, por exemplo, em links de rastreamento. Você vê, para um motor de busca, http://www.exemplo.com.br/palavra-chave-x/ e http://www.exemplo.com.br/palavra-chave-x/?source=rss não são a mesma URL. O último pode permitir que você rastreie a origem das pessoas, mas também pode tornar mais difícil para você conquistar boas classificações no Google – um efeito colateral indesejado!
Isso não se aplica apenas a parâmetros de rastreamento, é claro. Ele vale para todos os parâmetros que você pode adicionar a uma URL que não altera a parte vital do conteúdo, seja esse parâmetro para ‘alterar a classificação em um conjunto de produtos’ ou para ‘mostrar outra barra lateral’: todos eles causam conteúdo duplicado.
Scrapers e distribuição de conteúdo
A maioria dos motivos para conteúdo duplicado é “culpa” sua ou do seu site. Às vezes, no entanto, outros sites usam o seu conteúdo, com ou sem o seu consentimento. Eles nem sempre têm um link para o seu artigo original e, portanto, o mecanismo de busca não o ‘entende’ e tem que lidar com outra versão do mesmo artigo. Quanto mais popular o seu site se tornar, mais scrapers você terá, tornando esse problema cada vez maior.
Ordem dos parâmetros
Outra causa comum é que um CMS não usa URLs limpas e legais, mas sim URLs como /?id=1&cat=2, onde ID se refere ao artigo e cat se refere à categoria. O URL /?cat=2&id=1 renderizará os mesmos resultados na maioria dos sistemas de sites, mas eles são completamente diferentes para um mecanismo de pesquisa.
Paginação de comentários
No meu amado WordPress, mas também em alguns outros sistemas, existe a opção de paginar seus comentários. Isso faz com que o conteúdo seja duplicado na URL do artigo e na URL do artigo + / pagina-commentario-1 /, / pagina-commentario-1 / etc.
Páginas para impressão
Se o seu sistema de gerenciamento de conteúdo criar páginas para impressão e você criar um link para as páginas do seu artigo, o Google geralmente as encontrará, a menos que você as bloqueie especificamente. Agora, pergunte-se: qual versão você deseja que o Google mostre? Aquele com seus anúncios e conteúdo periférico, ou aquele que mostra apenas seu artigo?
WWW vs. não WWW
Este é um dos mais antigos do livro, mas às vezes os mecanismos de pesquisa ainda erram: conteúdo duplicado WWW vs. não-WWW, quando ambas as versões do seu site estão acessíveis. Outra situação menos comum, mas que também vi, é o conteúdo duplicado HTTP x HTTPS , em que o mesmo conteúdo é servido em ambos.
Solução conceitual: um URL “canônica”
Como já vimos, o fato de várias URLs levarem ao mesmo conteúdo é um problema, mas pode ser resolvido. Uma pessoa que trabalha em uma publicação normalmente será capaz de dizer com bastante facilidade qual deve ser a URL “correta” para um determinado artigo, mas às vezes, quando você pergunta a três pessoas da mesma empresa, obterá três respostas diferentes …
Esse é um problema que precisa ser resolvido porque, no final, pode haver apenas uma (URL). Essa URL ‘correta’ para uma parte do conteúdo é referida como URL canônica pelos motores de busca.
Identificação de problemas de conteúdo duplicado
Você pode não saber se tem um problema de conteúdo duplicado em seu site ou com seu conteúdo. Usar o Google é uma das maneiras mais fáceis de localizar conteúdo duplicado.
Existem vários operadores de pesquisa que são muito úteis em casos como esse. Se você quiser encontrar todas as URLs em seu site que contenham a palavra-chave X , digite a seguinte frase de pesquisa no Google:
site: exemplo.com intitle: "Palavra-chave X"
O Google mostrará a você todas as páginas de examplo.com que contêm essa palavra-chave. Quanto mais específica você tornar essa parte da consulta: intitle
, mais fácil será eliminar o conteúdo duplicado. Você pode usar o mesmo método para identificar conteúdo duplicado na web. Digamos que o título completo do seu artigo fosse “Palavra-chave X – para o seu sucesso” , você pesquisaria por:
intitle: "Palavra-chave X - para o seu sucesso"
E o Google daria a você todos os sites que correspondessem a esse título. Às vezes, vale a pena pesquisar uma ou duas frases completas do seu artigo, pois alguns scrapers podem alterar o título. Em alguns casos, quando você faz uma pesquisa como essa, o Google pode mostrar um aviso como este na última página de resultados:
Isso é um sinal de que o Google já está ‘desduplicando’ os resultados. Ainda não é bom, então vale a pena clicar no link e olhar todos os outros resultados para ver se você pode consertar alguns deles.
Soluções práticas para conteúdo duplicado
Depois de decidir qual URL é a URL canônica para seu conteúdo, você deve iniciar um processo de canonização de urls. Isso significa que temos que informar aos mecanismos de pesquisa sobre a versão canônica de uma página e deixá-los encontrá-la o mais rápido possível. Existem quatro métodos de resolver o problema, em ordem de preferência:
- Evitando conteúdo duplicado
- Redirecionando conteúdo duplicado para a URL canônica
- Adicionar um elemento de link canônico na página duplicada
- Adicionar um link HTML da página duplicada à página canônica
1) Evitando conteúdo duplicado
Algumas das causas acima para conteúdo duplicado têm soluções muito simples para elas:
Existem IDs de sessão em seus URLs?
Frequentemente, eles podem ser desabilitados nas configurações do sistema.
Você tem páginas duplicadas para impressão?
Isso é completamente desnecessário: você deve apenas usar uma folha de estilo de impressão.
Você está usando a paginação de comentários no WordPress?
Você deve apenas desabilitar este recurso (em configurações » discussão ) em 99% dos sites.
Existem problemas com links de rastreamento?
Na maioria dos casos, você pode usar o rastreamento de campanha baseado em hash tag em vez do rastreamento de campanha baseado em parâmetro.
Você tem problemas de WWW vs. não-WWW?
Escolha um e mantenha-o redirecionando um para o outro . Você também pode definir uma preferência no Google Search Console, mas terá que reivindicar as duas versões do nome de domínio.
Se o seu problema não for facilmente resolvido, ainda pode valer a pena se esforçar. O objetivo deve ser evitar que o conteúdo duplicado apareça completamente, porque é de longe a melhor solução para o problema.
2) 301 Redirecionamento para conteúdo duplicado
Em alguns casos, é impossível impedir totalmente que o sistema que você está usando crie URLs erradas para o conteúdo, mas às vezes é possível redireciona- las. Se isso não for lógico para você (o que eu posso entender), mantenha isso em mente ao conversar com seus desenvolvedores. Se você se livrar de algumas das questões de conteúdo duplicado, certifique-se de que você redirecione todas as antigas URLs de conteúdo duplicado para as URLs canônicas adequadas.
3) Usando links
Às vezes, você não quer ou não consegue se livrar de uma versão duplicada de um artigo, mesmo sabendo que é o URL errado. Para resolver esse problema específico, os motores de busca introduziram o elemento de link canônico. Ele está localizado na seção <head> do seu site e tem a seguinte aparência:
<link rel="canonical" href="http://exemplo.com.br/wordpress/post" />
Na seção href do link canônico, você coloca a URL canônica correta para seu artigo. Quando um mecanismo de pesquisa com suporte canônico encontra esse elemento de link, ele executa um redirecionamento 301 suave, transferindo a maior parte do valor do link obtido por aquela página para sua página canônica.
No entanto, esse processo é um pouco mais lento do que o redirecionamento 301, então, se você puder apenas fazer um redirecionamento 301, será preferível.
4) Linkando de volta ao conteúdo original
Se você não puder fazer nada disso, possivelmente porque não controla a seção <head> do site em que seu conteúdo aparece, adicionar um link para o artigo original acima ou abaixo do artigo é sempre uma boa ideia. Você pode querer fazer isso em seu feed RSS, adicionando um link para o artigo nele. Alguns scrapers filtrarão esse link, mas outros podem deixá-lo. Se o Google encontrar vários links apontando para o seu artigo original, logo descobrirá que essa é a versão canônica real.
Conclusão
O conteúdo duplicado acontece em todos os lugares. Ainda não encontrei um site com mais de 1.000 páginas que não tivesse pelo menos um pequeno problema de conteúdo duplicado. É algo que você precisa estar constantemente de olho, mas pode ser corrigido e as recompensas podem ser abundantes. Seu conteúdo de qualidade pode subir no ranking, simplesmente se livrando de conteúdo duplicado do seu site!