Pesquisa Faceted Gone Wild: Alavancando Efetivamente Endeca & Lucene para SEO

A pesquisa facetada costumava ser bastante rara. Agora, parece estar em todo lugar! Entender os detalhes da forma como você busca a visibilidade dos sites com esse recurso é uma das coisas mais comumente quebradas nos sites de comércio eletrônico hoje em dia. Nós encontramos os mesmos problemas repetidamente no Flying Point Digital, e de uma perspectiva de SEO, não é simplesmente "criar páginas de categoria melhores". Embora essa seja uma parte importante da correção, é apenas metade da história.

Obrigado, Capitão Óbvio

Há supervisão ou equívoco o suficiente sobre o que está acontecendo com a pesquisa facetada e como essa técnica de navegação no site pode ser boa para SEO, que é hora de escrevermos um artigo. É a mesma história de armadilha de aranha, antiga e acidental, mas com uma reviravolta. Ou, deveríamos dizer com novas dimensões. Para aqueles que estiveram na indústria de SEO por algum tempo, isso provavelmente é uma abundância de informações para inferir e corrigir o problema. A pesquisa facetada cria uma armadilha de aranha tão grande quanto qualquer combinação de possíveis seleções de facetas, desde que sua navegação seja "amigável à pesquisa".

Problema definido. Soluções implícitas. Você cães velhos salgados da indústria de SEO podem ir embora. Para aqueles que estão ouvindo ou lidando com isso pela primeira vez, continue lendo. Vamos mergulhar você primeiro em um pouco de história, a situação ruim que freqüentemente existe atualmente nesses sites e, finalmente, definir alguns traços amplos de uma solução possível.

Vamos mergulhar você primeiro em um pouco de história, a situação ruim que freqüentemente existe atualmente nesses sites e, finalmente, definir alguns traços amplos de uma solução possível

Catálogos de milhões de produtos

Onde quer que haja e-commerce com grandes catálogos de milhões, ou mesmo dezenas de milhares de produtos, há dados estruturados como preço, cor e tamanho para descrever tudo. E o termo escolhido para descrever as interfaces de usuário construídas em torno de pesquisa e filtragem usando esses descritores de produto é facetas.

A pesquisa facetada é apenas todos os filtros nos quais você pode clicar para refinar sua pesquisa, além de palavras-chave plug-in ou detalhamento na navegação. Há algumas definições formais aqui e uma insensibilidade de ordem implícita (que não está presente na navegação detalhada). Explorar menus sensíveis ao pedido (como hiperlinks da Web) implica certa finalidade na sua exploração. Tudo o que você "encontra" é análogo a arquivos em um disco rígido ou nós em uma árvore. Embora seja possível, é simplesmente mais difícil criar armadilhas de aranha com navegação detalhada. É como a Web funciona principalmente, e é o que fez o Google pesquisar e indexar um sistema tão brilhante e eficaz. É também o que deu ao Google uma reputação de “não gostar” de sites dinâmicos.

Armadilhas da Aranha e Mensagens Mistas

Assim que um ponto de interrogação é introduzido no URL, o site é considerado "dinâmico" e o site pode continuar para sempre. Pense em uma página do calendário onde você sempre pode clicar no link "próximo dia". É realmente simples criar uma armadilha de aranha. E não é a existência do ponto de interrogação que torna o site dinâmico ou ruim ou ilegível para o Google de qualquer forma. É que o ponto de interrogação está presente nos tipos de sites que o Google tem que deixar de lado em algum momento, e continuar com o negócio de rastrear sites que não tornam as coisas infelizes. Ou então, todos os recursos aparentemente infinitos do Google seriam gastos rastreando aquele calendário infinito simples em um pequeno site.

Sites dinâmicos (ou URLs) não são inerentemente ruins, como algumas pessoas sentem. O que é ruim é como é fácil fazer armadilhas de aranha acidentais e nunca perceber que você tem o problema. Do lado do Google, eles estão entrando no próximo site de maneira realista, para que não passem o tempo todo girando as rodas. Hoje em dia, o Google tem muito mais disposição para mergulhar intrepidamente em armadilhas de aranha, recuperar alguns milhões de páginas e ver se eles não conseguem entender.

Neste artigo, estamos nos concentrando em um tipo particular de armadilha de URL dinâmica, gerada pelo esquema de navegação, muitas vezes chamado de busca facetada. Palavra divertida, facetas. Faz você pensar nas faces cortadas de uma joia. Eu acho que serve o comércio eletrônico muito bem e é mais fácil do que dizer arbitrariamente parametrizado ou atribuído ou pesquisa multidimensional ou filtrada em campo. Nem todas as pesquisas parametrizadas são facetas. As facetas tendem a permitir-se ir em ordens diferentes e em permutações aparentemente infinitas - o que as torna "facetas" e uma armadilha de aranha particularmente desagradável.

Endeca e Lucene

Estamos percebendo problemas com sites de pesquisa facetada com mais frequência, porque agora é mais fácil criar sites que a usam. Essa técnica de navegação costumava ser consideravelmente mais rara, devido ao custo e ao conhecimento necessários para configurá-la, e aos requisitos robustos do servidor de fornecer esse recurso (com dados precisos) em escala. Isso está mudando. Não importa em que seus dados estejam bloqueados, alguns produtos como Endeca (agora, da Oracle) ou Lucene (um projeto Apache) podem varrer e construir o banco de dados e os índices necessários para se conectar aos componentes de criação de sites dessa camada facetada pesquisar em um site.

O Endeca tem sido o software comercial de classe empresarial dominante para oferecer pesquisa facetada - e é por isso que você ouve o nome deles invocado tanto quando esse tópico surge. Você vai pagar por essa confiança, é claro. Mas se você tiver sua própria confiança e uma equipe de desenvolvedores forte, existe a alternativa de pilha de software Lucene não proprietária (livre e de código aberto).

Lucene, como me disseram - já que eu não sou um desenvolvedor de experiência com essa pilha de software em particular - faz quase tudo que o Endeca faz, mesmo com desempenho de nível corporativo, mas de graça. Tal como acontece com Endeca, há realmente um saco inteiro de produtos individuais que trabalham juntos em uma espécie de ecossistema. A parte superior desse ecossistema é a Apache Software Foundation (equivalente à empresa), depois o projeto Lucene (equivalente ao produto) e, depois disso, a parte que faz com que a verdadeira interface da Web fale - seja o Solr ou o Elastic Search.

Então, todo esse material de Lucene e Endeca é admitido que as coisas de infraestrutura de TI que "The Cloud" supostamente impedem você de ter que lidar, e têm um pouco de estilo DIY para eles. Se você é uma empresa menor, ou simplesmente não quer problemas de implementação, e quer estar usando as melhores práticas já acordadas e ainda ser considerado de classe empresarial, sempre há Demandware ou um host de outros produtos que preenchem os nichos entre Endeca / Lucene em um extremo e uma instância auto-hospedada do WooCommerce no WordPress no outro.

Além disso, todos os grandes players de tecnologia, como IBM, Microsoft e SAP, também oferecem algo para resolver o problema de pesquisa facetada na Web. Endeca e Lucene são os nomes que surgem quando você é um SEO lidando com esses problemas, então essa é uma maneira fácil de enquadrar essa discussão de busca facetada, mas tenha em mente que existem realmente outros em cada extremidade do espectro, e incontáveis ​​mais no meio. Se, por exemplo, você quiser a facilidade de nuvem do Demandware, mas com a opção de levar tudo em casa algum dia para começar a mergulhar em extrema personalização para obter vantagem competitiva, há o Hybris no high-end e o Magento no low-end.

Dois cenários extremos

Mas, no final das contas, todas essas infraestruturas têm alguma forma de busca facetada e precisam lidar com o mesmo conjunto de problemas. Geralmente, a pesquisa facetada se enquadra em uma das duas categorias. Todos os milhões de páginas potenciais "tornadas possíveis" são:

  1. Completamente invisível para pesquisa devido a um motivo ou outro
  2. Visível para pesquisar, mas cria um site que o Googlebot nunca terminará de rastrear e explorar

No primeiro cenário, os sites de pesquisa facetada que são invisíveis para pesquisa são invisíveis porque a interface do usuário é construída com elementos de formulário CGI antigos e requer um envio ou a execução de JavaScript para a pesquisa executar, ou é realmente rastreável, mas os proprietários do site "desativaram" a capacidade do Google de rastrear / indexar o site por meio do robots.txt ou de algum outro mecanismo - geralmente porque eles sofreram as dificuldades da situação número dois.

Na situação número dois, todo o site de pesquisa facetado e todas as páginas potenciais que ele pode gerar são perfeitamente rastreáveis ​​pelo Google. No entanto, as páginas são intermináveis ​​e 99% desse rastreamento interminável é conteúdo duplicado. Em outras palavras, é uma armadilha de aranha. O Google vê todo o seu site, mas por causa do ridículo da tarefa que você definiu antes, ele desistirá e passará para o próximo site.

Raramente pensado, mas criticamente importante, é que essa armadilha de aranha terá um impacto em seus rankings de busca, diluindo ou ofuscando completamente o "conjunto principal" de páginas importantes que seu site pode / deveria estar gerando e que poderiam ser facilmente posicionadas. -descubra os caminhos de clique (navegação principal e secundária) e ajuste-os para alinhar palavras-chave de conversão conhecidas e pesquisadas.

Pense em termos reais de árvores reais

Então, o truque é iluminar o conjunto central de páginas, como o tronco principal e os galhos de uma árvore. Estes talvez representem as duas primeiras facetas selecionadas ou algum outro mecanismo para "definir o conjunto principal de páginas" que é coordenado com o que sua pesquisa de palavras-chave está buscando. Tronco e galhos são essenciais. Eles são o seu conjunto principal de páginas canônicas não duplicadas - independentemente de terem ou não sido produzidas, escolhendo os parâmetros de pesquisa facetada. (Suas páginas principais podem ser compostas por estas).

Mesmo que seu site possa gerar milhões de páginas a mais do que isso, esse "núcleo" de 100 a 10.000 páginas pode ser seu conjunto canônico principal. Todos os outros milhões de variações duplicadas na maior parte podem possuir tags canônicas de volta ao URL de correspondência mais próxima do conjunto principal. Sim, pode haver algum trabalho de desenvolvimento personalizado aqui se o seu plataforma de e-commerce não suporta tais truques prontos para uso.

E essa é apenas uma das abordagens para manter essas armadilhas de aranha sob controle - deixe tudo indexar ... deixe a armadilha de aranha continuar existindo ... mas fique claro para o Google sobre o que está acontecendo e como qualquer rastejamento O núcleo óbvio / conjunto importante é um trabalho exagerado e talvez desnecessário. Uma pesquisa do Google com um modificador de site deve voltar com aproximadamente a quantidade de páginas centrais canônicas que você está anunciando claramente - e não o resto, que você está admitindo serem permutações de baixa prioridade.

As melhores soluções são sempre aquelas em que apenas uma quantidade finita de páginas pode ser gerada por um site, e o Google pode reproduzi-las em poucos dias. Tente correr Sapo gritando contra um site (com muita memória). Se nunca terminar, você pode ter uma armadilha de aranha.

É como em qualquer árvore, pode ser difícil, mas você pode contar as folhas! É possível, mas você terminará. Assim também o Screaming Frog terminará de rastrear um site propriamente finito.

Questões de ordem - reduzindo as permutações

Certas hibridizações de facetas podem ajudar a controlar a situação - como fazer com que certas facetas só possam ser ativadas em combinação com certas outras facetas para refletir e impor as restrições de relacionamento de dados. Você pode considerar isso uma combinação do esquema de navegação de drill-down muito mais finito com as facetas de pesquisa. (As facetas são apresentadas especificamente em determinados níveis de detalhamento). A navegação aprofundada tende a impor uma certa ordem aos parâmetros da string de consulta (ofuscados como pastas ou não).

Você também pode construir seus URLs com cuidado, com uma certa ordem aplicada às facetas, para que você lide apenas com combinações em vez de permutações. (Faça uma busca por "combinações vs. permutações".) Especificamente, se você selecionar a faceta A e depois a faceta B em um caso, mas depois a faceta B e depois a faceta A em outra, as URLs serão diferentes, mas o resultado página o mesmo. Isso pode ser corrigido apenas por ordem alfabética ou usando uma ordem pré-definida para como os parâmetros devem aparecer no URL.

E, finalmente, lembrando que estamos mantendo a metáfora da árvore para a hierarquia do site, o propósito de uma árvore é espalhar seus galhos, galhos e folhas para criar uma área de superfície com folhas para capturar a luz solar com mais eficiência. A evolução moldou as árvores de modo que elas não continuem crescendo além do ponto em que captam a luz com mais eficiência.

Artisticamente moldando um site

Conforme declarado na opinião deste artigo, a maioria dos sites de pesquisa facetada torna seu site invisível para pesquisa ou uma tarefa de rastreamento impossível. A verdadeira resposta está em algum lugar no meio - uma modelagem artística. Há muitas maneiras de fazer isso, de fazer ajustes no seu arquivo robots.txt até alterar as configurações do Console de pesquisa do Google (anteriormente, Ferramentas do Google para webmasters) para alterar as meta tags na sua fonte de visualização.

As soluções são variadas e todas devem ser direcionadas por uma estratégia abrangente de segmentação por palavras-chave e com base no que é suportado por sua plataforma de tecnologia e implementável por sua equipe. Ao contrário das árvores naturais cuja forma máxima é definida pelas restrições da natureza, os sites facetados podem crescer desinibidos, e você pode nunca saber, exceto por nunca ter um bom desempenho no Google.