Faceted Search Gone Wild: utiliser efficacement Endeca & Lucene pour le référencement

La recherche par facettes était plutôt rare. Maintenant, il semble être partout! Se tromper sur la façon dont vous gênez la visibilité des sites avec cette fonctionnalité est l’un des problèmes les plus couramment rencontrés sur les sites de commerce électronique de nos jours. Nous rencontrons les mêmes problèmes encore et encore ici chez Flying Point Digital, et du point de vue du référencement, ce n'est pas simplement "faire de meilleures pages de catégorie". Bien que ce soit une partie importante du correctif, ce n’est que la moitié de l’histoire.

Merci, capitaine évident

Il y a assez de surveillance ou de méconnaissance de ce qui se passe avec la recherche par facettes et de la qualité de cette technique de navigation du site pour le référencement, qu'il est temps d'écrire un article. C'est la même histoire ancestrale et accidentelle, mais avec une torsion. Ou, devrions-nous dire avec de nouvelles dimensions. Pour ceux qui ont été dans l'industrie du référencement pendant un certain temps, c'est probablement beaucoup d'informations pour déduire et résoudre le problème. La recherche par facettes crée un piège araignée aussi grand que chaque combinaison de sélections de facettes possibles, tant que votre navigation est "conviviale".

Problème défini. Solutions implicites. Vous, les vieux chiens salés de l'industrie du référencement, pouvez partir. Pour ceux qui viennent d’entendre parler de ce problème ou qui en traitent pour la première fois, lisez la suite Nous allons tout d’abord vous plonger dans un peu d’histoire, la mauvaise situation qui existe souvent actuellement sur de tels sites, puis nous exposerons enfin quelques grandes lignes d’une solution possible.

Million de catalogues de produits

Partout où il y a du commerce électronique avec de gros catalogues de millions, voire même des dizaines de milliers de produits, il existe des données structurées telles que le prix, la couleur et la taille pour tout décrire. Et le terme choisi pour décrire les interfaces utilisateur construites autour de la recherche et du filtrage à l'aide de tels descripteurs de produits est celui de facettes.

La recherche à facettes ne comprend que tous les filtres sur lesquels vous pouvez cliquer pour affiner votre recherche, au-delà de la saisie de mots-clés ou de l'exploration détaillée de la navigation. Il y a quelques définitions formelles ici, et une insensibilité implicite à l'ordre (qui n'est pas présente dans la navigation en descente). Explorer les menus sensibles aux commandes (comme les liens hypertexte Web) implique une finalité certaine de votre exploration. Tout ce que vous "trouvez" est analogue à des fichiers sur un disque dur ou à des nœuds dans une arborescence. Bien que ce soit possible, il est simplement plus difficile de créer des pièges à araignées avec une navigation en profondeur. C’est ainsi que fonctionne principalement le Web, et c’est ce qui a fait de la recherche-index de Google un système aussi brillant et efficace. C'est également ce qui a donné à Google une réputation injuste de ne pas "aimer" les sites dynamiques.

Spider-Traps et Mixed Messages

Dès qu'un point d'interrogation est introduit dans l'URL, le site est considéré comme "dynamique" et le site peut durer indéfiniment. Pensez à une page Web d'agenda sur laquelle vous pouvez toujours cliquer sur un lien du "lendemain". C'est vraiment aussi simple que de créer un piège araignée. Et ce n’est pas l’existence du point d’interrogation qui rend le site dynamique, mauvais ou illisible pour Google. C'est que le point d'interrogation est présent sur les types de sites que Google doit mettre de côté à un moment donné et se lancer dans le commerce de sites d'exploration qui ne rendent pas les choses lamentables. Sinon, toutes les ressources apparemment infinies de Google seraient consacrées à l'exploration de ce simple calendrier infini sur un petit site.

Les sites dynamiques (ou URL) ne sont pas intrinsèquement mauvais, comme le pensent certaines personnes. Ce qui est grave, c’est qu’il est facile de fabriquer des pièges à araignées accidentels sans jamais se rendre compte que le problème existe. Du côté de Google, ils accèdent de façon réaliste au site suivant pour ne pas perdre tout leur temps à tourner en rond. De nos jours, Google est de plus en plus disposé à plonger intrépidement dans les pièges à araignées, à extraire quelques millions de pages et à voir s’ils ne peuvent en comprendre le sens.

Dans cet article, nous nous concentrons sur un type particulier de spider-trap dynamique d'URL généré par le schéma de navigation souvent appelé recherche à facettes. Mot amusant, facettes. Cela vous fait penser aux faces taillées d'un bijou. Je suppose que cela sert très bien le commerce électronique et qu'il est plus facile que de dire une recherche paramétrée, attribuée, attribuée, multidimensionnelle ou filtrée par champs de façon arbitraire. Toutes les recherches paramétrées ne sont pas des facettes. Les facettes ont tendance à se laisser aller dans des ordres différents et selon des permutations apparemment infinies - à la fois ce qui les rend "facettes" et un tel piège à araignées particulièrement méchant.

Endeca et Lucene

Nous constatons plus souvent des problèmes avec les sites de recherche à facettes, car il est maintenant plus facile de créer des sites qui les utilisent. Auparavant, cette technique de navigation était considérablement plus rare en raison des coûts et de l'expertise nécessaires à sa configuration, ainsi que des exigences de serveur imposantes pour fournir cette fonctionnalité (avec des données précises) à grande échelle. Ça change. Quels que soient vos données, certains produits tels qu'Endeca (maintenant d'Oracle) ou Lucene (un projet Apache) peuvent les parcourir et créer la base de données et les index requis pour se connecter aux composants de création de site de cette couche. rechercher dans un site.

Endeca est depuis longtemps le principal logiciel commercial d'entreprise offrant une recherche à facettes - c'est pourquoi vous entendez leur nom si souvent invoqué lorsque ce sujet se pose. Vous allez payer pour cette confiance, bien sûr. Mais si vous avez votre propre confiance et une solide équipe de développeurs, il existe une alternative à la pile de logiciels Lucene non propriétaire (libre et open source).

Lucene, comme on me dit - étant donné que je ne suis pas un développeur d'expérience avec cette pile logicielle particulière - fait presque tout ce que fait Endeca, même avec des performances de niveau entreprise, mais gratuitement. Comme avec Endeca, il y a vraiment toute une panoplie de produits individuels qui fonctionnent ensemble dans une sorte d'écosystème. Le sommet de cet écosystème est Apache Software Foundation (équivalent de la société), puis le projet Lucene (équivalent du produit) et ensuite, la partie qui constitue la véritable interface utilisateur Web dont nous parlons, Solr ou Elastic Search.

Donc, tout ce qui concerne Lucene et Endeca est certes un élément d’infrastructure informatique que "le nuage" est censé vous empêcher de traiter et qui leur donne un peu l’impression de faire du bricolage à l’ancienne. Si vous êtes une petite entreprise ou si vous ne voulez tout simplement pas avoir les problèmes d'implémentation et souhaitez utiliser immédiatement les meilleures pratiques les mieux convenues tout en restant considérées comme des entreprises, il y a toujours hôte d'autres produits qui occupent des niches entre Endeca / Lucene à un extrême et une instance auto-hébergée de WooCommerce sur WordPress à l'autre.

De plus, tous les grands acteurs de la technologie, tels que IBM, Microsoft et SAP, offrent également une solution à ce problème de recherche sur le Web. Endeca et Lucene sont les noms qui reviennent sans cesse lorsque vous êtes un SEO qui s'attaque à ces problèmes, c'est donc un moyen facile de cadrer cette discussion de recherche à facettes, mais gardez à l'esprit qu'il y en a vraiment d'autres à chaque extrémité du spectre, et d'innombrables plus entre les deux. Si, par exemple, vous souhaitez bénéficier de la facilité de cloud computing de Demandware, mais avec la possibilité de tout gérer en interne un jour pour commencer à superposer une personnalisation extrême pour un avantage concurrentiel, il existe Hybris dans le haut de gamme et Magento dans le bas de gamme.

Deux scénarios extrêmes

Mais au bout du compte, toutes ces infrastructures ont une forme de recherche facettée et doivent faire face au même ensemble de problèmes. En règle générale, la recherche par facettes tombe dans l'une des deux catégories. Les millions de pages potentielles "rendues possibles" sont soit:

  1. Complètement invisible pour chercher pour une raison ou une autre
  2. Visible pour la recherche, mais crée un site que Googlebot ne finira jamais d'explorer et d'explorer

Dans le premier scénario, les sites de recherche à facettes qui sont invisibles à la recherche sont soit invisibles, car l'interface utilisateur est construite avec des éléments de forme CGI à l'ancienne et nécessite une soumission ou l'exécution de JavaScript pour que la recherche s'exécute, ou qu'elle est en fait explorable. mais les propriétaires du site ont "désactivé" la capacité de Google à explorer / indexer le site à l'aide de robots.txt ou d'un autre mécanisme, généralement parce qu'ils ont souffert des difficultés de la deuxième situation.

Dans la situation numéro deux, l'ensemble du site de recherche avec facettes et toutes les pages potentielles qu'il peut générer sont parfaitement explorables par Google. Toutefois, les pages sont interminables et 99% de cette analyse interminable est un contenu en double. En d'autres termes, c'est un piège araignée. Google voit votre site en entier, mais en raison du ridicule de la tâche que vous lui avez assignée, il abandonnera et passera au site suivant.

On y pense rarement, mais il est d’une importance cruciale, que ce piège araignée ait un impact sur votre classement dans les résultats de recherche en diluant ou en masquant complètement le "ensemble" de pages importantes que votre site peut / devrait générer, et qui pourraient être positionnées de manière simple. -découvrez les chemins de clic (navigation principale et secondaire) et faites des ajustements pour vous aligner sur les mots-clés de conversion recherchés et connus.

Pensez en termes d'arbres de la vie réelle

Le truc est donc d’éclairer cet ensemble de pages de base, comme le tronc principal et les branches d’un arbre. Celles-ci représentent peut-être les deux premières facettes sélectionnées ou un autre mécanisme permettant de "définir l'ensemble de pages de base" qui est coordonné avec les objectifs de votre recherche par mot clé. Le tronc et les branches sont au cœur. Ils constituent votre ensemble principal de pages canoniques non dupliquées, qu'elles aient été réellement produites ou non en choisissant des paramètres de recherche à facettes. (Vos pages principales pourraient bien en être composées).

Même si votre site peut générer des millions de pages supplémentaires, ce "noyau" de 100 à 10 000 pages peut être votre jeu canonique principal. Toutes les autres millions de variantes principalement en double pourraient posséder des balises canoniques vers l'URL la plus proche de l'ensemble de base. Oui, il pourrait y avoir du travail de développement personnalisé ici si votre plateforme e-commerce ne prend pas en charge ces astuces prêtes à l’emploi.

Et ce n’est là qu’une des méthodes permettant de maîtriser ces pièges à araignées: laissez tout indexer ... laissez le piège à araignées continuer à exister ... mais expliquez clairement à Google ce qui se passe et comment ensemble essentiel / important évident est un travail excessif et peut-être inutile. Une recherche Google avec un modificateur de site devrait indiquer approximativement le nombre de pages principales canoniques que vous annoncez maintenant clairement, et NON le reste, que vous admettez comme étant des permutations de faible priorité.

Les meilleures solutions sont toujours celles où un site ne peut générer qu'un nombre limité de pages, et Google peut les parcourir toutes en quelques jours. Essayez de courir Grenouille qui hurle contre un site (avec beaucoup de mémoire). Si cela ne finit jamais, vous pourriez avoir un piège araignée.

C'est comme sur n'importe quel arbre, cela peut être difficile, mais vous pouvez réellement compter les feuilles! C'est possible, mais vous allez finir. Screaming Frog finira aussi d'explorer un site correctement fini.

L'importance de l'ordre - Réduire les permutations

Certaines hybridations de facettes peuvent aider à maîtriser la situation - par exemple, rendre certaines facettes uniquement activables en combinaison avec certaines autres facettes pour refléter et appliquer les contraintes de relation de données. Vous pouvez considérer cela comme une combinaison du schéma de navigation beaucoup plus précis avec des facettes de recherche. (Les facettes sont présentées spécifiquement à certains niveaux d’exploration). La navigation en profondeur a tendance à imposer un certain ordre aux paramètres de votre chaîne de requête (masqués sous forme de dossiers ou non).

Vous pouvez également construire vos URL avec précaution, avec un certain ordre imposé aux facettes, de sorte que vous ne traitez que des combinaisons au lieu de permutations. (Effectuez une recherche sur "combinaisons vs permutations.") Plus précisément, si vous sélectionnez la facette A, puis la facette B dans un cas, puis la facette B, puis la facette A dans un autre, les URL seront différentes, mais la même page. Cela peut être corrigé en alphabétisant ou en utilisant un ordre prédéfini indiquant comment les paramètres doivent apparaître sur l'URL.

Enfin, rappelez-vous que nous nous en tenons à la métaphore arborescente de la hiérarchie de sites, le but d'un arbre est d'étaler ses branches, ses brindilles et ses feuilles pour créer une surface avec des feuilles permettant de capter le plus efficacement possible la lumière du soleil. L'évolution a façonné les arbres pour qu'ils ne continuent pas à pousser au-delà du point où ils capturent la lumière le plus efficacement possible.

Création artistique d'un site

Comme indiqué dans l'avis de cet article, la plupart des sites de recherche à facettes rendent leur site invisible pour la recherche ou une tâche impossible. La vraie réponse se situe quelque part au milieu: une mise en forme artistique. Il existe de nombreuses façons de résoudre ce problème: modifier le fichier robots.txt, modifier les paramètres de la console de recherche Google (anciennement Outils pour les webmasters) et modifier les balises méta dans votre source d'affichage.

Les solutions sont variées et doivent toutes être régies par une stratégie globale de ciblage par mot-clé et basées sur ce que votre plateforme technologique prend en charge et peut être mis en œuvre par votre équipe. Contrairement aux arbres naturels dont la forme maximale est définie par les contraintes de la nature, les sites Web à facettes peuvent évoluer sans entrave, et vous ne le saurez peut-être jamais, à moins de ne jamais bien performer dans Google.