Faceted Search Gone Wild: effectief gebruikmaken van Endeca & Lucene voor SEO

Facet zoeken was voorheen zeldzaam. Nu lijkt het overal te zijn! De details verkeerd krijgen over hoe je de zoekfunctie-zichtbaarheid van sites met deze functie uitdaagt, is een van de dingen die tegenwoordig het meest worden verbroken in e-commercesites. We komen hier keer op keer tegen bij Flying Point Digital en vanuit een SEO-perspectief is het niet gewoon "betere categoriepagina's maken". Hoewel dat een belangrijk onderdeel van de oplossing is, is het slechts de helft van het verhaal.

Bedankt, Captain duidelijk

Er is voldoende overzicht of misvatting over wat er gaande is met gefacetteerde zoekopdrachten en hoe goed deze sitenavigatietechniek voor SEO kan zijn, dat het tijd is dat we een artikel schrijven. Het is hetzelfde, eeuwenoude, toevallige verhaal over de valstrik, maar met een draai. Of moeten we zeggen met nieuwe dimensies. Voor degenen die al een tijdje in de SEO-industrie zitten, is dat waarschijnlijk genoeg informatie om het probleem te concluderen en op te lossen. Facet zoeken creëert een spider-trap zo groot als elke combinatie van mogelijke facetselecties, zolang je navigatie "zoekvriendelijk" is.

Probleem gedefinieerd. Oplossingen impliciet. Je zoute, oude honden van de SEO-industrie kunnen verdwijnen. Lees voor meer informatie over degenen die er voor het eerst over hebben gehoord of hiermee hebben te maken. We zullen je eerst in een beetje geschiedenis onderdompelen, de slechte situatie die vaak op zulke sites bestaat, en dan uiteindelijk een paar brede lijnen van één mogelijke oplossing voorstellen.

We zullen je eerst in een beetje geschiedenis onderdompelen, de slechte situatie die vaak op zulke sites bestaat, en dan uiteindelijk een paar brede lijnen van één mogelijke oplossing voorstellen

Miljoen-productcatalogi

Waar e-commerce met miljoenen miljoenen catalogi of zelfs tienduizenden producten bestaat, er zijn gestructureerde gegevens zoals prijs, kleur en grootte om het allemaal te beschrijven. En de gekozen term om de gebruikersinterfaces te beschrijven die zijn opgebouwd rond zoeken en filteren met dergelijke productbeschrijvingen, is facetten.

Facet zoeken is gewoon alle filters waarop u kunt klikken om uw zoekopdracht te verfijnen, naast het aansluiten van zoekwoorden of het navigeren door navigatie. Er zijn enkele formele definities hier en een geïmpliceerde ongelijkheid van de volgorde (die niet aanwezig is bij drill-downnavigatie). Het doorzoeken van ordergevoelige menu's (zoals web-hyperlinks) impliceert een zekere finaliteit voor uw verkenning. Alles wat u "vindt" is analoog aan bestanden op een harde schijf of knooppunten in een boom. Hoewel het mogelijk is, is het gewoon moeilijker om spider-traps te maken met drill-down navigatie. Het is hoe het web meestal werkt, en dat heeft ervoor gezorgd dat Google een dergelijk briljant en effectief systeem heeft opgezocht en geïndexeerd. Het is ook wat Google een oneerlijke reputatie heeft gegeven voor het 'niet leuk vinden' van dynamische sites.

Spider-traps en gemengde berichten

Zodra een vraagteken op de URL wordt geïntroduceerd, wordt de site als 'dynamisch' beschouwd en zou de site voor altijd kunnen doorgaan. Denk aan een kalenderwebpagina waar u altijd op een link 'volgende dag' kunt klikken. Het is echt zo eenvoudig om een ​​spider-trap te maken. En het is niet het bestaan ​​van het vraagteken dat de site op enigerlei wijze dynamisch, slecht of onleesbaar maakt voor Google. Het is dat het vraagteken aanwezig is op de soorten sites die Google op een gegeven moment terzijde moet schuiven en verder moet gaan met het crawlen van sites die het leven niet zuur maken. Of anders zouden alle schijnbaar oneindige bronnen van Google worden besteed aan het doorzoeken van die ene eenvoudige oneindige kalender op één kleine site.

Dynamische sites (of URL's) zijn niet inherent slecht, zoals sommige mensen denken. Wat slecht is, is hoe gemakkelijk het is om per ongeluk spider-traps te maken en nooit beseffen dat je zelfs het probleem hebt. Van Google's kant komen ze op een realistische manier op de volgende site, dus ze spenderen niet al hun tijd aan het draaien van hun wielen. Google heeft tegenwoordig veel meer bereidheid om onverschrokken in valstrikken te duiken, een paar miljoen pagina's terug te trekken en te kijken of ze er geen idee van hebben.

In dit artikel concentreren we ons op een bepaald type dynamische URL-spider-trap zoals gegenereerd door het navigatieschema, vaak faceted search genoemd. Leuk woord, facetten. Laat je denken aan de geslepen gezichten van een juweel. Ik vermoed dat dit de e-commerce biz prima dient en het is gemakkelijker dan willekeurig willekeurige of toegeschreven of multidimensionale of in het veld gefilterde zoekopdrachten te zeggen. Niet alle geparametriseerde zoekopdrachten zijn facetten. Facetten hebben de neiging zichzelf toe te staan ​​om in verschillende ordes en in schijnbaar oneindige permutaties te gaan - zowel wat hen "facetten" maakt als een bijzonder vervelende spider-val.

Endeca en Lucene

We merken vaker problemen met facetzoeksites, omdat het nu gemakkelijker is om sites te maken die het gebruiken. Deze navigatietechniek was vroeger aanzienlijk zeldzamer vanwege de kosten en expertise die nodig waren om het in te stellen en de vette serververeisten om deze functie (met nauwkeurige gegevens) op grote schaal te leveren. Dat is aan het veranderen. Het maakt niet uit wat uw gegevens zijn ingesloten, sommige producten zoals Endeca (nu van Oracle) of Lucene (een Apache-project) kunnen er doorheen vegen en de database en indexen bouwen die nodig zijn om verbinding te maken met de onderdelen voor het bouwen van de site die lagen met facetten zoeken naar een site.

Endeca is al lange tijd de dominante commerciële software van een bedrijfssuite die een gefacetteerde zoekopdracht biedt. Daarom hoort u hun naam zo vaak horen wanneer dit onderwerp zich voordoet. Je betaalt natuurlijk voor dat vertrouwen. Maar als u uw eigen vertrouwen hebt en een sterk team van ontwikkelaars, dan is er het alternatieve Luciene-softwarestack-private alternatief (gratis en open source).

Lucene, zoals mij is verteld - aangezien ik geen ervaren ontwikkelaar ben met deze specifieke softwarestack - doet bijna alles wat Endeca doet, zelfs met prestaties op bedrijfsniveau, maar gratis. Net als bij Endeca is er echt een hele greep aan individuele producten die samenwerken in een soort ecosysteem. De top van dat ecosysteem is de Apache Software Foundation (equivalent van het bedrijf), vervolgens het Lucene-project (equivalent van product) en daarna het deel dat de daadwerkelijke webgebruikersinterface maakt waar we het over hebben - Solr of Elastic Search.

Dus al dit Lucene en Endeca spul is weliswaar dat IT-infrastructuur spul dat "The Cloud" je zou afhouden van het moeten behandelen en een beetje een old-school DIY-gevoel voor hen hebben. Als u een kleiner bedrijf bent, of simpelweg geen implementatieproblemen wilt, en de meest overeengekomen 'best practices' out-of-the-box wilt gebruiken en nog steeds als enterprise-klasse wilt worden beschouwd, is er altijd Demandware of een tal van andere producten die de niches vullen tussen Endeca / Lucene aan de ene kant en een zelf gehost exemplaar van WooCommerce op WordPress aan de andere.

Bovendien bieden alle echte grote technische spelers, zoals IBM, Microsoft en SAP, iets om het facetzoekprobleem met het web op te lossen. Endeca en Lucene zijn de namen die steeds weer naar voren komen als je een SEO bent om deze problemen aan te pakken, dus dit is een makkelijke manier om deze gefacetteerde zoekdiscussie in te kaderen, maar onthoud dat er echt anderen zijn aan elk eind van het spectrum, en talloze meer tussenin. Als u bijvoorbeeld dat cloud-gemak van Demandware wilt, maar met de mogelijkheid om het op een dag in huis te nemen om te beginnen met layering in extreme maatwerk voor een concurrentievoordeel, dan is er Hybris aan de bovenkant en Magento aan het lage einde.

Twee extreme scenario's

Maar aan het einde van de dag hebben al deze infrastructuren een vorm van facetzoekwerk en moeten ze dezelfde problemen aanpakken. In het algemeen valt zoeken naar facetten in een van de twee categorieën. Alle miljoenen potentiële pagina's die "mogelijk gemaakt" worden, zijn ofwel:

  1. Helemaal onzichtbaar om te kunnen zoeken vanwege een of andere reden
  2. Zichtbaar om te zoeken, maar maakt een site die Googlebot nooit zal kunnen doorzoeken en verkennen

In het eerste scenario zijn facetzoeksites die onzichtbaar zijn om te doorzoeken ofwel onzichtbaar omdat de gebruikersinterface is gebouwd met ouderwetse CGI-formulierelementen en een verzending of de uitvoering van JavaScript vereist voor de zoekactie om uit te voeren, of het is feitelijk doorzoekbaar, maar de site-eigenaren hebben Google's mogelijkheid om de site te crawlen / indexeren via robots.txt of een ander mechanisme "uit te schakelen", meestal omdat ze de pijn hebben gehad van situatie nummer twee.

In situatie nummer twee zijn de volledige facetzoeksite en alle potentiële pagina's die het kan genereren perfect door Google te doorzoeken. De pagina's zijn echter oneindig en 99% van die eindeloze crawl is dubbele inhoud. Met andere woorden, het is een spider-trap. Google ziet je hele site, maar vanwege de belachelijkheid van de taak die je ervoor stelt, zal het de volgende site opgeven en doorgaan.

Zelden gedacht, maar van cruciaal belang, is dat deze spider-trap een impact zal hebben op uw zoekrangschikking door de "kernset" van belangrijke pagina's die uw site kan / zou moeten genereren en die gemakkelijk kan worden geplaatst, te verdunnen of volledig te verdoezelen -belevingsklikpaden (hoofd- en secundaire navigatie) en worden aangepast om overeen te komen met bekende opgezochte en bekende conversiezoekwoorden.

Denk in termen van werkelijke real-life-bomen

Dus, de kunst is om die kernpagina's aan te steken, zoals de hoofdstam en takken van een boom. Deze vertegenwoordigen misschien de eerste twee geselecteerde facetten of een ander mechanisme voor het "definiëren van de kernset pagina's" die wordt gecoördineerd met waar uw trefwoordonderzoek voor gaat. Kofferbak en takken zijn kern. Ze zijn uw meesterset van canonieke niet-dubbele pagina's, ongeacht of ze daadwerkelijk zijn geproduceerd door facetzoekparameters te kiezen. (Mogelijk bevatten uw kernpagina's deze).

Zelfs als uw site miljoenen pagina's meer kan genereren dan deze, kan deze "kern" van ergens tussen de 100 en 10.000 pagina's uw meesterscanonieke set zijn. Alle andere miljoenen meestal-duplicaatvarianten kunnen canonieke tags bevatten terug naar de dichtstbijzijnde-overeenkomende URL van de kernset. Ja, er kan hier wat ontwikkelingswerk op maat zijn als je e-commerce platform biedt geen ondersteuning voor dergelijke out-of-the-box-tricks.

En dat is slechts een van de manieren om deze spider traps onder controle te krijgen - laat alles indexeren ... laat de spider-trap blijven bestaan ​​... maar wees duidelijk voor Google over wat er gaande is en hoe kruipen langs de uiteinden- voor de hand liggende kern / belangrijke set is over-the-top en misschien onnodig werk. Een Google-zoekopdracht met een site-modifier zou terug moeten komen met ongeveer de hoeveelheid canonieke kernpagina's waar je nu duidelijk reclame voor maakt - en NIET de rest, die je toegeeft zijn permutaties met lage prioriteit.

De beste oplossingen zijn altijd oplossingen waarbij slechts een beperkt aantal pagina's kan worden gegenereerd door een site en Google kan ze allemaal binnen een paar dagen laten draaien. Probeer te rennen Schreeuwende kikker tegen een site (met veel geheugen). Als het nooit klaar is, heb je misschien een spinnenval.

Het is net als bij een willekeurige boom, het kan moeilijk zijn, maar je zou de bladeren echt kunnen tellen! Het is mogelijk, maar je bent klaar. Zo zal ook Screaming Frog klaar zijn met het kruipen van een behoorlijk eindige site.

Bestellen van zaken - Het verminderen van de permutaties

Bepaalde hybridisatie van facetten kan helpen de situatie onder controle te krijgen, zoals bepaalde facetten alleen in staat stellen te activeren in combinatie met bepaalde andere facetten om de beperkingen van de gegevensrelatie te weerspiegelen en te handhaven. U kunt dit beschouwen als een combinatie van het veel beperktere drilldown-navigatieschema met zoekfacetten. (Facetten worden specifiek gepresenteerd op bepaalde drill-downniveaus). Drill-down navigatie heeft de neiging om een ​​bepaalde volgorde aan te brengen in de parameters van uw zoekopdrachtstring (al dan niet versperd als mappen).

U kunt uw URL's ook zorgvuldig samenstellen, met een bepaalde afgedwongen volgorde naar de facetten, zodat u alleen te maken krijgt met combinaties in plaats van met permutaties. (Zoek naar "combinaties versus permutaties".) Als u in één geval facet A en vervolgens facet B selecteert, maar dan facet B en dan facet A in een ander geval, zullen de URL's verschillend zijn, maar de resulterende pagina hetzelfde. Dit kan worden opgelost door gewoon te alfabetiseren of een vooraf ingestelde volgorde te gebruiken voor de manier waarop de parameters op de URL moeten verschijnen.

En tot slot herinnerend dat we vasthouden aan de boom-metafoor voor site-hiërarchie, is het doel van een boom zijn takken, twijgen en bladeren uit te spreiden om oppervlak met bladeren te creëren om zonlicht het meest efficiënt te vangen. Evolutie heeft bomen gevormd zodat ze niet verder groeien voorbij het punt waar ze het licht het meest efficiënt vangen.

Artistiek vormgeven aan een site

Zoals bij de opining van dit artikel is gesteld, maken de meeste facetten van zoeksites hun site onzichtbaar om te doorzoeken of een onmogelijke kruipklus. Het echte antwoord is ergens in het midden - een artistieke vormgeving. Er zijn veel manieren om dit uit te voeren, van het aanpassen van uw robots.txt-bestand tot het aanpassen van de instellingen van de Google Search Console (voorheen Webmaster Tools) tot het wijzigen van de metatags in uw weergavebron.

De oplossingen zijn gevarieerd en moeten allemaal worden gestuurd door een overkoepelende zoekwoordtargetingstrategie en op basis van wat door uw technologieplatform wordt ondersteund en door uw team kan worden geïmplementeerd. In tegenstelling tot natuurlijke bomen waarvan de maximale vorm wordt bepaald door de beperkingen van de natuur, kunnen websites met facetten ongeremd groeien en misschien weet je het nooit, behalve dat Google nooit goed presteert.