Faceted Search Gone Wild: Effektivt hävdar Endeca & Lucene för SEO

Fasetterad sökning brukade vara ganska sällsynt. Nu verkar det vara överallt! Att få detaljerna fel på hur du slår bort söksiktigheten hos webbplatser med den här funktionen är en av de saker som brukar bryts i e-handelswebbplatser idag. Vi stöter på samma problem om och om hit hos Flying Point Digital, och från ett SEO-perspektiv är det inte bara "göra bättre kategori sidor". Även om det är en viktig del av fixen är det bara hälften av historien.

Tack, kapten Obvious

Det finns tillräckligt med övervakning eller missuppfattning av vad som händer med måttlig sökning och hur bra den här navigeringsmetoden kan vara för SEO, att det är dags att vi skrev en artikel. Det är samma, åldrig, oavsiktlig spindel-trap historia, men med en vridning. Eller ska vi säga med nya dimensioner. För dem som har varit i SEO-industrin ett tag, är det förmodligen gott om information till både infer och fixa problemet. Fasetterad sökning skapar en spindelfälla lika stor som varje kombination av möjliga fasettval, så länge din navigering är "sökvänlig".

Problem definierat. Lösningar implicit. Du salta gamla hundar från SEO-industrin kan gå iväg. För dem som bara hörs om eller hanterar detta för första gången, läs vidare. Vi kommer att dyka upp dig först till en bit av historia, den dåliga situationen som ofta existerar på sådana platser, och slutligen lägga ut några breda streck av en möjlig lösning.

Vi kommer att dyka upp dig först till en bit av historia, den dåliga situationen som ofta existerar på sådana platser, och slutligen lägga ut några breda streck av en möjlig lösning

Million-Product Catalogs

Varhelst det finns e-handel med stora kataloger på miljontals, eller till och med bara tiotusentals produkter, finns det strukturerad data som pris och färg och storlek för att beskriva allt. Och termen som valts för att beskriva användargränssnitt som är byggda kring sökning och filtrering med hjälp av sådana produktbeskrivningar är fasetter.

Fasetterad sökning är bara alla filter som du kan klicka på för att förfina din sökning, förutom att plugga in sökord eller borra ner på navigering. Det finns några formella definitioner här, och en underförstådd ordning otillräcklighet (som inte är närvarande på nedrullningsnavigering). Att borra ner genom orderkänsliga menyer (som webb hyperlänkar) innebär viss finalitet för din utforskning. Allt du hittar är analogt med filer på en hårddisk eller noder i ett träd. Medan det är möjligt är det helt enkelt svårare att skapa spindelfällor med drill-down navigation. Det är hur webben fungerar mest, och det är det som gjorde Googles sök-och-index ett så briljant och effektivt system. Det är också vad som har gett Google ett orättvist rykte för "inte liknar" dynamiska webbplatser.

Spider-Fällor och Blandade Meddelanden

Så snart ett frågetecken presenteras för webbadressen anses webbplatsen vara "dynamisk", och webbplatsen kan fortsätta för alltid. Tänk på en kalenderwebbsida där du alltid kan klicka på en "nästa dag" länk. Det är verkligen så enkelt att skapa en spindelfälla. Och det är inte förekomsten av frågetecken som gör webbplatsen dynamisk eller dålig eller oläslig mot Google på något sätt. Det är att frågetecknet är närvarande på de typer av webbplatser som Google måste lägga åt sidan vid något tillfälle, och fortsätta med verksamhet som krypterar webbplatser som inte gör saker olyckliga. Eller annars skulle alla Google som till synes oändliga resurser spenderas krypa den enda enkla oändliga kalendern på en liten webbplats.

Dynamiska platser (eller webbadresser) är inte inneboende dåliga, som vissa människor känner. Vad som är dåligt är hur enkelt det är att göra oavsiktliga spindelfällor och aldrig inse att du ens har problemet. Från Googles sida går de bara på nästa sida på ett realistiskt sätt, så de spenderar inte hela tiden på att spinna sina hjul. Google har idag mycket mer vilja att dyka in i spindelfällor, dra tillbaka några miljoner sidor, och se om de inte kan ge någon mening av det.

I den här artikeln fokuserar vi på en viss typ av dynamisk URL-spindel-fälla som genereras av navigationssystemet som ofta kallas för avancerad sökning. Roligt ord, fasetter. Går dig att tänka på en juvels snittiga ansikten. Jag antar att tjänsten e-handel biz är bra och det är lättare än att säga godtyckligt parametrerad eller attribut eller flerdimensionell eller fältfiltrerad sökning. Inte alla parametrerade sökningar är fasetter. Fasetter tenderar att tillåta sig att gå i olika order och i till synes oändliga permutationer - både vad som gör dem "facetter" och en så speciell otäck spindelfälla.

Endeca och Lucene

Vi märker problem med avancerade sökwebbplatser oftare, eftersom det är lättare nu att skapa webbplatser som använder det. Denna navigeringsteknik brukade vara betydligt sällsynta på grund av den kostnad och den expertis som krävs för att ställa upp den och de krävande serverns krav att leverera denna funktion (med noggranna data) i skala. Det förändras. Oavsett vad dina data är låsta i, kan en produkt som Endeca (nu från Oracle) eller Lucene (ett Apache-projekt) sopa igenom det och bygga databasen och indexerna som krävs för att ansluta till de byggnadsdelar som lagras i fasett söka på en webbplats.

Endeca har länge varit den dominerande affärsklassens kommersiella programvara för att erbjuda facetterad sökning. Därför hör du deras namn påtalas så mycket när det här ämnet uppstår. Du betalar för det självförtroendet. Men om du har ditt eget självförtroende och ett starkt utvecklingslag finns det det icke-proprietära (gratis och open source) Lucene-programvarupackalternativet.

Lucene, som jag är tillsagd, som jag inte är en erfarenhetsutvecklare med den här programvaran, gör nästan allt Endeca, även med prestanda på företagsnivå, men gratis. Precis som hos Endeca finns det en hel grepppåse av enskilda produkter som samverkar i ett slags ekosystem. Överst på det ekosystemet är Apache Software Foundation (ekvivalent av företaget), sedan Lucene-projektet (motsvarande produkt) och därefter den del som gör den faktiska webbgränssnittet vi pratar om - antingen Solr eller Elastic Search.

Så allt detta Lucene och Endeca saker är visserligen att IT-infrastruktur saker som "The Cloud" är tänkt att hålla dig från att behöva ta itu med, och ha lite av en gamla skolan DIY-känsla för dem. Om du är ett mindre företag, eller helt enkelt inte vill ha implementeringssvårigheter, och vill använda de mest överenskomna bästa metoderna utan förpackningen och fortfarande betraktas som företagsklass, finns det alltid Demandware eller en värd för andra produkter som fyller nischer mellan Endeca / Lucene i en extremitet och en självhävd instans av WooCommerce på WordPress på den andra.

Dessutom erbjuder alla de riktigt stora teknikerna, som IBM, Microsoft och SAP, något för att lösa det webbaserade sökproblemet. Endeca och Lucene är namnen som kommer upp om och om när du är en SEO som tar itu med dessa problem, så det här är ett enkelt sätt att rama den här avancerade sökdiskussionen, men kom ihåg att det verkligen finns andra på varje ände av spektret, och otaliga mer däremellan. Om du till exempel vill ha Demandware Cloud-Easy, men med möjligheten att ta det hela hemma en dag för att starta layering i extrem anpassning för konkurrensfördelar, finns Hybris i high-end och Magento i low-end.

Två extrema scenarier

Men i slutet av dagen har alla dessa infrastrukturer någon form av fasetterad sökning och måste hantera samma uppsättning problem. I allmänhet faller facetterad sökning i en av två kategorier. Alla miljontals potentiella sidor som "möjliggörs" är antingen:

  1. Helt osynlig att söka på grund av en eller annan anledning
  2. Synlig att söka, men skapar en webbplats som Googlebot aldrig kommer att klara av att krypa och utforska

I det första scenariot är facetterade sökwebbplatser som är osynliga att söka antingen osynliga eftersom användargränssnittet är byggt med gammaldags CGI-formelement och kräver en inlämning eller exekvering av JavaScript för att sökningen ska utföras, eller det är egentligen genomsökbar, men webbplatsägare har "stängt av" Googles förmåga att krypa / indexera webbplatsen via robots.txt eller någon annan mekanism - vanligtvis eftersom de har lidit smärtan i situation nummer två.

I situation nummer två kan hela sökmotorn och alla potentiella sidor det genererar, genomsökas av Google. Sidorna slutar dock aldrig, och 99% av den oändliga krypningen är dubbletter. Det är med andra ord en spindelfälla. Google ser hela din webbplats, men på grund av den löjliga uppgiften du ställt inför den kommer den att ge upp och gå vidare till nästa webbplats.

Sällan tänkt på, men det är kritiskt viktigt att denna spindelfälla kommer att påverka din sökrankning genom att utspäda eller fullständigt förvirra "kärnuppsättningen" av viktiga sidor som din webbplats kan / ska generera som kan placeras i lätt att -Discover-klickvägar (huvud- och sekundärnavigering) och tweaked för att anpassa sig till kända sökord på och kända konvertera sökord.

Tänk på villkor för verkliga verkliga träd

Så, tricket är att tända upp den kärnan uppsättningen av sidor, som huvudstam och grenar av ett träd. Dessa representerar kanske de två första markerade fasetterna eller en annan mekanism för att "definiera kärnan uppsättning sidor" som är samordnad med vad ditt sökordsforskning går för. Stam och grenar är kärnan. De är din mästarsats med kanoniska sidor utan duplicering - oavsett om de faktiskt producerades genom att välja måttfyllda sökparametrar. (Din kärnsida kan mycket väl bestå av dessa).

Även om din webbplats kan generera miljontals fler sidor än den här, kan denna "kärna" från vardera 100 till 10 000 sidor vara din huvudkanoniska uppsättning. Alla andra miljoner av mestadels dubbla variationer kan innehålla kanoniska taggar tillbaka till närmaste matchande URL från kärnuppsättningen. Ja, det kan finnas några anpassade utvecklingsarbeten här om din e-handelsplattform stöder inte sådana out-of-the-box-tricks.

Och det är bara en av metoderna för att få dessa spindelfällor under kontroll - låt allt indexa ... låt spindelfällan fortsätta att existera ... men vara tydlig för Google om vad som händer och hur någon kryper förbi slutligen uppenbar kärna / viktig uppsättning är över-the-top och kanske onödigt arbete. En Google-sökning med en webbplatsmodifierare bör återkomma med ungefär den mängd kanoniska kärnsidor som du nu klart annonserar - och INTE resten som du medger är prioriterad permutationer med låg prioritet.

De bästa lösningarna är alltid de där endast en begränsad mängd sidor kan genereras av en webbplats, och Google kan snurra genom dem alla om några dagar. Prova att springa Skrikande groda mot en webbplats (med mycket minne). Om det aldrig slutar kan du ha en spindelfälla.

Det är som på ett visst träd, det kan vara svårt, men du kan faktiskt räkna bladen! Det är möjligt, men du kommer att avsluta. Så också kommer Screaming Frog att krypa en rätt ändamålsenlig plats.

Order Matters-Skärning av Permutationerna

Vissa hybridiseringar av fasetter kan hjälpa till att få situationen under kontroll - till exempel att vissa aspekter bara kan aktiveras i kombination med vissa andra aspekter för att reflektera och genomdriva förhållandena för dataförhållandet. Du kan kanske överväga det här en kombination av det mycket mer ändlösa navigationssystemet med sökfacetter. (Facetter presenteras specifikt vid vissa drill-down nivåer). Drill-down navigation tenderar att genomdriva en viss ordning till dina frågesträngsparametrar (obfuscated som mappar eller ej).

Du kan också konstruera dina webbadresser noggrant, med en viss tillämpad ordning till fasetterna, så att du bara handlar om kombinationer istället för permutationer. (Gör en sökning efter "kombinationer mot permutationer.") Specifikt, om du väljer fas A och sedan fas B i ett fall, men sedan fas B och sedan fas A i en annan, kommer webbadresserna att vara annorlunda, men resultatet sida samma. Detta kan lösas genom att bara alfabetisera eller använda någon förinställd order för hur parametrarna ska visas på webbadressen.

Och slutligen komma ihåg att vi klibbar med trädmetafonen för plats hierarki. Syftet med ett träd är att sprida ut sina grenar, kvistar och löv för att skapa yta med blad för att fånga solljus mest effektivt. Evolutionen har formade träd så att de inte fortsätter växa ut förbi den punkt där de fånga ljus mest effektivt.

Konstnärligt utforma en webbplats

Som framgår av meningen med denna artikel gör de flesta mångsidiga sökwebbplatser antingen deras sida osynliga för att söka eller omöjliga sökningar. Det verkliga svaret är någonstans i mitten - en konstnärlig formning. Det finns många sätt att dra av det här, från att göra anpassningar till din robots.txt-fil för att justera inställningarna för Google Search Console (tidigare webbverktyg), för att ändra metataggarna i din visningskälla.

Lösningarna är varierade och alla bör styras av en övergripande strategi för sökordsinriktning och baseras på vad som stöds av din teknologiplattform och implementeras av ditt team. Till skillnad från naturliga träd vars maximala form definieras av naturens begränsningar kan facetterade webbplatser växa oförhindrade, och du kanske aldrig känner till det, förutom att du aldrig lyckas bra i Google.