Faceted Search Gone Wild: Effektiv Levering Endeca & Lucene til SEO

Facetteret søgning plejede at være temmelig sjælden. Nu ser det ud til at være overalt! Få detaljerne forkert på, hvordan du slår søgesøgningen af ​​websteder med denne funktion, er en af ​​de ting, der oftest er brudt i e-handelswebsteder i dag. Vi støder på de samme problemer igen og igen her på Flying Point Digital, og fra et SEO-perspektiv er det ikke bare "at lave bedre kategorisider". Selv om det er en vigtig del af løsningen, er det kun halvdelen af ​​historien.

Tak, Captain Obvious

Der er nok tilsyn eller misforståelse af, hvad der foregår med facetteret søgning, og hvor godt denne site navigationsteknik kan være for SEO, at det er på tide, at vi skrev en artikel. Det er den samme, ældgamle, utilsigtede spider-trap historie, men med et twist. Eller skal vi sige med nye dimensioner. For dem, der har været i SEO-industrien et stykke tid, er det nok masser af information til begge infer og løse problemet. Facetsøgning skaber en spiderfælde så stor som enhver kombination af mulige facetvalg, så længe din navigation er "søgevenlig".

Problem defineret. Løsninger implicit. Du salte gamle hunde i SEO-industrien kan gå væk. For dem der bare hører om eller beskæftiger sig med dette for første gang, læs videre. Vi vil dyppe dig først ind i en smule historie, den dårlige situation, der ofte eksisterer på sådanne websteder, og så endelig udlægge et par brede streger af en mulig løsning.

Vi vil dyppe dig først ind i en smule historie, den dårlige situation, der ofte eksisterer på sådanne websteder, og så endelig udlægge et par brede streger af en mulig løsning

Million-Product Catalogs

Uanset hvor der er e-handel med store kataloger på millioner eller endda kun titusindvis af produkter, er der strukturerede data som pris og farve og størrelse for at beskrive det hele. Og udtrykket valgt til at beskrive brugergrænsefladerne bygget omkring søgning og filtrering ved hjælp af sådanne produktbeskrivelser er facetter.

Facetsøgning er blot alle de filtre, du kan klikke på for at forfine din søgning, ud over plug-in søgeord eller boring ned på navigation. Der er nogle formelle definitioner her, og en underforstået ordens ufølsomhed (der ikke er til stede ved boring ned navigation). Boring ned gennem ordrefølsomme menuer (som web-hyperlinks) indebærer en vis finalitet til din udforskning. Alt du "finder" er analogt med filer på en harddisk eller noder i et træ. Mens det er muligt, er det simpelthen sværere at oprette spider-fælder med drill-down navigation. Det er hvordan internettet fungerer, og det er det, der gjorde Google Search-and-Index et så strålende og effektivt system. Det har også givet Google et urimeligt ry for "ikke smag" dynamiske websteder.

Spider-Fælder og Blandede Beskeder

Så snart et spørgsmålstegn er introduceret til webadressen, betragtes webstedet som "dynamisk", og webstedet kan fortsætte for evigt. Tænk på en kalenderwebside, hvor du altid kan klikke på et "næste dag" link. Det er virkelig så nemt at oprette en spider-fælde. Og det er ikke eksistensen af ​​spørgsmålet, der gør webstedet dynamisk eller dårligt eller ulæseligt for Google på nogen måde. Det er, at spørgsmålet er til stede på de typer af websteder, som Google skal sætte til side på et tidspunkt, og fortsætte med aktiviteterne i krypteringswebsteder, der ikke gør tingene elendige. Ellers vil alle Google's tilsyneladende uendelige ressourcer blive brugt til at gennemsøge den ene enkle uendelige kalender på et lille websted.

Dynamiske websteder (eller webadresser) er ikke iboende dårlige, som nogle mennesker føler. Hvad er slemt er, hvor nemt det er at lave utilsigtede edderkopper og aldrig indse, at du selv har problemet. Fra Googles side kommer de bare på den næste side på en realistisk måde, så de bruger ikke hele deres tid på at dreje deres hjul. Google har meget mere vilje i disse dage til dybt at dykke ind i edderkoppefælder, trække et par millioner sider tilbage, og se om de ikke kan mærke det.

I denne artikel fokuserer vi på en bestemt type dynamisk URL-spider-fælde, som genereres af navigationssystemet, der ofte kaldes facetteret søgning. Sjovt ord, facetter. Gør dig i stand til at tænke på en smykkes skærede flader. Jeg gætter på, at e-handel biz fungerer fint, og det er nemmere end at sige vilkårligt parameteriseret eller tilskrives eller multidimensionel eller feltfiltreret søgning. Ikke alle parametreret søgning er facetter. Facetter har tendens til at tillade sig at gå i forskellige ordrer og i tilsyneladende uendelige permutationer - både hvad gør dem "facetter" og sådan en særlig uhyggelig spindelfælde.

Endeca og Lucene

Vi bemærker ofte problemer med facetterede søgewebsteder, fordi det er nemmere at lave websteder, der bruger det. Denne navigeringsteknik plejede at være betydeligt sjældnere på grund af de omkostninger og ekspertise, der kræves for at oprette det, og de kræsne serverkrav til at levere denne funktion (med nøjagtige data) i målestok. Det ændrer sig. Ligegyldigt hvad dine data er låst i, kan noget produkt som Endeca (nu fra Oracle) eller Lucene (et Apache-projekt) feje igennem det og opbygge databasen og indekserne, der kræves for at oprette forbindelse til de webstedskomponenter, som lag er facetteret søg på et websted.

Endeca har længe været den dominerende virksomhedsklasse kommerciel software til at tilbyde facetteret søgning. Derfor hører du deres navn påkaldt så meget, når dette emne opstår. Du betaler selvfølgelig for den tillid. Men hvis du har din egen selvtillid og et stærkt udviklerteam, er der den ikke-proprietære (gratis og open source) Lucene software stack alternativ.

Lucene, som jeg er blevet fortalt - som jeg ikke er en erfaring udvikler med denne særlige software stack-gør næsten alt Endeca, selv med virksomhedens niveau ydeevne, men gratis. Som med Endeca er der virkelig en hel del pose af individuelle produkter, der arbejder sammen i et slags økosystem. Øverst på det økosystem er Apache Software Foundation (tilsvarende firmaet), derefter Lucene-projektet (tilsvarende produkt) og derefter den del, der skaber den aktuelle web-brugerflade, vi taler om - enten Solr eller Elastic Search.

Så alt dette Lucene og Endeca ting er ganske vist, at IT-infrastruktur ting, som "The Cloud" skal holde dig fra at skulle beskæftige sig med, og have lidt af en old-school DIY-føler for dem. Hvis du er et mindre firma eller simpelthen ikke ønsker implementeringspine og vil bruge de mest aftalte bedste praksis uden for kassen og stadig betragtes som virksomhedsklasse, er der altid Demandware eller en vært for andre produkter, der fylder nicherne mellem Endeca / Lucene på den ene yderste og en selvstændig vært for WooCommerce på WordPress på den anden.

Derudover tilbyder alle de rigtig store teknologiske aktører, som IBM, Microsoft og SAP, noget at løse det webfacetterede søgeproblem også. Endeca og Lucene er de navne, der kommer op igen og igen, når du er en SEO, der løser disse problemer, så det er en nem måde at ramme denne facetterede søge diskussion, men husk, at der virkelig er andre i hver ende af spektret, og utallige flere imellem. Hvis du f.eks. Vil have Demandware Cloud Cloud, men med mulighed for at tage det hele hjemme en dag for at starte layering i ekstrem tilpasning til konkurrencefordel, er der Hybris i high-end og Magento i low-end.

To ekstreme scenarier

Men i slutningen af ​​dagen har alle disse infrastrukturer en form for facetteret søgning og må beskæftige sig med det samme sæt problemer. Generelt falder facetteret søgning i en af ​​to kategorier. Alle de millioner af potentielle sider, der bliver "gjort mulige", er enten:

  1. Helt usynlig at søge på grund af en eller anden grund
  2. Synlig at søge, men skaber et websted, som Googlebot aldrig vil gennemgå og gennemgå

I det første scenario er facetterede søgewebsites, der er usynlige at søge, enten usynlige, fordi brugergrænsefladen er bygget med gammeldags CGI-formelementer og kræver en indsendelse eller udførelse af JavaScript for søgningen, der skal udføres, eller det kan faktisk gennemgås, men webstedsejere har "slukket" Googles evne til at gennemgå / indeksere siden via robots.txt eller en anden mekanisme - normalt fordi de har lidt smerterne i situation nummer to.

I situation nr. 2 kan hele det avancerede søgewebsted og alle de potentielle sider, det genererer, gennemgås af Google. Sidene er imidlertid uendelige, og 99% af den uendelige gennemgang er dobbelt indhold. Det er med andre ord en spider-fælde. Google ser hele dit websted, men på grund af den latterlige af den opgave, du sætter før den, vil den give op og flytte til det næste websted.

Sjældent tænkt på, men det er kritisk vigtigt, at denne spindelfælde vil have indflydelse på dine søgerrangeringer ved at fortynde eller fuldstændig forvirre "kernesættet" af vigtige sider, dit websted kan / bør generere, der kunne placeres i let -Discover klik-stier (main & secondary navigation) og være tweaked for at justere med kendte søgte-on og kendt konvertere søgeord.

Tænk på Vilkår for faktiske Real-Life Træer

Så er tricket at oplyse det kerne sæt sider, som hovedtræk og grene af et træ. Disse repræsenterer måske de to første udvalgte facetter eller en anden mekanisme til at "definere kerne sæt sider", der er koordineret med, hvad dit søgeord forskning går på. Trunk og grene er kerne. De er dit master sæt af canonical ikke-duplikat sider - uanset om de faktisk blev produceret ved at vælge facetterede søgeparametre. (Dine kerne sider kan meget vel bestå af disse).

Selvom dit websted kan generere millioner flere sider end dette, kan denne "kerne", hvor som helst fra 100 til 10.000 sider, være dit master canonical set. Alle de andre millioner af de fleste duplikatvarianter kunne have kanoniske tags tilbage til den nærmeste matchende URL fra kernesættet. Ja, der kan være nogle brugerdefinerede udviklingsarbejde her, hvis din e-handelsplatform understøtter ikke sådanne out-of-the-box tricks.

Og det er bare en af ​​tilgangene til at få disse edderkoppefælder under kontrol - lad alt indeksere ... lad edderkoppefælden fortsætte med at eksistere ... men vær klar over for Google om, hvad der foregår, og hvordan nogen kravler forbi den sidste- åbenlys kerne / vigtig sæt er over-the-top og måske unødvendigt arbejde. En Google-søgning med en site-modifier skal komme tilbage med omtrent det antal kanoniske kerne sider, du nu klart reklamerer - og IKKE resten, som du indrømmer, er lavprioriterede permutationer.

De bedste løsninger er altid dem, hvor kun en begrænset mængde sider kan genereres af et websted, og Google kan snuble gennem dem alle om et par dage. Prøv at køre Skrigende Frø mod et websted (med masser af hukommelse). Hvis det aldrig er færdigt, kan du have en spindelfælde.

Det er ligesom på et givet træ, det kan være svært, men du kunne faktisk tælle bladene! Det er muligt, men du bliver færdig. Så også vil Screaming Frog afslutte at krybe et retfineret websted.

Bestil spørgsmål - nedskæringer af permutationerne

Visse hybridisering af facetter kan medvirke til at få situationen under kontrol - som f.eks. At gøre visse facetter kun i stand til at aktivere i kombination med visse andre facetter for at reflektere og håndhæve dataforholdsbetingelserne. Du kan måske overveje dette til en kombination af det meget mere endelige drill-down navigationssystem med søgefacetter. (Facetter præsenteres specielt på bestemte niveauer). Drill-down navigation har tendens til at håndhæve en bestemt rækkefølge til dine forespørgselsstrengsparametre (obfuscated som mapper eller ej).

Du kan også konstruere dine webadresser omhyggeligt, med en vis håndhævet rækkefølge til facetterne, så du kun beskæftiger sig med kombinationer i stedet for permutationer. (Søg efter "kombinationer vs. permutationer.") Specifikt, hvis du vælger facet A og derefter facet B i et tilfælde, men derefter facet B og derefter facet A i en anden, vil webadresserne være forskellige, men den resulterende side det samme. Dette kan løses ved bare at alfabetisere eller bruge en forudbestemt rækkefølge for, hvordan parametrene skal vises på URL'en.

Og endelig huske på, at vi klæber med træmetaforen for stedet-hierarkiet. Formålet med et træ er at sprede sine grene, kviste og blade for at skabe overflade med blade for at optage sollys mest effektivt. Evolution har formet træer, så de ikke fortsætter med at vokse ud forbi det punkt, hvor de optager lys mest effektivt.

Kunstnerisk udformning af et websted

Som det fremgår af udtalelsen til denne artikel, gør de fleste facetterede søgewebsteder enten deres websted usynligt at søge eller en umulig gennemsøgning. Det reelle svar er et sted i midten-en kunstnerisk formgivning. Der er mange måder at trække dette fra, fra at foretage tilpasninger til din robots.txt-fil for at tilpasse dine indstillinger for Google Search Console (tidligere Webmasterværktøjer) til at ændre metatags i din visningskilde.

Løsningerne er varierede, og alt skal styres af en overordnet målretningsstrategi til søgeord og baseret på, hvad der understøttes af din teknologiplatform og implementeres af dit team. I modsætning til naturlige træer, hvis maksimale form er defineret af naturens begrænsninger, kan facetterede hjemmesider vokse uhæmmet, og du kan aldrig vide det - bortset fra at du aldrig har det godt i Google.