Faceted Search Gone Wild: Effektiv Levering Endeca & Lucene for SEO

Fasettert søk pleide å være ganske sjeldent. Nå ser det ut til å være overalt! Å få detaljene feil på hvordan du slår søkesynligheten til nettsteder med denne funksjonen, er en av de tingene som vanligvis brytes i e-handelsnettsteder i dag. Vi støter på de samme problemene om og om her hos Flying Point Digital, og fra et SEO-perspektiv er det ikke bare "lage bedre kategorisider". Selv om det er en viktig del av løsningen, er det bare halvparten av historien.

Takk, kaptein åpenbar

Det er nok oversikt eller misforståelse av hva som foregår med fasettert søk, og hvor god denne sidenavigeringsteknikken kan være for SEO, at det er på tide at vi skrev en artikkel. Det er den samme, alderen gamle, utilsiktede edderkopp-trap-historien, men med en vri. Eller skal vi si med nye dimensjoner. For de som har vært i SEO-bransjen en stund, er det sannsynligvis rikelig med informasjon til både infer og fikse problemet. Facettsøking skaper en edderkoppfelle så stor som alle kombinasjoner av mulige fasetvalg, så lenge navigasjonen er "søkevennlig".

Problem definert. Løsninger implisitt. Du salte gamle hunder av SEO-bransjen kan gå vekk. For de som bare hører om eller behandler dette for første gang, les videre. Vi vil dype deg først til en del historie, den dårlige situasjonen som ofte eksisterer på slike nettsteder, og så legger du til slutt noen få brede slag av en mulig løsning.

Vi vil dype deg først til en del historie, den dårlige situasjonen som ofte eksisterer på slike nettsteder, og så legger du til slutt noen få brede slag av en mulig løsning

Million-Product Catalogs

Uansett hvor det er e-handel med store kataloger på millioner, eller til og med bare titusenvis av produkter, er det strukturerte data som pris og farge og størrelse for å beskrive alt. Og begrepet som er valgt for å beskrive brukergrensesnittene som er bygd rundt å søke og filtrere ved hjelp av slike produktbeskrivelser, er fasetter.

Facettsøking er bare alle filtene du kan klikke på for å avgrense søket ditt, utover å plugge inn søkeord eller bore ned på navigasjon. Det er noen formelle definisjoner her, og en underforstått rekkefølge ufølsomhet (som ikke er tilstede på bore-ned-navigasjon). Drilling ned gjennom bestillingsfølsomme menyer (som Web-hyperkoblinger) innebærer viss finalitet til leting. Alt du finner er analogt med filer på en harddisk eller noder i et tre. Mens det er mulig, er det bare vanskeligere å lage edderkoppfeller med drill-down navigasjon. Det er hvordan nettverket fungerer, og det er det som gjorde Google Search-and-Index et så strålende og effektivt system. Det er også det som har gitt Google et urettferdig rykte for "ikke liker" dynamiske nettsteder.

Spider-Feller og blandede meldinger

Så snart et spørsmålstegn blir introdusert til nettadressen, anses nettstedet som "dynamisk", og nettstedet kan fortsette for alltid. Tenk på en kalenderwebside hvor du alltid kan klikke på en "neste dag" -link. Det er virkelig så enkelt å lage en edderkopp-felle. Og det er ikke eksistensen av spørsmålet som gjør nettstedet dynamisk eller dårlig eller uleselig til Google på noen måte. Det er at spørsmålet er tilstede på hvilke nettsteder Google må sette til side på et tidspunkt, og fortsette med virksomheten til gjennomsøkingssteder som ikke gjør ting elendige. Ellers vil alle tilsynelatende uendelige ressurser fra Google bli brukt til å gjennomsøke den ene enkle uendelige kalenderen på ett lite nettsted.

Dynamiske nettsteder (eller nettadresser) er ikke iboende dårlige, som noen føler. Det som er ille er hvor lett det er å lage utilsiktede edderkoppfeller og aldri innse at du selv har problemet. Fra Googles side kommer de bare inn på neste side på en realistisk måte, slik at de ikke bruker all tid på å spinne hjulene sine. Google har mye mer vilje i disse dager for å dykke inn i edderkoppfeller, trekke tilbake noen få millioner sider, og se om de ikke kan gjøre noe for det.

I denne artikkelen fokuserer vi på en bestemt type dynamisk URL-edderkopp-felle som generert av navigasjonsprogrammet, ofte kalt fasettert søk. Morsomt ord, fasetter. Gjør deg til å tenke på et smykkes kuttflater. Jeg antar det som serverer e-handel biz helt fint, og det er lettere enn å si vilkårlig parameterisert eller tilskrivet eller flerdimensjonalt eller feltfiltrert søk. Ikke alle parametrert søk er fasetter. Fasetter har en tendens til å tillate seg å gå i forskjellige ordrer og i tilsynelatende uendelige permutasjoner - både det som gjør dem til "fasetter" og en så spesiell uhyggelig edderkoppfelle.

Endeca og Lucene

Vi merker problemer med fasetterte søkeområder oftere, fordi det er lettere nå å lage nettsteder som bruker det. Denne navigasjonsteknikken pleide å være betydelig sjeldnere på grunn av kostnaden og ekspertisen som kreves for å sette opp den, og de krevende serverkravene for å levere denne funksjonen (med nøyaktige data) i målestokk. Det endrer seg. Uansett hva dataene dine er låst i, kan noe som Endeca (nå fra Oracle) eller Lucene (et Apache-prosjekt) feie gjennom det og bygge databasen og indeksene som kreves for å koble til byggekomponenter som lagrer fasetterte søk på et nettsted.

Endeca har lenge vært den dominerende forretningsklasse kommersiell programvare for å tilby fasettert søk-det er derfor du hører navnet deres påkalt så mye når dette emnet oppstår. Du betaler selvfølgelig for det selvtillit. Men hvis du har din egen selvtillit, og et sterkt utviklersteam, er det ikke-proprietære (gratis og åpen kildekode) Lucene-programvarestabel alternativ.

Lucene, som jeg er fortalt - som jeg ikke er en erfaringutvikler med denne spesielle programvarestakken - gjør nesten alt Endeca, selv med bedriftens ytelse, men gratis. Som med Endeca, er det virkelig en hel pose med individuelle produkter som samarbeider i et slags økosystem. Øverst på det økosystemet er Apache Software Foundation (ekvivalent av selskapet), deretter Lucene-prosjektet (tilsvarende produkt) og deretter den delen som lager den faktiske webgrensesnittet vi snakker om, enten Solr eller Elastic Search.

Så alt dette Lucene og Endeca ting er ganske vist at IT-infrastruktur ting som "The Cloud" skal holde deg fra å måtte takle, og ha litt av en gammel skole DIY-føler for dem. Hvis du er et mindre selskap, eller bare ikke vil ha implementeringssmerter, og vil bruke de mest avtalte beste rutene utenom boksen og fortsatt betraktes som bedriftsklasse, er det alltid Demandware, eller en vert for andre produkter som fyller nisjene mellom Endeca / Lucene på en ekstrem og en selvbetjent forekomst av WooCommerce på WordPress på den andre.

I tillegg tilbyr alle de virkelig store teknologiske aktørene, som IBM, Microsoft og SAP, noe for å løse det webfacetterte søkeproblemet også. Endeca og Lucene er navnene som kommer opp igjen og igjen når du er en SEO som takler disse problemene, så dette er en enkel måte å ramme denne fasetterte søkediskusjonen, men husk at det virkelig er andre på hver ende av spekteret, og utallige flere mellomliggende. Hvis du for eksempel vil ha Demandware Cloud-Easy, men med muligheten til å ta det hele hjemme en dag for å starte lagring i ekstrem tilpasning for konkurransefortrinn, er det Hybris i high-end, og Magento i low-end.

To ekstreme scenarier

Men på slutten av dagen har alle disse infrastrukturene en form for fasettert søk og må håndtere det samme settet av problemer. Vanligvis faller fasettert søk inn i en av to kategorier. Alle millioner av potensielle sider blir "gjort mulig", er enten:

  1. Helt usynlig å søke på grunn av en eller annen grunn
  2. Synlig å søke, men oppretter et nettsted som Googlebot aldri vil fullføre gjennomgå og utforske

I det første scenariet er fasetterte søkeområder som er usynlige å søke, enten usynlige fordi brukergrensesnittet er bygd med gammeldags CGI-formelementer og krever en innlevering eller utførelse av JavaScript for at søket skal utføres, eller det er faktisk gjennomsøkbart, men nettstedseierne har "slått av" Googles evne til å krype / indeksere nettstedet via robots.txt eller annen mekanisme - vanligvis fordi de har lidd smertene i situasjon nummer to.

I situasjon nummer to, kan hele det fasetterte søkeområdet og alle de potensielle sidene det genererer, gjennomsøkes av Google. Sidene er imidlertid uendelige, og 99% av den uendelige gjennomsøkingen er duplikat innhold. Med andre ord er det en edderkopp-felle. Google ser hele nettstedet ditt, men på grunn av latterligheten i oppgaven du stiller før den, vil den gi opp og flytte til neste side.

Sjelden tenkte på, men det er kritisk viktig at denne spindel-fellen vil påvirke søkeresultatene dine ved å fortynne eller fullstendig forvirre kjernesettet av viktige sider nettstedet ditt kan / bør generere som kunne plasseres i lettvint -Discover klikk-stier (hoved- og sekundærnavigasjon) og bli tweaked for å justere med kjente søkte på og kjente konvertere søkeord.

Tenk på vilkår for virkelige virkelige trær

Så er trikset å lyse opp det kjerne sett med sider, som hovedstammen og grenene til et tre. Disse representerer kanskje de to første utvalgte fasene eller en annen mekanisme for "definere kjerne sett av sider" som er koordinert med hva søkeordforskningen din går ut på. Stamme og grener er kjerne. De er ditt hovedsett med kanoniske ikke-dupliserte sider - enten de faktisk ble produsert ved å velge fasetterte søkeparametere. (Kjernesidene dine kan vel bestå av disse).

Selv om nettstedet ditt kan generere millioner flere sider enn dette, kan denne "kjernen" hvor som helst fra 100 til 10 000 sider være ditt master-kanoniske sett. Alle de andre millioner av for det meste dupliserte variasjoner kan ha kanoniske koder tilbake til nærmeste matchende nettadresse fra kjernesettet. Ja, det kan være noen tilpasset utviklingsarbeid her hvis din e-handelsplattform støtter ikke slike ut-av-boks triks.

Og det er bare en av tilnærmingene til å få disse edderkoppfeltene under kontroll - la alt indeksere ... la edderkoppfellen fortsette å eksistere ... men vær klar over for Google om hva som skjer, og hvordan noen kravler forbi sluttene åpenbar kjerne / viktig sett er over-the-top og kanskje unødvendig arbeid. Et Google-søk med et nettstedmodifikator bør komme tilbake med omtrent hvor mange kanoniske kjerne sider du nå klart annonserer, og IKKE resten, som du innrømmer, er lavprioriterte permutasjoner.

De beste løsningene er alltid de der bare en begrenset mengde sider kan genereres av et nettsted, og Google kan spinne gjennom dem alle om noen dager. Prøv å kjøre Skrikende frosk mot et nettsted (med mye minne). Hvis det aldri er ferdig, kan du ha en edderkoppfelle.

Det er som på et gitt tre, det kan være vanskelig, men du kan faktisk telle bladene! Det er mulig, men du vil fullføre. Så også vil Screaming Frog gjennomgå et riktig, begrenset nettsted.

Bestillingsspørsmål-Kutte ned tillatelsene

Enkelte hybridisering av fasetter kan bidra til å få situasjonen under kontroll, for eksempel å gjøre visse fasetter bare i stand til å aktiveres i kombinasjon med visse andre fasetter for å reflektere og håndheve forholdet mellom data og forhold. Du kan vurdere dette en kombinasjon av det mye mer begrensede drill-down navigasjonssystemet med søkefasetter. (Facetter presenteres spesielt på bestemte nivåer). Drill-down navigasjon har en tendens til å håndheve en bestemt rekkefølge til søkeordstrengsparametrene (obfuscated som mapper eller ikke).

Du kan også konstruere nettadressene nøye, med en viss håndhevet rekkefølge til fasene, slik at du bare arbeider med kombinasjoner i stedet for permutasjoner. (Gjør et søk etter "kombinasjoner vs. permutasjoner.") Spesifikt, hvis du velger fasett A og deretter fasett B i ett tilfelle, men deretter fasett B og deretter fasett A i en annen, vil nettadressene være forskjellige, men den resulterende side det samme. Dette kan løses ved å bare alfabetisere eller bruke noen forhåndsinnstilt rekkefølge for hvordan parametrene skal vises på nettadressen.

Og til slutt huske at vi stikker med tre-metaforen for sted-hierarki. Formålet med et tre er å spre sine grener, kvister og blader for å skape overflateareal med blader for å fange sollys mest effektivt. Evolusjon har formet trær slik at de ikke fortsetter å vokse ut forbi det punktet hvor de fanger lys mest effektivt.

Kunstnerisk utforming av et nettsted

Som angitt i meningen med denne artikkelen, gjør de fleste fasetterte søkenettsteder enten deres nettsted usynlig for å søke eller en umulig gjennomsøking. Det virkelige svaret er et sted i midten - en kunstnerisk formgivning. Det er mange måter å trekke dette av, fra å gjøre justeringer til robots.txt-filen din for å tilpasse innstillingene for Google Search Console (tidligere nettredaktører), for å endre metakoder i visningskilden.

Løsningene er varierte, og alle bør styres av en overordnet målrettingsstrategi for søkeord, og basert på hva som støttes av teknologiplattformen din og implementeres av teamet ditt. I motsetning til naturlige trær hvis maksimale form er definert av naturens begrensninger, kan fasetterte nettsteder vokse uhindret, og du kan aldri vite det, bortsett fra at du aldri har det bra i Google.