Faceted Search Gone Wild: učinkovito izkoriščanje Endeca & Lucene za SEO

V grobem iskanju je bilo zelo redko. Zdi se, da je povsod! Pridobivanje podrobnosti o tem, kako se prepiramo z vidnostjo spletnih mest s to funkcijo, je danes ena najpogostejših primerov v spletnih mestih e-trgovine. Pri Flying Point Digital-u se srečujemo z istimi težavami in iz SEO-perspektive ne gre preprosto za "boljše strani kategorij". Čeprav je to pomemben del popravka, je le polovica zgodbe.

Hvala, kapitan Očiten

Obstaja dovolj nadzora ali napačne predstave o tem, kaj se dogaja z obrnjenim iskanjem in kako lahko je ta tehnika navigacije na mestu za SEO, da je čas, da smo napisali članek. To je ista, starodavna, nenamerna zgodba o pajkah, vendar s preobratom. Ali pa naj rečemo z novimi dimenzijami. Za tiste, ki so bili v industriji SEO nekaj časa, to je verjetno veliko informacij tako za sklepanje in odpravljanje težave. Usmerjeno iskanje ustvarja past, ki je velik kot vsaka kombinacija izbranih elementov, če je vaša navigacija »prijazna za iskanje«.

Opredeljen problem. Rešitve implicitne. Sladki stari psi SEO industrije lahko izginejo. Za tiste, ki prvič slišijo o tem ali se s tem ukvarjajo, preberite. Najprej vas bomo potopili v zgodovino, slabe razmere, ki jih na takih straneh pogosto obstajajo, in nato končno postavili nekaj širokih potez ene možne rešitve.

Najprej vas bomo potopili v zgodovino, slabe razmere, ki jih na takih straneh pogosto obstajajo, in nato končno postavili nekaj širokih potez ene možne rešitve

Million-Product Catalogs

Kjerkoli je e-trgovina z velikimi katalogi milijonov ali celo samo deset tisoč izdelkov, so strukturirani podatki, kot so cena, barva in velikost, ki vse to opisujejo. Izraz, izbran za opis uporabniških vmesnikov, zgrajenih okoli iskanja in filtriranja z uporabo takšnih opisovalnikov izdelkov, je vidik.

Usmerjeno iskanje je samo vse filtre, ki jih lahko kliknete, da bi izboljšali iskanje, poleg priklopnih ključnih besed ali vrtanja navzdol za navigacijo. Obstaja nekaj formalnih definicij in implicitna neobčutljivost naročila (ki ni prisotna pri navigaciji navzdol). Vrtanje po menijih, občutljivih za naročila (kot so spletne povezave), pomeni določeno dokončnost vašega raziskovanja. Vse, kar najdete, je analogno datotekam na trdem disku ali vozliščih v drevesu. Čeprav je možno, je preprosto težje ustvariti pasti za pajke z navigacijo navzdol. To je način, kako Web večinoma deluje, in to je tisto, zaradi česar je bilo iskanje in indeksiranje Google tako briljanten in učinkovit sistem. To je tudi tisto, kar je Googlu dalo nepošteno ugled za "ne všeč" dinamične spletne strani.

Spider-Traps in mešana sporočila

Takoj, ko je URL-ju predstavljen vprašaj, se spletno mesto šteje za "dinamično" in spletno mesto lahko traja večno. Pomislite na spletno stran koledarja, kjer lahko vedno kliknete povezavo "naslednji dan". Res je preprosto ustvariti past za pajke. In to ni obstoj vprašaj, ki spletno mesto naredi dinamično ali slabo ali nečitljivo Googlu na kakršen koli način. To je, da je vprašaj prisoten na vrstah spletnih mest, ki jih mora Google v določenem trenutku razveljaviti, in nadaljevati z dejavnostmi pajkanja spletnih mest, ki ne povzročajo nesrečnosti. Drugače bi bila vsa Googleova navidezno neskončna sredstva porabljena za iskanje po enem enostavnem neskončnem koledarju na enem majhnem mestu.

Dinamične strani (ali URL-ji) niso same po sebi slabe, kot se nekateri počutijo. Kar je slabo, je, kako enostavno je narediti naključne pasti pajkov in se nikoli ne zavedati, da imate celo problem. S strani Googla, so samo dobili na naslednjem mestu na neki realističen način, tako da ne preživijo ves čas predenje svojih koles. Google ima veliko več pripravljenosti, da se neprekinjeno potopi v pasti-pajki, potegne nekaj milijonov strani nazaj in preveri, če tega ne morejo razumeti.

V tem članku se osredotočamo na eno posebno vrsto dinamične pasti URL-jev, ki jo generira navigacijska shema, ki jo pogosto imenujemo faceted search. Zabavna beseda, faset. Pomisli na izrezane obraze dragulja. Mislim, da služi e-poslovanju biz prav v redu in je lažje kot rekel samovoljno parameterizirano ali pripisano ali večdimenzionalno ali filtrirano iskanje na terenu. Vse iskanje po parametrih ni vidno. Vidiki se nagibajo k temu, da si dovolijo, da gredo v različnih vrstnih redih in na videz neskončnih permutacij - tako, kar jih naredi "ploskve" in tako posebno grdo pasto za pajke.

Endeca in Lucene

Pogosteje opažamo težave z obrnjenimi iskalnimi mesti, saj je zdaj lažje ustvariti spletna mesta, ki jih uporabljajo. Ta navigacijska tehnika je bila precej redkejša zaradi stroškov in strokovnega znanja, ki so potrebni za njegovo nastavitev, in zaradi zahtevnih strežniških zahtev za zagotavljanje te funkcije (z natančnimi podatki) na lestvici. To se spreminja. Ne glede na to, v čem so vaši podatki zaklenjeni, lahko nekateri izdelki, kot so Endeca (zdaj, iz Oracla) ali Lucene (projekt Apache), preletijo in zgradijo bazo podatkov in indekse, ki so potrebni za povezavo s komponentami za gradnjo spletnega mesta, ki so plastificirane. iskanje po spletnem mestu.

Endeca je že dolgo prevladujoča komercialna programska oprema v podjetniškem razredu, ki ponuja obrnjeno iskanje - zato slišite njihovo ime, ki se tako močno pojavi, ko se pojavi ta tema. Seveda boste plačali za to zaupanje. Toda, če imate svoje zaupanje in močno ekipo razvijalcev, obstaja alternativa za programsko opremo Lucene, ki ni lastniška (prost in odprtokodna).

Lucene, kot sem povedal - ker nisem razvijalec izkušenj s to programsko opremo - skoraj vse, kar Endeca počne, celo s storitvami na ravni podjetja, ampak brezplačno. Tako kot pri Endeci, je v resnici celo vrečko posameznih izdelkov, ki delujejo skupaj v nekakšnem ekosistemu. Vrh tega ekosistema je Apache Software Foundation (enakovreden podjetju), nato projekt Lucene (enakovreden izdelku) in potem del, s katerim govorimo o dejanskem spletnem uporabniškem vmesniku - bodisi Solr ali Elastic Search.

Torej, vse te stvari Lucene in Endeca so resnično tiste, ki jih IT infrastruktura, ki naj bi "Oblak" preprečevala, da bi se morali ukvarjati z njimi, in jim dati občutek, da se z njimi ukvarjate s starimi šolami. Če ste manjše podjetje ali preprosto ne želite izvajati težav z izvajanjem, in želite uporabljati najbolj dogovorjene najboljše prakse, ki so izven okvira in se še vedno štejejo za podjetniški razred, vedno obstaja storitev Demandware ali gostiteljica drugih izdelkov, ki zapolnjujejo niše med Endeco / Lucene na eni skrajnosti in samo-gostujoč primer WooCommerce na WordPressu na drugi strani.

Poleg tega vsi resnično veliki tehnološki igralci, kot so IBM, Microsoft in SAP, ponujajo nekaj, kar bi rešilo tudi težavo s spletnim iskanjem. Endeca in Lucene so imena, ki se pojavljajo vedno znova, ko ste vi SEO, ki se ukvarja s temi težavami, zato je to enostaven način, da to razčlenjeno razpravo vokvirite, vendar ne pozabite, da so na vsakem koncu spektra res drugi, in nešteto več vmes. Če želite na primer lahkotnost Demandware-a v oblaku, vendar z možnostjo, da nekega dne vzamete vse v hiši, da začnete raztezati v ekstremnih prilagoditvah za konkurenčno prednost, je Hybris na visokem koncu in Magento na nižji ravni.

Dva skrajna scenarija

Toda ob koncu dneva imajo vse te infrastrukture določeno obliko iskanja in se morajo spopasti z enakimi težavami. Na splošno je fasetirano iskanje uvrščeno v eno od dveh kategorij. Vsi milijoni potencialnih strani, ki so "omogočeni", so:

  1. Popolnoma neviden za iskanje iz enega ali drugega razloga
  2. Vidno za iskanje, vendar ustvarja spletno mesto, ki ga Googlebot ne bo nikoli končal s pajkanjem in raziskovanjem

V prvem scenariju vidna spletna mesta, ki so nevidna za iskanje, so nevidna, ker je uporabniški vmesnik zgrajen s starimi elementi CGI-oblike in zahteva predložitev ali izvedbo JavaScripta, da se lahko iskanje izvede, ali pa se dejansko lahko išče, vendar so lastniki spletnih mest »izklopili« Googlovo zmožnost pajkanja / indeksiranja spletnega mesta prek robots.txt ali kakšnega drugega mehanizma - navadno zato, ker so utrpeli bolečine zaradi položaja številka dva.

V drugem primeru lahko celotno iskano spletno mesto in vse potencialne strani, ki jih lahko ustvari, popolnoma iskati Google. Vendar pa se strani nikoli ne končajo in 99% tega brezkončnega pajkanja je podvojena vsebina. Z drugimi besedami, to je pajek-past. Google vidi vaše celotno spletno mesto, vendar se bo zaradi smešnosti naloge, ki ste jo postavili pred njo, odrekli in se premaknili na naslednjo stran.

Le redko razmišlja, toda ključnega pomena je, da bo ta pastirska past vplivala na vaše uvrstitve iskanja, tako da bo razredčila ali popolnoma zameglila "temeljni niz" pomembnih strani, ki jih lahko vaše spletno mesto generira in ga lahko postavite v enostavno -odkrijte poti do klikov (glavna in sekundarna navigacija) in jih prilagodite z znanimi iskalnimi in znanimi ključnimi besedami za pretvorbo.

Razmislite o dejanskih dejanskih drevesih

Torej, trik je, da osvetlimo tisto jedro nizov strani, kot so glavni trunk in veje drevesa. To morda predstavlja prva dva izbrana vidika ali kakšen drug mehanizem za "določanje jedrnega nabora strani", ki je usklajen s tem, za kar se ukvarja vaša ključna beseda. Trunk in veje so jedro. To so vaši glavni niz kanoničnih strani, ki niso podvojene, ne glede na to, ali so bile dejansko proizvedene z izbiro obrnjenih parametrov iskanja. (Vaše osrednje strani bi lahko vsebovale le te).

Tudi če lahko vaše spletno mesto ustvari več milijonov strani, je lahko to "jedro" kjerkoli od 100 do 10.000 strani vaš glavni kanonski set. Vsi drugi milijoni večinoma dvojnih različic bi lahko imeli kanonske oznake nazaj do najbližjega ujemajočega URL-ja iz jedra. Ja, morda bo tukaj kakšno delo po meri, če bo vaš platforma za e-poslovanje ne podpira takšnih trikov.

In to je samo eden od pristopov, kako te pajkovske pasti obvladati - pusti vse, da indeksira ... naj pajka pasti še vedno obstajajo ... vendar mora biti Googlu jasno, kaj se dogaja, in kako se korača mimo končno Očitno jedro / pomemben sklop je nepotrebno in nepotrebno delo. Googlovo iskanje z modifikatorjem spletnega mesta bi se moralo vrniti s približno količino kanoničnih osrednjih strani, ki jih zdaj jasno oglašujete, in NE ostalo, kar priznavate, so permutacije z nizko prioriteto.

Najboljše rešitve so vedno tiste, pri katerih lahko spletno mesto ustvari le omejeno količino strani, in Google jih lahko prečka vse v nekaj dneh. Poskusite teči Krikanje žaba proti mestu (z veliko pomnilnika). Če se nikoli ne konča, boste morda imeli past za pajke.

To je kot na katerem koli drevesu, morda je težko, vendar lahko dejansko preštejete liste! Možno je, vendar boste končali. Torej bo tudi Krikanje žaba končalo plazenje na ustrezno končno mesto.

Red je pomemben - zmanjšanje perutacij

Določena hibridizacija faset lahko pomaga pri nadzorovanju situacije, kot je npr. Omogočanje aktiviranja določenih vidikov le v kombinaciji z nekaterimi drugimi vidiki, ki odražajo in uveljavljajo omejitve podatkovnega odnosa. Morda boste to menili kot kombinacijo precej bolj omejene sheme za navigacijo z vidiki iskanja. (Vidiki so predstavljeni posebej na določenih ravneh). Navigacija z vrtanjem navzdol nagiba k uveljavitvi določenega vrstnega reda za parametre niza poizvedb (zamegljene kot mape ali ne).

Svoje URL-je lahko tudi skrbno zgradite, z določenim uveljavljenim vrstnim redom, tako da se ukvarjate samo s kombinacijami namesto s permutacijami. (Poiščite »kombinacije proti permutacijam«.) Če v enem primeru izberete faseto A in nato drugo ploskev B, nato pa še drugo, nato pa drugo ploskev A, bodo URL-ji različni, toda rezultat strani. To je mogoče popraviti samo po abecednem vrstnem redu ali z uporabo vnaprej določenega vrstnega reda za prikaz parametrov na URL-ju.

In končno se spomnite, da se držimo metafore drevesa za hierarhijo mesta, namen drevesa je, da razprostre svoje veje, veje in liste, da ustvarijo površino z listi, da bi najučinkoviteje zajeli sončno svetlobo. Evolucija je oblikovala drevesa, tako da ne nadaljujejo rasti čez točko, kjer najbolj učinkovito zajamejo svetlobo.

Umetniško oblikovanje spletnega mesta

Kot je bilo navedeno na tem članku, je večina strani z iskalnimi obrazci bodisi naredila njihovo spletno mesto nevidno za iskanje ali nemogoče plazenje. Pravi odgovor je nekje v sredini - umetniško oblikovanje. To lahko storite na več načinov: prilagodite datoteko robots.txt in prilagodite nastavitve Googlove iskalne konzole (prej orodja za skrbnike spletnih mest), tako da spremenite metaoznake v viru pogleda.

Rešitve so raznolike in vse bi morale biti usmerjene s ključno strategijo ciljanja ključnih besed in na podlagi tega, kar podpira vaša tehnološka platforma in ki jo lahko izvaja vaša skupina. Za razliko od naravnih dreves, katerih največja oblika je določena z naravnimi omejitvami, lahko obrnjena spletna mesta postanejo nespremenjena in morda jih ne boste nikoli spoznali - razen, da v Googlu nikoli ne delate dobro.