Faceted Search Gone Wild: Efektívne využíva Endeca & Lucene pre SEO

Facetované vyhľadávanie bolo dosť zriedkavé. Zdá sa, že je to všade! Získanie podrobných informácií o spôsobe, akým sa hádate o viditeľnosti stránok s touto funkciou pri vyhľadávaní, je jednou z vecí, ktoré sú dnes najčastejšie porušované v lokalitách elektronického obchodovania. Stretávame sa s rovnakými problémami znovu a znovu tu v Flying Point Digital, a zo SEO perspektívy, to nie je jednoducho "urobiť lepšiu kategóriu stránok". Hoci to je dôležitá časť opravy, je to len polovica príbehu.

Vďaka, kapitán Obvious

Je tu dosť dohľadu alebo mylná predstava o tom, čo sa deje s fazetovým vyhľadávaním a ako dobrá je táto technika navigácie na webe pre SEO, že je čas, aby sme napísali článok. Je to ten istý, starý, náhodný príbeh pavúkov, ale s krútením. Alebo by sme mali povedať nové dimenzie. Pre tých, ktorí boli v SEO priemysle chvíľu, to je pravdepodobne veľa informácií, ako odvodiť a opraviť problém. Facetované vyhľadávanie vytvára spider-trap ako veľkú kombináciu možných výberov aspektov, pokiaľ je vaša navigácia „priateľská k vyhľadávaniu“.

Problém bol definovaný. Riešenia implicitné. Slaný starí psi zo SEO priemyslu môžu odísť. Pre tých, ktorí o tom práve počúvajú alebo sa s nimi zaoberajú, čítajte ďalej. Najprv vás ponoríme do trochu histórie, zlá situácia, ktorá v súčasnosti na takýchto miestach často existuje, a potom konečne rozloží niekoľko širokých ťahov jedného možného riešenia.

Najprv vás ponoríme do trochu histórie, zlá situácia, ktorá v súčasnosti na takýchto miestach často existuje, a potom konečne rozloží niekoľko širokých ťahov jedného možného riešenia

Katalógy miliónov produktov

Všade, kde sa nachádza elektronický obchod s veľkými katalógmi miliónov, alebo dokonca len desiatkami tisícov produktov, sú tu štruktúrované údaje ako cena a farba a veľkosť. A termín vybraný na opis užívateľských rozhraní vytvorených na základe vyhľadávania a filtrovania pomocou takýchto popisovačov produktov je aspektom.

Fazetované vyhľadávanie je len všetky filtre, na ktoré môžete kliknúť, aby ste vylepšili svoje vyhľadávanie nad rámec kľúčových slov napojenia alebo na navigáciu. Je tu niekoľko formálnych definícií a implikovaná necitlivosť rádu (ktorá nie je prítomná pri navigácii v rozbaľovaní). Vŕtanie nadol cez menu citlivé na objednávku (ako napríklad webové hypertextové odkazy) znamená určitú konečnosť vášho prieskumu. Všetko, čo "nájdete", je analogické so súbormi na pevnom disku alebo uzloch na strome. Aj keď je to možné, je to jednoduchšie vytvoriť pavučiny s navigáciou. Je to, ako Web funguje, a to je to, čo robí Google vyhľadávanie-a-index taký brilantný a efektívny systém. Je to tiež to, čo spoločnosti Google poskytlo nespravodlivú reputáciu dynamických stránok, ktoré sa „nepáčia“.

Spider-pasce a zmiešané správy

Akonáhle je otazník zavedený do URL, stránka je považovaná za "dynamickú" a stránka by mohla pokračovať navždy. Predstavte si webovú stránku kalendára, kde môžete vždy kliknúť na odkaz „nasledujúci deň“. Je to naozaj jednoduché vytvoriť pavučinu. A nie je to existencia otazníka, ktorá robí stránku dynamickou alebo zlou alebo nečitateľnou pre spoločnosť Google. Je to tak, že otazník je prítomný na typoch stránok, ktoré musí spoločnosť Google v určitom okamihu odložiť, a dostať sa k podnikaniu prehľadávania lokalít, ktoré nerobia veci mizerne. Alebo inak, všetky zdanlivo nekonečné zdroje spoločnosti Google by boli použité na prehľadávanie jedného jednoduchého nekonečného kalendára na jednej malej stránke.

Dynamické lokality (alebo adresy URL) nie sú vo svojej podstate zlé, ako sa cítia niektorí ľudia. Čo je zlé, je, aké ľahké je urobiť náhodné pavučiny a nikdy si neuvedomujete, že máte problém. Zo strany spoločnosti Google sa dostávajú na ďalšiu stránku nejakým realistickým spôsobom, takže netrávia svoj čas otáčaním svojich kolies. Google má v týchto dňoch oveľa väčšiu ochotu nepozorovane sa ponoriť do pascí pavúkov, stiahnuť niekoľko miliónov strán a zistiť, či to nedokážu pochopiť.

V tomto článku sa zameriavame na jeden konkrétny typ dynamickej URL spider-trap, ktorý je generovaný navigačnou schémou často nazývanou faceted search. Zábavné slovo, fazety. Robí si myslieť na rezané tváre šperku. Myslím, že slúži e-commerce biz v pohode a je to jednoduchšie, než hovoriť ľubovoľne parametrizované alebo pripísané alebo multidimenzionálne alebo poľa-filtrované vyhľadávanie. Nie všetky parametrizované vyhľadávania sú aspekty. Fazety majú tendenciu dovoliť si ísť v rôznych rádoch a v zdanlivo nekonečných permutáciách - čo ich robí "fazetami" a tak obzvlášť nepríjemnou pavučinou.

Endeca a Lucene

Zaznamenávame častejšie problémy s stránkami s vyhľadávaním, pretože teraz je jednoduchšie vytvárať stránky, ktoré ich používajú. Táto navigačná technika bola značne zriedkavejšia kvôli nákladom a odborným znalostiam, ktoré sú potrebné na jej nastavenie. To sa mení. Bez ohľadu na to, aké sú vaše údaje uzamknuté, niektoré produkty, ako napríklad Endeca (teraz od spoločnosti Oracle) alebo Lucene (projekt Apache), môžu prostredníctvom neho prechádzať a vytvárať databázu a indexy potrebné na pripojenie na komponenty vytvárajúce stránky. vyhľadávať na stránke.

Endeca je už dlhodobo dominantným komerčným softvérom pre podnikové triedy, ktorý ponúka fazetované vyhľadávanie, čo je dôvod, prečo počúvate ich meno, ktoré sa objavilo pri vzniku tejto témy. Samozrejme, zaplatíte za túto dôveru. Ale ak máte vlastnú dôveru a silný vývojársky tím, je tu alternatíva softvérového zásobníka Lucene, ktorý nie je proprietárny (free a open source).

Lucene, ako som povedal, ako nie som vývojár skúseností s týmto konkrétnym softvérovým zásobníkom - robí takmer všetko, čo robí Endeca, dokonca aj pri výkone na podnikovej úrovni, ale zadarmo. Podobne ako Endeca, aj tu je naozaj celá taška jednotlivých produktov, ktoré pracujú spoločne v akomkoľvek ekosystéme. Vrcholom tohto ekosystému je Apache Software Foundation (ekvivalent spoločnosti), potom projekt Lucene (ekvivalent produktu) a potom časť, ktorá robí skutočné webové rozhranie, o ktorom hovoríme - buď Solr alebo Elastic Search.

Takže všetky tieto veci Lucene a Endeca sú nepochybne to, že IT infraštruktúra veci, že "The Cloud", by mal vás od nutnosti riešiť, a mať trochu old-school DIY-pocit na ne. Ak ste menšia spoločnosť, alebo jednoducho nechcete implementovať bolesti a chcete používať najlepšie dohodnuté osvedčené postupy, ktoré sú stále dostupné a stále považované za podnikové triedy, vždy existuje nástroj Demandware alebo rad ďalších produktov, ktoré vyplnia výklenky medzi Endeca / Lucene na jednom extréme a self-hostil inštanciu WooCommerce na WordPress na strane druhej.

Navyše, všetci naozaj veľkí technickí hráči, ako napríklad IBM, Microsoft a SAP, ponúkajú aj niečo na vyriešenie problému s vyhľadávaním na webe. Endeca a Lucene sú mená, ktoré prichádzajú znovu a znovu, keď ste SEO riešenie týchto problémov, takže je to jednoduchý spôsob, ako zarámovať túto diskusiu s fazetovým hľadaním, ale majte na pamäti, že naozaj sú iní na každom konci spektra, a nespočetne viac medzi nimi. Ak napríklad chcete, aby tento cloud-ľahkosť Demandware, ale s možnosťou vziať to všetko v dome raz začať vrstvenie v extrémnom prispôsobenie pre konkurenčné výhody, je tu Hybris na high-end, a Magento na low-end.

Dva extrémne scenáre

Ale na konci dňa, všetky tieto infraštruktúry majú nejakú formu tvárového vyhľadávania a musia sa vysporiadať s rovnakým súborom problémov. Fazetované vyhľadávanie spravidla patrí do jednej z dvoch kategórií. Všetky milióny potenciálnych stránok, ktoré sú „umožnené“, sú buď:

  1. Úplne neviditeľné pre vyhľadávanie z jedného alebo druhého dôvodu
  2. Viditeľné na vyhľadávanie, ale vytvára lokalitu, ktorú Googlebot nikdy neskončí prehľadávaním a prieskumom

V prvom scenári sú stránky s fazetovým vyhľadávaním, ktoré sú pre vyhľadávanie neviditeľné, buď neviditeľné, pretože používateľské rozhranie je vytvorené so starými tvarovanými prvkami formulára CGI a vyžaduje vyhľadávanie alebo vykonanie JavaScriptu na vyhľadávanie, ktoré sa má vykonať, alebo je skutočne prehľadateľné, Vlastníci stránok však „vypnuli“ schopnosť spoločnosti Google prehľadávať / indexovať lokalitu prostredníctvom súboru robots.txt alebo iného mechanizmu - zvyčajne preto, že utrpeli bolesť situácie číslo dva.

V situácii číslo dva, celé hľadané vyhľadávacie stránky a všetky potenciálne stránky, ktoré môže generovať, spoločnosť Google dokonale prehľadáva. Stránky však nikdy nekončia a 99% tohto nekonečného prehľadávania je duplicitný obsah. Inými slovami, je to pavučina. Google vidí vašu celú stránku, ale kvôli smiešnosti úlohy, ktorú ste nastavili, sa vzdá a presunie sa na ďalšiu stránku.

Zriedka premýšľal, ale kriticky dôležité, je to, že tento pavúk-pasca bude mať vplyv na vaše rebríčky vyhľadávania tým, že zriedi alebo úplne zahmlievanie "jadra" dôležitých stránok, ktoré vaše stránky môžu / mali by byť generovanie, ktoré by mohli byť umiestnené v ľahko-to -discover-click-paths (hlavná a sekundárna navigácia) a upravte ich tak, aby boli zarovnané so známymi vyhľadávanými a známymi konverzujúcimi kľúčovými slovami.

Myslite v zmysle skutočných stromov reálneho života

Trik je teda rozsvietiť jadro súboru stránok, ako je hlavný kmeň a vetvy stromu. Tieto možno predstavujú prvé dve vybrané aspekty alebo nejaký iný mechanizmus pre "definovanie jadra sady stránok", ktorý je koordinovaný s tým, čo váš výskum kľúčových slov je pre. Kmeň a konáre sú jadrom. Sú to vaše hlavné súbory kanonických non-duplicitných stránok - či už boli alebo neboli vyrobené vlastnou voľbou vyhľadávaných parametrov. (Vaše hlavné stránky by sa z nich mohli dobre skladať).

Aj keď vaše stránky môžu generovať milióny ďalších stránok, toto "jadro" kdekoľvek od 100 do 10 000 stránok môže byť váš hlavný kanonický súbor. Všetky ostatné milióny prevažne duplicitných variácií by mohli mať kánonické značky naspäť na najbližšiu URL z jadra. Jo, môže tu byť nejaký vlastný vývoj práce tu, ak váš platforma elektronického obchodu nepodporuje takéto triky.

A to je len jeden z prístupov, ako dostať tieto pavúky pod kontrolu - nechať všetko indexovať ... nechať pavúk-pasca naďalej existovať ... ale byť jasné, Google o tom, čo sa deje, a ako sa každý plaziť okolo nakoniec- Zrejmé jadro / dôležitý súbor je over-the-top a možno zbytočná práca. Vyhľadávanie Google s modifikátorom stránok by sa malo vrátiť približne s množstvom kanonických základných stránok, ktoré sú teraz jasne inzerované - a NIE zvyšok, ktorý pripúšťate, sú permutácie s nízkou prioritou.

Najlepšie riešenia sú vždy tie, kde môže byť stránka generovaná iba obmedzeným množstvom stránok a spoločnosť Google ich môže v priebehu niekoľkých dní otáčať. Skúste spustiť Kričí žaba (s dostatkom pamäte). Ak to nikdy neskončí, môžete mať pavučinu.

Je to ako na každom danom strome, mohlo by to byť ťažké, ale mohli by ste skutočne počítať listy! Je to možné, ale skončíte. Tak isto bude Kričiaci žaba dokončiť prehľadávanie správne konečnej stránky.

Poradie záležitostí - orezanie permutácií

Určitá hybridizácia aspektov môže pomôcť dostať situáciu pod kontrolu - ako napríklad, aby sa niektoré aspekty mohli aktivovať len v kombinácii s určitými ďalšími aspektmi, aby odrážali a presadzovali obmedzenia vzťahu medzi údajmi. Môžete to považovať za kombináciu omnoho podrobnejšej navigačnej schémy s vyhľadávacími aspektmi. (Fazety sú prezentované konkrétne na určitých úrovniach drill-down). Navigácia v rozbaľovacej ponuke má tendenciu presadiť určitý poriadok do parametrov reťazca dopytu (obfuscated ako priečinky alebo nie).

Vaše adresy URL môžete tiež starostlivo skonštruovať s určitým vynúteným poradím aspektov, aby ste sa zaoberali iba kombináciami namiesto permutácií. (Do vyhľadávania pre "kombinácie vs permutácie.") Konkrétne, ak vyberiete fazetu A a potom fazetu B v jednom prípade, ale potom fazetu B a potom fazetu A v inej, adresy URL budú odlišné, ale výsledný stránka rovnaká. Toto je možné opraviť len pomocou abecedy alebo pomocou niektorého prednastaveného poradia, ako sa majú parametre zobraziť na adrese URL.

A nakoniec si pamätám, že sa držíme stromovej metafory pre hierarchiu stránok, cieľom stromu je rozprestrieť jeho konáre, vetvičky a listy, aby sa vytvorila povrchová plocha s listami, ktoré zachytia slnečné svetlo najefektívnejšie. Evolúcia má tvar stromov tak, aby nepokračovali v raste za bodom, kde najúčinnejšie zachytávajú svetlo.

Umelecké tvarovanie stránky

Ako je uvedené na opining tohto článku, väčšina tvárou vyhľadávacích stránkach buď urobiť svoje stránky neviditeľné hľadať alebo nemožné plaziť fuška. Skutočnou odpoveďou je niekde uprostred - umelecký tvar. Existuje mnoho spôsobov, ako to odstrániť, od úprav súboru robots.txt až po vylepšenie nastavení konzoly Google Search Console (predtým nástroja Nástroje správcu webu) až po zmenu metaznačiek vo vašom zdroji zobrazení.

Riešenia sú rôznorodé a všetky by mali byť riadené zastrešujúcou stratégiou zacielenia kľúčových slov a založené na tom, čo podporuje vaša technologická platforma a ktoré môže váš tím implementovať. Na rozdiel od prirodzených stromov, ktorých maximálny tvar je definovaný obmedzeniami prírody, môžu stránky s fasetami rásť bez zábran, a možno to nikdy nepoznáte - s výnimkou toho, že v spoločnosti Google nikdy nebudete dobre vystupovať.