Faceted Search Gone Wild: efektivně využívá Endeca & Lucene pro SEO

Fazetované vyhledávání bývalo dost vzácné. Zdá se, že je to všude! Získání podrobných informací o tom, jak si můžete prohlédnout viditelnost stránek s touto funkcí pro vyhledávání, je jednou z věcí, které jsou dnes nejčastěji porušovány na stránkách elektronického obchodování. Setkáváme se se stejnými problémy znovu a znovu v Flying Point Digital, a ze SEO perspektivy, není to prostě "udělat lepší stránky kategorie". Ačkoli to je důležitá součást opravy, je to jen polovina příběhu.

Díky, kapitáne Obvious

Tam je dost dohledu nebo mylná představa o tom, co se děje s hledáním na tvářích a jak dobrá je tato technika pro navigaci na webu pro SEO, že je čas, abychom napsali článek. Je to stejný, starý, náhodný příběh pavoučí past, ale se zkroucením. Nebo bychom měli říci s novými dimenzemi. Pro ty, kteří byli v SEO průmyslu chvíli, to je pravděpodobně spousta informací, jak odvodit a opravit problém. Facetované vyhledávání vytváří pavoučí past jako velkou kombinaci možných výběrů faset, pokud je vaše navigace „přátelská k vyhledávání“.

Problém je definován. Řešení implicitní. Slaní staří psi ze SEO průmyslu mohou odejít. Pro ty, kteří o tom právě slyšeli nebo se s nimi zabývali, čtěte dál. Nejdřív vás ponoříme do trochu historie, špatná situace, která na těchto místech v současné době často existuje, a nakonec konečně rozloží několik širokých tahů jednoho možného řešení.

Katalogy milionů

Všude tam, kde je elektronický obchod s velkými katalogy milionů, nebo dokonce jen desítky tisíc výrobků, jsou strukturovaná data, jako je cena a barva a velikost, popsat vše. Termín zvolený pro popis uživatelských rozhraní postavených na vyhledávání a filtrování pomocí takových popisovačů produktů je aspektem.

Fazetované vyhledávání je pouze všechny filtry, na které můžete kliknout, abyste své vyhledávání vylepšili, kromě klíčových slov pro připojení nebo procházení navigací. Tam jsou některé formální definice a implikovaná necitlivost pořadí (to není přítomné v drill-down navigaci). Vrtání dolů prostřednictvím menu citlivých na zakázku (jako jsou webové hypertextové odkazy) znamená určitou konečnost vašeho průzkumu. Vše, co najdete, je analogické se soubory na pevném disku nebo uzlech ve stromu. I když je to možné, je to jednodušší vytvořit pavoučí pasti s navigací dolů. Je to, jak Web funguje, a to je to, co Google vyhledávání-a-index takový geniální a efektivní systém. Je to také to, co poskytlo společnosti Google nespravedlivou reputaci pro dynamické weby, které nemají rádi.

Pavoučí pasti a smíšené zprávy

Jakmile je do adresy URL vložen otazník, stránky jsou považovány za „dynamické“ a web může pokračovat navždy. Přemýšlejte o webové stránce kalendáře, kde můžete vždy kliknout na odkaz „Další den“. Je to opravdu jednoduché vytvořit pavoučí past. A není to existence otazníku, který činí web dynamickým nebo špatným nebo nečitelným pro společnost Google. Je to, že otazník je přítomen na ty typy stránek, které Google musí odložit v určitém okamžiku, a dostat se k podnikání procházení stránek, které nedělají věci mizerně. Nebo jinak, všechny zdánlivě nekonečné zdroje Googlu by byly stráveny procházením, že jeden jednoduchý nekonečný kalendář na jednom malém místě.

Dynamické stránky (nebo adresy URL) nejsou ve své podstatě špatné, jak se cítí někteří lidé. Co je špatné, je, jak snadné je vytvořit náhodné pasti a nikdy si neuvědomíte, že máte problém. Ze strany společnosti Google se dostávají na další stránky nějakým realistickým způsobem, takže netráví celý svůj čas točením svých kol. Google má v těchto dnech mnohem větší ochotu ponořit se do pavoučích pastí, stáhnout několik milionů stránek a zjistit, zda to nedokáže pochopit.

V tomto článku se zaměřujeme na jeden konkrétní typ dynamické URL spider-trap, který je generován navigačním schématem často nazývaným faceted search. Zábavné slovo, aspekty. Přemýšlíte o řezaných tvářích šperku. Myslím, že slouží e-commerce biz v pořádku a je to jednodušší, než říct libovolně parametrizované nebo připsané nebo multidimensional nebo pole-filtrované vyhledávání. Ne všechny parametrizované vyhledávání jsou aspekty. Fazety mají tendenci dovolit si jít v různých řádech a ve zdánlivě nekonečných permutacích - jak z nich dělají „fazety“, tak z takové zvlášť ošklivé pavoučí pasti.

Endeca a Lucene

Častěji si všimneme problémů s stránkami s vyhledávanými stránkami, protože je nyní snazší vytvářet weby, které je používají. Tato navigační technika byla značně vzácnější vzhledem k nákladům a odborným znalostem potřebným k jejímu nastavení a požadavkům na výkonný server při poskytování této funkce (s přesnými údaji) v měřítku. To se mění. Bez ohledu na to, jaká jsou vaše data uzamčena, některý produkt jako Endeca (nyní od společnosti Oracle) nebo Lucene (projekt Apache) může projít skrz něj a vytvořit databázi a indexy potřebné pro připojení ke komponentám vytvářejícím stránky, na kterých je vrstva fasetována. vyhledávat na webu.

Endeca je již dlouho dominantním komerčním softwarem podnikové třídy, který nabízí fazetované vyhledávání, což je důvod, proč uslyšíte, jak se jejich jméno objevuje v době, kdy toto téma vzniká. Samozřejmě zaplatíte za tu důvěru. Ale pokud máte vlastní důvěru a silný vývojářský tým, existuje alternativa softwarového zásobníku Lucene, který není proprietární (free a open source).

Lucene, jak jsem řekl, protože nejsem zkušeným vývojářem s tímto konkrétním softwarovým stackem - dělá téměř všechno, co dělá Endeca, dokonce i na úrovni podnikové úrovně, ale zdarma. Stejně jako u Endecy existuje opravdu celá taška jednotlivých produktů, které pracují společně v jakémkoli ekosystému. Vrcholem tohoto ekosystému je Apache Software Foundation (ekvivalent společnosti), pak projekt Lucene (ekvivalent produktu) a poté část, která dělá vlastní webové rozhraní, o kterém mluvíme - buď Solr nebo Elastic Search.

Takže všechny tyto věci Lucene a Endeca jsou nepochybně to, že IT infrastruktura věci, které "The Cloud" by měl vás od nutnosti řešit, a mít trochu old-school DIY-pocit na ně. Pokud jste menší společnost, nebo prostě nechcete implementovat bolesti a chcete používat ty nejvhodnější osvědčené postupy, které jsou stále na trhu, a stále považujete za podnikovou třídu, vždy existuje nástroj Demandware nebo řada dalších produktů, které vyplňují výklenky mezi Endeca / Lucene na jednom extrému a samo-hostované instanci WooCommerce na WordPress na straně druhé.

Navíc, všichni opravdu velcí tech hráči, jako je IBM, Microsoft a SAP, nabízejí něco k řešení problému s webovým hledáním. Endeca a Lucene jsou jména, která přicházejí znovu a znovu, když jste SEO řešení těchto problémů, takže je to snadný způsob, jak rámovat tuto fasetovou diskusi o hledání, ale mějte na paměti, že tam jsou opravdu jiní na každém konci spektra, a nespočet dalších mezi tím. Pokud například chcete, aby cloud-Demandware, ale s možností vzít to všechno v domě jednou začít vrstvit v extrémním přizpůsobení pro konkurenční výhodu, je Hybris na high-end, a Magento na low-end.

Dva extrémní scénáře

Ale na konci dne mají všechny tyto infrastruktury určitou formu hledání a musí se zabývat stejným souborem problémů. Fazetované vyhledávání obecně spadá do jedné ze dvou kategorií. Všechny miliony potenciálních stránek, které jsou „umožněny“, jsou buď:

Úplně neviditelný pro vyhledávání z jednoho důvodu nebo jiného
Viditelné pro vyhledávání, ale vytváří web, který Googlebot nikdy nedokončí procházení a prozkoumávání

V prvním scénáři jsou stránky s fazetovým vyhledáváním, které jsou pro vyhledávání neviditelné, buď neviditelné, protože uživatelské rozhraní je vytvořeno se staromódními prvky formuláře CGI a vyžaduje vyhledávání nebo provádění JavaScriptu pro vyhledávání, nebo je ve skutečnosti procházeno, Vlastníci stránek ale „vypnuli“ schopnost Google procházet / indexovat stránky prostřednictvím souboru robots.txt nebo nějakého jiného mechanismu - obvykle proto, že utrpěli bolest v situaci číslo dvě.

V situaci číslo dvě, celá stránka hledaného webu a všechny potenciální stránky, které mohou generovat, jsou pro Google dokonale prohledávatelné. Stránky však nikdy nekončí a 99% tohoto nekonečného procházení je duplicitní obsah. Jinými slovy, je to past na pavouky. Google vidí celý web, ale kvůli absurdnosti úkolu, který jste nastavili, se vzdá a přesune se na další stránku.

Zřídka přemýšlel, ale kriticky důležité, je to, že tento pavouk-past bude mít dopad na vaše žebříčky vyhledávání tím, že zředí nebo zcela zmást "základní soubor" důležitých stránek, které vaše stránky mohou / měly by být generování, které by mohly být umístěny v snadno-to -discover-click-paths (hlavní a sekundární navigace) a být upraven tak, aby byl v souladu se známými vyhledávanými a známými konverzačními klíčovými slovy.

Zamyslete se nad skutečnými stromy reálného života

Takže trik spočívá v rozsvícení této základní sady stránek, jako je hlavní kmen a větve stromu. Ty možná představují první dvě vybrané aspekty nebo nějaký jiný mechanismus pro "definování jádra sady stránek", který je koordinován s tím, co vaše klíčové slovo výzkum je pro. Kmen a větve jsou jádrem. Jsou to vaše hlavní sada kanonických non-duplicitních stránek - bez ohledu na to, zda byly nebo nebyly skutečně vytvořeny výběrem parametrů s hledáním na tvářích. (Vaše hlavní stránky by mohly být z těchto stránek obsaženy).

I když vaše stránky mohou generovat miliony dalších stránek, může být toto "jádro" od 100 do 10 000 stránek vaším hlavním kanonickým souborem. Všechny ostatní miliony převážně duplicitních variant by mohly mít kanonické značky zpět na nejbližší adresu URL z jádra. Jo, mohlo by zde být nějaké vlastní vývojové práce, pokud váš e-commerce platforma nepodporuje takové triky.

A to je jen jeden z přístupů, jak dostat tyto pavoučí pasti pod kontrolu - nechat vše indexovat ... nechat pavoukovy pasti i nadále existovat ... ale být jasné, Google o tom, co se děje, a jak jakékoli procházení kolem nakonec- zřejmým jádrem / důležitým souborem je over-the-top a možná zbytečná práce. Vyhledávání Google s modifikátorem stránek by se mělo vrátit s přibližně množstvím kanonických základních stránek, které nyní zřetelně inzerujete - a ne zbytek, který přijímáte, jsou permutace s nízkou prioritou.

Nejlepší řešení jsou vždy ta, kde může být webem generováno pouze omezené množství stránek a společnost Google je může v průběhu několika dnů otáčet. Zkuste spustit Křičí žába (s dostatkem paměti). Pokud nikdy nedokončí, můžete mít pavoučí past.

Je to jako na jakémkoliv daném stromě, mohlo by to být obtížné, ale mohli byste skutečně počítat listy! Je to možné, ale skončíte. Tak také bude Křičí žába dokončit procházení správně konečné stránky.

Záležitosti objednávek - řezání permutací

Určitá hybridizace aspektů může pomoci dostat situaci pod kontrolu - například aby se některé aspekty mohly aktivovat pouze v kombinaci s některými dalšími aspekty, aby odrážely a prosazovaly omezení vztahující se k datům. Můžete to považovat za kombinaci mnohem podrobnějšího navigačního schématu s podrobnostmi vyhledávání. (Fazety jsou prezentovány specificky na určitých úrovních drill-down). Navigace sestupem dolů má za následek vynucení určitého příkazu do parametrů řetězce dotazu (obfuscated jako složky nebo ne).

Adresy URL můžete také konstruovat opatrně, s určitým vynuceným uspořádáním na fasety, takže se jedná pouze o kombinace namísto permutací. (Proveďte vyhledávání „kombinací vs. permutací.“) Konkrétně, pokud vyberete aspekt A a pak aspekt B v jednom případě, ale pak aspekt B a pak aspekt A v jiném, budou adresy URL odlišné, ale výsledný stránka stejná. To může být opraveno pouhým abecedním uspořádáním nebo použitím nějakého přednastaveného pořadí, jak se mají parametry zobrazovat na adrese URL.

A konečně si pamatujeme, že se držíme stromové metafory pro hierarchii stránek. Účelem stromu je rozložit jeho větve, větvičky a listy, aby se vytvořila povrchová plocha s listy, které zachytí sluneční světlo nejúčinněji. Evoluce má tvar stromů tak, aby nepokračovaly v pěstování za bodem, v němž zachytávají světlo nejúčinněji.

Umělecké tvarování stránky

Jak bylo uvedeno na začátku tohoto článku, většina tváří vyhledávacích stránkách buď jejich stránky neviditelné pro vyhledávání nebo nemožné procházení fuška. Skutečná odpověď je někde uprostřed - umělecké formování. Existuje mnoho způsobů, jak tuto možnost vypnout, od úpravy souboru robots.txt až po úpravy nastavení konzoly Google Search Console (dříve nástroje pro webmastery) až po změnu metaznaček ve zdroji zobrazení.

Tato řešení jsou různá a všechny by měly být řízeny zastřešující strategií cílení klíčových slov a na základě toho, co je podporováno vaší technologickou platformou a realizovatelné vaším týmem. Na rozdíl od přírodních stromů, jejichž maximální tvar je definován omezeními přírody, mohou být stránky s fasetami bez zábran a možná to nikdy nevíte - s výjimkou toho, že v Googlu nebudete dobře hrát.