Faceted Search Gone Wild: hatékonyan hasznosítja az Endeca & Lucene-t a SEO-hez

A homályos keresés elég ritka volt. Most úgy tűnik, hogy mindenhol! Az e szolgáltatással kapcsolatos webhelyek keresési láthatóságának megfertőzésével kapcsolatos részletek megértése az egyik leggyakoribb probléma az e-kereskedelmi webhelyeken. Ugyanazokat a problémákat találjuk meg újra és újra itt a Flying Point Digital-on, és SEO-perspektívából ez nem egyszerűen „jobb kategóriájú oldalak”. Bár ez a javítás fontos része, csak a történet fele.

Kösz, Captain kapitány

Van elég felügyelet vagy félreértés arról, hogy mi történik a csiszolt kereséssel, és mennyire jó lehet a webhely navigációs technikája a SEO számára, hogy itt az ideje, hogy írjunk egy cikket. Ez ugyanaz, öreg, véletlen pók-csapda történet, de egy csavarral. Vagy új dimenziókkal kell mondanunk. Azok számára, akik egy ideje a SEO-i iparágban voltak, ez valószínűleg rengeteg információ, hogy mind a következtetést, mind a problémát megoldja. A csiszolt keresés egy olyan pók-csapdát hoz létre, amely olyan nagy, mint a lehetséges szelekciók minden kombinációja, amennyiben a navigáció „keresőbarát”.

Meghatározott probléma. Megoldások implicit módon. A SEO-ipar sós öreg kutyái el tudnak menni. Azok számára, akik most először hallanak vagy foglalkoznak ezzel, olvass tovább. Először egy kis történetbe merítünk, a rossz helyzetet, amely gyakran létezik az ilyen webhelyeken, majd végül néhány széles körű elrendezést egy lehetséges megoldásból.

Először egy kis történetbe merítünk, a rossz helyzetet, amely gyakran létezik az ilyen webhelyeken, majd végül néhány széles körű elrendezést egy lehetséges megoldásból

Millió termékkatalógusok

Bárhol van az e-kereskedelem, amely nagy katalógusokkal rendelkezik millió, vagy akár csak több tízezer termékkel, strukturált adatok, mint például az ár és a szín és a méret, hogy mindent leírjanak. Az ilyen termékleírók használatával a keresés és szűrés köré épített felhasználói felületek leírására kiválasztott kifejezés oldalak.

A homlokzati keresés csak az összes olyan szűrő, amelyre kattintva finomíthatja a keresést, a kulcsszavakat vagy a navigáció fúrását követően. Itt vannak néhány formális definíciók, és egy implicit megbízhatósági érzékenység (ami nem szerepel a fúrógépen). A megrendelésre érzékeny menükben (például a webes hiperhivatkozások) lefelé történő fúrás bizonyos végtelenséget jelent a feltáráshoz. Minden, amit "találsz", analóg a merevlemezen található fájlokhoz vagy egy fa csomópontjaihoz. Bár lehetséges, egyszerűen nehezebb a pók-csapdákat létrehozni a fúrógéppel. Ez az, hogy a web hogyan működik leginkább, és ez az, ami a Google keresési és indexelési rendszerét egy ilyen ragyogó és hatékony rendszerré tette. Ez is az, ami a Google-nak tisztességtelen hírnevet adott a dinamikus webhelyek „nem tetszése” miatt.

Pók-csapdák és vegyes üzenetek

Amint egy kérdőjel jelenik meg az URL-címben, a webhely „dinamikusnak” tekinthető, és a webhely örökre folytatódhat. Gondolj egy olyan naptárlapra, ahol mindig egy "következő nap" linkre kattintasz. Ez tényleg olyan egyszerű, hogy hozzon létre egy pók-csapdát. És nem a kérdőjel létezése teszi a webhelyet dinamikusnak vagy rossznak vagy olvashatatlannak a Google számára. Ez az, hogy a kérdőjel a Google által valamilyen ponton elhelyezett webhelytípusokon jelen van, és folytassa a webhelyek feltérképezésével kapcsolatos tevékenységeket, amelyek nem teszik a dolgokat nyomorultnak. Vagyis a Google minden látszólag végtelen erőforrását egy kis végtelenített naptár tárolására fordítaná egy kis webhelyen.

A dinamikus webhelyek (vagy URL-ek) nem olyanok, mint amilyenek az emberek. Mi a rossz az, hogy milyen egyszerű a véletlenszerű pókcsapdák készítése, és soha nem veszik észre, hogy még a probléma is van. A Google oldaláról csak reális módon jutnak el a következő oldalra, így nem töltik el az idejüket a kerekeik forgatására. A Google-nak most sokkal több hajlandósága van arra, hogy bánatosan merüljön el a pók-csapdákba, húzza vissza néhány millió oldalt, és nézze meg, hogy nem érzik-e semmit.

Ebben a cikkben egy olyan dinamikus URL-pók-csapda típusára összpontosítunk, amelyet a navigációs rendszer által generált gyakran csiszolt keresés jelent. Szórakoztató szó, oldalak. Gondolkodik az ékszer vágott arcaira. Azt hiszem, hogy az e-kereskedelem biz csak finom, és könnyebb, mint önkényesen paraméterezett vagy attribútált vagy többdimenziós vagy mezőszűrő keresés. Nem minden paraméterezett keresés oldal. A homlokzatok lehetővé teszik maguknak, hogy különböző sorrendben és látszólag végtelen permutációkban járjanak el - mindkettőjüket "szemszögből" és egy ilyen különösen csúnya pók-csapdából.

Endeca és Lucene

Gyakran észrevehetjük, hogy a keresési oldalak többszörösek, mivel könnyebb most olyan webhelyeket készíteni, amelyek azt használják. Ez a navigációs technika sokkal ritkább volt, mivel a költségeket és a szakértelem szükséges volt a beállításhoz, valamint a bonyolult kiszolgálói követelményeknek, hogy ezt a szolgáltatást (pontos adatokkal) szállítsák skálán. Ez változik. Függetlenül attól, hogy milyen adatai vannak bezárva, néhány olyan termék, mint az Endeca (most az Oracle-től) vagy Lucene (Apache projekt), át tudja söpörni, és kiépítheti az adatbázisot és indexeket, amelyek ahhoz szükségesek, hogy csatlakozzanak a webhelyépítő komponensekhez, amelyek rétegeltek keresés egy webhelyre.

Endeca már régóta a domináns vállalati osztályú kereskedelmi szoftver, amely sokoldalú keresést kínál - ezért hallja a nevüket annyira, amikor ez a téma felmerül. Természetesen fizetni fogod a bizalomért. De ha önbizalmad és erős fejlesztői csapatod van, akkor a nem saját tulajdonú (szabad és nyílt forráskódú) Lucene szoftvercsomag alternatívája van.

Lucene, amint azt mondtam - mivel nem vagyok tapasztalatfejlesztő ezzel a konkrét szoftvercsomaggal - szinte mindent tesz az Endeca, még a vállalati szintű teljesítmény mellett is, de ingyenes. Az Endeca-hoz hasonlóan az egész termék egy olyan zsákja, amely egyfajta ökoszisztémában működik együtt. Ennek az ökoszisztémának a teteje az Apache Software Foundation (a vállalat megfelelője), majd a Lucene projekt (a termék megfelelője), és azt követően az a rész, amely a tényleges webes felhasználói felületről beszél, vagy Solr vagy Elastic Search.

Tehát mindezek Lucene és Endeca cuccok azt állítják, hogy az informatikai infrastruktúra, amit a "The Cloud" elvár, hogy megtartsa Önt, hogy foglalkozzon velük, és van egy kis régi iskolai DIY-érzésük. Ha kisebb cég vagy, vagy egyszerűen nem akarja a végrehajtási fájdalmat, és a leginkább elfogadott legjobb gyakorlatokat szeretné használni a dobozon kívül, és még mindig vállalati osztálynak tekintik, mindig van Demandware, vagy számos más termék, amely kitölti az Endeca / Lucene közti réseket az egyik szélsőséges helyen és a WooCommerce önálló házigazdája a WordPressen.

Mindezek mellett az igazán nagy technikai játékosok, mint például az IBM, a Microsoft és az SAP is kínálnak valamit, ami megoldja a webes átfogó keresési problémát is. Endeca és Lucene azok a nevek, amelyek újra és újra megjelennek, amikor Ön egy SEO, amely ezeket a problémákat kezeli, így ez egy egyszerű módja annak, hogy ezt a csiszolt keresési vitát megfogalmazzuk, de ne feledje, hogy valóban vannak mások a spektrum minden végén, és számtalan több között. Ha például azt szeretné, hogy a Demandware felhő-könnyű legyen, de azzal a lehetőséggel, hogy a házban valahol elinduljon, hogy elkezdje a rétegződést a rendkívüli testreszabás érdekében a versenyelőny számára, ott van a Hybris a high-end és a Magento az alacsonyabb szinten.

Két extrém forgatókönyv

De a nap végén mindezen infrastruktúrák valamilyen formájú, homályos kereséssel rendelkeznek, és ugyanazokkal a problémákkal kell foglalkozniuk. Általában a csiszolt keresés két kategóriába tartozik. A potenciális oldalak milliói mindegyike "lehetséges":

  1. Teljesen láthatatlan, hogy egy vagy másik ok miatt kereshessen
  2. Látható keresésre, de olyan webhelyet hoz létre, amelyet a Googlebot soha nem fejez ki és nem keres

Az első forgatókönyv szerint a láthatatlan keresési oldalak láthatatlanok, mert a felhasználói felület régi vágású CGI-formátumú elemekkel van kialakítva, és a kereséstől be kell nyújtani vagy végrehajtani a JavaScript végrehajtását, vagy valóban feltérképezhető, de a webhelytulajdonosok "kikapcsolták" a Google képességét arra, hogy a webhelyet robots.txt vagy más mechanizmus segítségével feltérképezzék / indexeljék - általában azért, mert a második számú helyzet fájdalmát szenvedték.

A második számú helyzetben a Google teljes egészében feltérképezhető a teljes oldal és az összes lehetséges oldal. Az oldalak azonban véget nem érnek, és a soha véget nem érő feltérképezés 99% -a ismétlődő tartalom. Más szóval, ez egy pók-csapda. A Google az egész webhelyet látja, de azért, mert az elé állított feladat nevetségessé válik, feladja és továbblép a következő helyre.

Félelmetesen gondoltam, de kritikusan fontos, hogy ez a pók-csapda hatással lesz a keresési rangsorolásra, ha hígítja vagy teljesen megzavarja a fontos oldalak "alapkészletét", amelyeket az Ön webhelye könnyen generálhat. -kereső útvonalak (fő- és másodlagos navigáció), és az ismert keresett és ismert konvertáló kulcsszavakkal való összehangoláshoz.

Gondolj bele a tényleges valós élet fákba

Szóval, a trükk az, hogy felgyújtja az alaplap-készletet, mint a fának törzsét és ágait. Ezek talán az első két kiválasztott oldalt vagy valamilyen más mechanizmust jelentik, amelyek "meghatározzák az alapvető oldalkészletet", amelyet összehangolnak a kulcsszókutatással. A törzs és az ágak maguk. Ezek a kanonikus nem-ismétlődő oldalak mesterkészlete - függetlenül attól, hogy ténylegesen előállították-e őket a faceted keresési paraméterek kiválasztásával. (Lehet, hogy ezek az alapvető oldalak ezekből állnak).

Még akkor is, ha webhelye több millió oldalt hozhat létre, ez a 100–10000 oldalas „magja” lehet a mester-kanonikus készlet. A több millió többnyire többszörözött variáció kanonikus címkékkel rendelkezhet vissza a legközelebbi megfelelő URL-hez a magkészletből. Igen, itt lehet egyéni fejlesztés, ha Ön e-kereskedelmi platform nem támogatja a dobozon kívüli trükköket.

És ez csak az egyik megközelítés, amellyel ezek a pókok csapdái irányíthatók - hagyja, hogy minden index ... hagyja, hogy a pók-csapda továbbra is fennálljon ... de világos legyen a Google számára, hogy mi folyik itt, és hogy a csúszás a végül a nyilvánvaló mag / fontos készlet túlnyomó és talán felesleges munka. A webhely-módosítóval rendelkező Google-keresőnek vissza kell térnie a mostanában egyértelműen reklámozott kanonikus főoldalak összegével, és a többi, amelybe felvették, alacsony prioritású permutációk.

A legjobb megoldások mindig olyanok, ahol csak egy véges mennyiségű oldalt hozhat létre egy webhely, és a Google néhány nap múlva mindezeket át tudja fonni. Próbálja meg futtatni Screaming béka a helyszín ellen (rengeteg memória). Ha soha nem fejeződik be, lehet, hogy van egy pók csapda.

Olyan, mint bármelyik fán, nehéz lehet, de ténylegesen számíthatod a leveleket! Lehetséges, de befejezed. Szóval a Screaming Frog befejezi a helyes véges oldal bejárását.

Rendelje meg a dolgokat - az áthidalások leállítását

Az egyes aspektusok bizonyos hibridizációja segíthet a helyzet ellenőrzésében - például, hogy bizonyos szempontokat csak bizonyos más aspektusokkal kombinálva aktiválhatjuk, hogy tükrözzék és érvényesítsék az adat-kapcsolati korlátokat. Lehet, hogy ezt a sokkal végesebb, lefelé haladó navigációs séma kombinációjának tekintheti meg a keresési szempontokkal. (A fázisokat kifejezetten bizonyos fúrási szinteken mutatják be). A fúrás lefelé történő navigáció egy bizonyos sorrendet érvényesít a lekérdezési karaktersorozat paramétereire (mappákban vagy nem).

Az URL-eket is gondosan, bizonyos kényszerített sorrendben is elkészítheti, hogy csak a permutációk helyett kombinációkat kezeljen. (A "kombinációk és permutációk keresése".) Pontosabban, ha kiválasztja az "A" oldalt, majd egy esetben a "B" oldalt, de a "B" oldalt, majd az "A" -ot a másikban, az URL-ek eltérőek lesznek, de a következő ugyanaz. Ezt csak alfabetizálással vagy bizonyos előre beállított sorrendben lehet rögzíteni, hogy a paraméterek hogyan jelennek meg az URL-en.

És végül emlékszem arra, hogy a fa-metaforához ragaszkodunk a webhely-hierarchiához, egy fa célja, hogy elágazja ágait, gallyait és leveleit, hogy a felületeket a leghatékonyabban rögzítse. Az evolúció a fákat úgy alakította ki, hogy azok ne nyúljanak ki azon a ponton, ahol a leghatékonyabban megfogják a fényt.

Egy oldal művészi formázása

Amint azt a cikk megnyitása során megállapítottuk, a legtöbb elkeseredett keresési oldal láthatatlanná teszi a webhelyet a keresésre, vagy lehetetlenné teszi a bejárást. Az igazi válasz valahol a közepén van - egy művészi alakítás. Sokféleképpen húzhatja ezt le, a robots.txt fájl módosításától a Google keresési konzol (korábban webmestereszközök) beállításainak megvilágításához, a metaadók megváltoztatásához a megtekintési forrásban.

A megoldások változatosak, és mindent átfogó kulcsszócélzási stratégiának kell irányítania, és azon alapulnia kell, amit a technológiai platform támogat, és amelyet a csapat hajt végre. Ellentétben a természetes fákkal, amelyek maximális alakját a természet korlátai határozzák meg, a csiszolt webhelyek akadályozhatatlanok lehetnek, és soha nem fogják tudni - kivéve, ha a Google-ban sosem teljesítenek.