Faceted Search Gone Wild: Efectuarea eficientă a Endeca și Lucene pentru SEO

Căutările făcute erau destul de rare. Acum, pare a fi peste tot! Obținerea detaliilor greșite cu privire la modul în care ați greșit vizibilitatea căutării site-urilor cu această caracteristică este unul dintre cele mai des întâlnite pe site-urile de comerț electronic de astăzi. Ne confruntăm cu aceleași probleme aici și la Flying Point Digital, iar din perspectivă SEO, nu este pur și simplu "să faci pagini mai bune pentru categorii". Deși aceasta este o parte importantă a remedierii, este doar o jumătate din poveste.

Mulțumesc, căpitane

Există suficientă supraveghere sau concepție greșită despre ceea ce se întâmplă cu o căutare fatetică și cât de bună este tehnica de navigare a site-ului pentru SEO, că este timpul să scriem un articol. Este aceeași, veche, poveste accidentală de capcane, dar cu o răsucire. Sau ar trebui să spunem cu noi dimensiuni. Pentru cei care au fost în industria SEO timp, probabil că există o mulțime de informații atât pentru a deduce cât și pentru a rezolva problema. Căutarea cu fațete creează o capcană de păianjeni la fel de mare ca orice combinație de selecții posibile de fațete, atâta timp cât navigația este "prietenoasă pentru căutare".

Problema definită. Soluții implicite. Câini vechi săraci din industria SEO pot pleca. Pentru cei care au auzit sau au de-a face cu acest lucru pentru prima dată, citiți mai departe. Vom trece mai întâi într-un pic de istorie, într-o situație proastă care există în prezent pe aceste site-uri, și apoi, în cele din urmă, vom stabili câteva lovituri largi ale unei soluții posibile.

Vom trece mai întâi într-un pic de istorie, într-o situație proastă care există în prezent pe aceste site-uri, și apoi, în cele din urmă, vom stabili câteva lovituri largi ale unei soluții posibile

Catalogul de milioane de produse

Ori de câte ori există e-commerce cu cataloage mari de milioane sau chiar doar zeci de mii de produse, există date structurate cum ar fi prețul și culoarea și mărimea pentru a descrie totul. Și termenul ales pentru a descrie interfețele utilizator construite în jurul căutării și filtrarea utilizând astfel de descrieri de produs este fațetele.

Căutarea cu fâșie este doar toate filtrele pe care puteți face clic pentru a vă perfecționa căutarea, dincolo de conectarea cuvintelor cheie sau de descoperirea în navigație. Există câteva definiții formale aici și o insensibilitate implicită a comenzilor (care nu este prezentă în navigația de tip drill-down). Gândirea în jos prin meniuri sensibile la comenzi (cum ar fi hyperlink-urile Web) implică o anumită finalitate explorării dvs. Tot ceea ce găsiți este similar cu fișierele de pe un hard disk sau de noduri dintr-un copac. În timp ce este posibil, este mai greu să creezi capcane de păianjen cu navigație de tip drill-down. Este modul în care Web-ul funcționează cel mai mult și este ceea ce a făcut ca Google să caute și să indexeze un astfel de sistem genial și eficient. De asemenea, Google a dat o reputație inechitabilă pentru site-urile dinamice "care nu le plac".

Spider-Capcane și mesaje mixte

De îndată ce se introduce un semn de întrebare adresei URL, site-ul este considerat "dinamic", iar site-ul poate continua pentru totdeauna. Gândiți-vă la o pagină web din calendar unde puteți oricând să faceți clic pe o legătură "a doua zi". Este chiar atât de simplu să creezi o capcană de păianjen. Și nu există existența semnului de întrebare care face ca site-ul să fie dinamic sau rău sau greu de citit de Google în nici un fel. Este faptul că semnul întrebării este prezent pe tipurile de site-uri pe care Google trebuie să le pună la o parte într-un anumit moment, și să continuați cu afacerea de accesare cu crawlere a site-urilor care nu fac lucruri mizerabile. Sau altfel, toate resursele aparent infinite ale Google ar fi cheltuite cu crawlere ca un calendar simplu infinit pe un site mic.

Site-urile dinamice (sau adresele URL) nu sunt în mod inerent rele, așa cum simt unii. Ce este rău este cât de ușor este să faci capcane accidentale de păianjen și să nu realizi niciodată că ai chiar problema. Din partea Google, ei se îndreaptă către următorul site într-un mod realist, așa că nu-și petrec tot timpul în rotirea roților. Google are mult mai multă dorință în aceste zile să se arunce cu grijă în capcane de păianjen, să retragă câteva milioane de pagini și să vadă dacă nu au nici un sens.

În acest articol, ne concentrăm atenția asupra unui anumit tip de URL dinamic de tip "spider-trap", generat de schema de navigare denumită adesea căutarea fațetată. Nume distractiv, fațete. Te face să te gândești la fețele tăiate ale unei bijuterii. Cred că servește e-commerce biz foarte bine și este mai ușor decât să spui căutarea arbitrar parametrizată sau atribuită sau multidimensională sau filtrată în câmp. Nu toate căutările parametrizate sunt fațete. Fatetele tind să se lase în diferite ordine și în permutări aparent infinite - atât ceea ce le face "fațete" și o astfel de capcană deosebit de urâtă.

Endeca și Lucene

Observăm mai des probleme cu site-urile de căutare fatete, deoarece este mai ușor acum să facem site-urile care o folosesc. Această tehnică de navigare a fost considerabil mai rară datorită costului și expertizei necesare pentru a fi instalată și a cerințelor serioase ale serverului de a furniza această caracteristică (cu date exacte) la scară. Asta se schimbă. Indiferent de datele pe care le-ați blocat, un produs precum Endeca (acum, de la Oracle) sau Lucene (un proiect Apache) poate să-l străpungă și să construiască baza de date și indexurile necesare pentru a se conecta la componentele de construire a sitului căutați într-un site.

Endeca a fost de mult timp software-ul comercial clasic pentru întreprinderi, care oferă o căutare fatetică - de aceea îi auziți numele invocate atât atunci când apare acest subiect. Veți plăti pentru încredere, desigur. Dar dacă aveți propria încredere și o puternică echipă de dezvoltatori, există o alternativă alternativă pentru stivele software Lucene (gratuită și open source).

Lucene, așa cum mi sa spus - că nu sunt un dezvoltator de experiență cu acest pachet de software special - face aproape tot ceea ce face Endeca, chiar și cu performanțe la nivel de întreprindere, dar gratuit. La fel ca și în cazul Endeca, există într-adevăr un pachet de produse individuale care lucrează împreună într-un fel de ecosistem. Partea superioară a ecosistemului este Apache Software Foundation (echivalentul companiei), apoi proiectul Lucene (echivalentul produsului) și după aceea, partea care face ca Web UI-ul real să vorbim - fie Solr, fie Elastic Search.

Deci, toate chestiile astea Lucene și Endeca sunt de părere că lucrurile din domeniul infrastructurii IT pe care "The Cloud" trebuie să te împiedice să te descurci și să ai un pic de simț pentru ele. Dacă sunteți o companie mai mică sau pur și simplu nu doriți dureri de implementare și doriți să folosiți cele mai bune practici convenite în afara casetei și să fiți încă considerate a fi clasa de întreprinderi, există întotdeauna Demandware sau gazdă de alte produse care umple nișele între Endeca / Lucene la o extremă și o instanță găzduită de WooCommerce pe WordPress la cealaltă.

În plus, toți jucătorii foarte importanți din domeniul tehnologiei, cum ar fi IBM, Microsoft și SAP, oferă ceva pentru a rezolva și problema de căutare a paginilor web. Endeca și Lucene sunt numele care vin peste și peste atunci când sunteți un SEO care abordează aceste probleme, așa că este o modalitate ușoară de a încadra această discuție de căutare fatete, dar rețineți că există cu adevărat alții pe fiecare capăt al spectrului, și mai multe nenumărate între ele. Dacă, de exemplu, doriți ca cloud-ease de Demandware, dar cu opțiunea de a lua totul în casă într-o zi pentru a începe stratificare în personalizare extremă pentru avantajul competitiv, există Hybris la high-end, și Magento la low-end.

Două scenarii extreme

Dar, la sfârșitul zilei, toate aceste infrastructuri au o anumită formă de căutare fatetică și trebuie să facă față acelorași probleme. În general, căutarea fatetelor se încadrează în una din cele două categorii. Toate milioane de pagini potențiale "făcute posibil" sunt:

  1. Complet invizibil pentru a căuta dintr-un motiv sau altul
  2. Vizibil pentru a căuta, dar creează un site pe care Googlebot nu îl va termina niciodată să acceseze cu crawlere și să exploreze

În primul scenariu, site-urile de căutare cu fațete care sunt invizibile pentru căutare sunt fie invizibile, deoarece interfața cu utilizatorul este construită cu elemente de formă veche CGI și necesită o trimitere sau executare a JavaScript pentru cautarea să fie executată sau este de fapt accesibilă cu crawlere, dar proprietarii de site-uri au "dezactivat" capacitatea Google de a accesa cu crawlere / indexarea site-ului prin robots.txt sau alt mecanism - de obicei pentru că au suferit durerile situației numărul doi.

În situația numărul doi, întregul site de căutare fatetat și toate paginile potențiale pe care le poate genera sunt perfect accesibile cu crawlere de către Google. Cu toate acestea, paginile nu se termină niciodată, iar 99% din accesarea cu crawlere a conținutului este duplicat. Cu alte cuvinte, este o capcană de păianjen. Google vă vede întregul site, dar din cauza ridicolității sarcinii pe care o stabiliți în fața sa, acesta va renunța și va trece pe următorul site.

Sa gândit rar, dar este foarte important că această capcana de păianjen va avea un impact asupra clasamentelor dvs. de căutare, prin diluarea sau complet obfuscarea "setului de bază" al unor pagini importante pe care site-ul dvs. poate / ar trebui să le genereze, care ar putea fi poziționate ușor - descoperiți căile de acces (navigare principală și secundară) și modificați-le pentru a se alinia cu cuvintele cheie de conversie cunoscute și cunoscute.

Gândiți-vă în termenii actualilor copaci din viața reală

Deci, trucul este să lumineze acel set de pagini de bază, cum ar fi trunchiul principal și ramurile unui copac. Acestea reprezintă, probabil, primele două fațete selectate sau un alt mecanism pentru "definirea setului de pagini de bază" care este coordonat cu ceea ce se întâmplă în cercetarea cuvintelor cheie. Trunchiul și sucursalele sunt esențiale. Acestea sunt setul tău principal de pagini canonice non-duplicate - indiferent dacă au fost sau nu produse de fapt prin alegerea unor parametri de căutare fateți. (Este posibil ca paginile dvs. de bază să fie compuse din acestea).

Chiar dacă site-ul dvs. poate genera milioane de pagini mai mult decât acest lucru, acest "nucleu" de oriunde de la 100 la 10.000 de pagini poate fi setul dvs. canonic principal. Toate celelalte milioane de variații în cea mai mare parte duplicate ar putea avea etichete canonice înapoi la cel mai apropiat URL de potrivire din setul de bază. Da, s-ar putea să existe niște lucrări de dezvoltare personalizată aici dacă ești tu platforma de e-commerce nu suportă astfel de trucuri out-of-the-box.

Și aceasta este doar una dintre abordările pentru controlul acestor capcane de păianjen - permiteți-le să indexeze totul ... să lase capcana păianjenului să existe ... dar să fie clar pentru Google despre ce se întâmplă și cum să se târască trecutul în cele din urmă - setul evident de bază / important este o muncă de ultimă oră și, probabil, inutilă. O căutare Google cu un modificator de site-uri ar trebui să revină cu aproximativ cantitatea de pagini de bază canonice pe care acum le publicați în mod clar - și NU restul, pe care le admiteți sunt permutări cu prioritate redusă.

Cele mai bune soluții sunt întotdeauna cele în care doar o cantitate finită de pagini poate fi generată de un site, iar Google poate să se rotească prin toate acestea în câteva zile. Încercați să rulați Screaming Frog împotriva unui site (cu o mulțime de memorie). Dacă nu se termină niciodată, s-ar putea să aveți o capcană de păianjen.

Este ca și cum ar fi pe un anumit copac, ar putea fi dificil, dar ai putea conta la frunze! E posibil, dar vei termina. De asemenea, Screaming Frog va termina cu crawlere un site finit corespunzător.

Ordonează lucrurile - taie permutările

Anumite hibridizare a fațeturilor poate ajuta situația să fie controlată - cum ar fi făcând anumite fațete să poată activa numai în combinație cu anumite alte fațete pentru a reflecta și a impune constrângerile legate de relațiile de date. S-ar putea să vă gândiți la această combinație a schemei de navigație mult mai fină, cu aspecte de căutare. (Fatetele sunt prezentate în mod specific la anumite nivele de forare). Instrucțiunile de navigare înclinate au tendința de a impune o anumită ordine parametrilor dvs. de șir de interogări (dezvăluiți ca dosare sau nu).

De asemenea, puteți să vă construiți cu atenție adresele URL, cu o anumită ordine forțată față de fațete, astfel încât să vă ocupați doar de combinații în loc de permutări. (Faceți o căutare pentru "combinații vs. permutări".) Mai exact, dacă selectați fațetul A și apoi fațetul B într-un singur caz, apoi fațetul B și apoi fațetul A într-altul, adresele URL vor fi diferite, pagina la fel. Aceasta poate fi rezolvată doar prin alfabetizare sau utilizând o anumită ordine prestabilită pentru modul în care parametrii vor apărea pe adresa URL.

Și, în final, amintindu-ne că ne lipim de metafora de arbori pentru ierarhia site-ului, scopul unui copac este să-și întindă ramurile, crengile și frunzele pentru a crea suprafata cu frunze pentru a capta lumina soarelui cel mai eficient. Evoluția a modelat copacii astfel încât să nu continue să crească în afara punctului în care captează lumina cel mai eficient.

Modelarea artistică a unui site

Așa cum sa afirmat la descrierea acestui articol, cele mai multe site-uri de căutare cu fațete fie fac ca site-ul lor să fie invizibil pentru căutări, fie o operă imposibilă de accesare cu crawlere. Răspunsul real este undeva în mijloc - un model artistic. Există numeroase moduri de a elimina acest lucru, de la a efectua ajustări în fișierul dvs. robots.txt pentru a modifica setările Consolei de Căutare Google (anterior Instrumente Google pentru webmasteri), la modificarea etichetelor meta din sursa de vizualizare.

Soluțiile sunt variate și toate ar trebui să fie direcționate de o strategie globală de direcționare a cuvintelor cheie și pe baza a ceea ce este susținut de platforma tehnologică și care poate fi implementat de echipa dvs. Spre deosebire de copacii naturali a căror formă maximă este definită de constrângerile naturii, site-urile cu fațete pot crește fără inhibiție și este posibil să nu știți niciodată - cu excepția faptului că nu au avut rezultate bune la Google.