Sfaccettato Search Gone Wild: efficacemente sfruttando Endeca e Lucene per SEO

La ricerca sfaccettata era piuttosto rara. Ora sembra essere ovunque! Ottenere dettagli sbagliati su come si svolge la ricerca-visibilità dei siti con questa funzionalità è una delle cose più comuni nei siti di e-commerce oggi. Incontriamo gli stessi problemi più e più volte qui a Flying Point Digital, e da una prospettiva SEO, non è semplicemente "creare pagine di categoria migliori". Anche se questa è una parte importante della correzione, è solo metà della storia.

Grazie, capitano ovvio

C'è abbastanza svista o idea sbagliata di quello che sta succedendo con la ricerca sfaccettata e quanto sia buona questa tecnica di navigazione del sito potrebbe essere per SEO, che è ora che abbiamo scritto un articolo. È la stessa storia antica, accidentale di trappole di ragni, ma con una svolta. Oppure, dovremmo dire con nuove dimensioni. Per coloro che sono stati nel settore SEO per un po ', questo è probabilmente un sacco di informazioni per inferire e risolvere il problema. La ricerca sfaccettata crea una trappola spider grande quanto ogni combinazione di possibili selezioni di faccette, purché la navigazione sia "search friendly".

Problema definito. Soluzioni implicite. I vecchi cani salati dell'industria SEO possono andare via. Per coloro che hanno appena sentito parlare di questo argomento per la prima volta, continua a leggere. Vi immergeremo per prima cosa in un po 'di storia, la brutta situazione che spesso esiste attualmente su tali siti, e infine esponiamo alcuni tratti di una possibile soluzione.

Cataloghi di milioni di prodotti

Ovunque ci sia l'e-commerce con grandi cataloghi di milioni, o anche solo decine di migliaia di prodotti, ci sono dati strutturati come prezzo, colore e dimensioni per descrivere tutto. E il termine scelto per descrivere le interfacce utente costruite attorno alla ricerca e al filtro usando tali descrittori di prodotti è sfaccettato.

La ricerca sfaccettata è costituita da tutti i filtri su cui è possibile fare clic per perfezionare la ricerca, oltre alle parole chiave di plug-in o al drill down sulla navigazione. Esistono alcune definizioni formali e un'insensibilità implicita dell'ordine (che non è presente nella navigazione drill-down). Eseguire il drill down attraverso i menu sensibili agli ordini (come i collegamenti ipertestuali Web) implica una certa finalità alla tua esplorazione. Tutto ciò che "trovi" è analogo ai file su un disco rigido o nodi in un albero. Mentre è possibile, è semplicemente più difficile creare trappole a ragno con la navigazione drill-down. È come il Web funziona principalmente, ed è ciò che ha reso Google search-and-index un sistema così brillante ed efficace. È anche ciò che ha dato a Google una reputazione ingiusta per i siti dinamici "non piacenti".

Trappole a ragno e messaggi misti

Non appena viene introdotto un punto interrogativo sull'URL, il sito è considerato "dinamico" e il sito potrebbe continuare all'infinito. Pensa a una pagina web del calendario in cui puoi sempre fare clic sul link "next day". È davvero così semplice creare una trappola spider. E non è l'esistenza del punto interrogativo che rende il sito dinamico o non valido o illeggibile per Google in alcun modo. È che il punto interrogativo è presente sui tipi di siti che Google deve mettere da parte a un certo punto e andare avanti con l'attività di scansione di siti che non rendono le cose infelici. Altrimenti, tutte le risorse apparentemente infinite di Google sarebbero state spese per la scansione di un semplice calendario infinito su un piccolo sito.

I siti dinamici (o URL) non sono intrinsecamente cattivi, come alcuni ritengono. Ciò che è male è quanto sia facile creare spider-trappole accidentali e non rendersi mai conto di avere persino il problema. Dal lato di Google, stanno semplicemente entrando nel prossimo sito in modo realistico, quindi non passano tutto il loro tempo a girare le ruote. In questi giorni, Google ha molta più voglia di immergersi intrepidamente in trappole a ragno, di ridurre di qualche milione di pagine e vedere se non riescono a capirci qualcosa.

In questo articolo, ci stiamo concentrando su un particolare tipo di spider-trap URL dinamico generato dallo schema di navigazione spesso chiamato ricerca sfaccettata. Parola divertente, sfaccettature. Ti fa pensare alle facce tagliate di un gioiello. Immagino che serva perfettamente il biz dell'e-commerce ed è più facile che dire una ricerca arbitrariamente parametrizzata o attribuita o multidimensionale o filtrata sul campo. Non tutte le ricerche parametrizzate sono sfaccettate. Le faccette tendono a lasciarsi andare in ordini diversi e in permutazioni apparentemente infinite - sia ciò che li rende "sfaccettature" sia una trappola di ragni particolarmente sgradevole.

Endeca e Lucene

Notiamo i problemi con i siti di ricerca sfaccettati più spesso, perché ora è più semplice creare siti che lo utilizzano. Questa tecnica di navigazione era molto più rara a causa dei costi e delle competenze necessarie per la sua installazione, e dei requisiti del server fastidioso di fornire questa funzionalità (con dati accurati) su larga scala. Sta cambiando. Indipendentemente da ciò che i tuoi dati sono bloccati, alcuni prodotti come Endeca (ora, Oracle) o Lucene (un progetto Apache) possono attraversarlo e costruire il database e gli indici necessari per connettersi ai componenti di costruzione del sito che sono a strati sfaccettati cerca in un sito.

Endeca è da tempo il software commerciale di classe enterprise dominante per offrire la ricerca sfaccettata, motivo per cui si sente invocare il proprio nome così tanto quando si verifica questo argomento. Pagherai per quella confidenza, ovviamente. Ma se hai la tua fiducia e un forte team di sviluppatori, c'è l'alternativa di stack software Lucene non proprietario (gratuito e open source).

Come mi è stato detto, Lucene, poiché non sono uno sviluppatore esperto con questo particolare stack di software, fa quasi tutto quello che fa Endeca, anche con prestazioni a livello aziendale, ma gratuitamente. Come con Endeca, c'è davvero un'intera gamma di singoli prodotti che lavorano insieme in una sorta di ecosistema. La parte superiore di questo ecosistema è la Apache Software Foundation (equivalente della società), quindi il progetto Lucene (equivalente del prodotto) e, successivamente, la parte che rende effettiva l'interfaccia utente Web di cui stiamo parlando: Solr o Ricerca elastica.

Quindi tutta questa roba di Lucene e Endeca è certamente quella roba dell'infrastruttura IT che "The Cloud" dovrebbe impedire all'utente di avere a che fare, e avere un po 'di sentimento di vecchia scuola. Se sei una società più piccola, o semplicemente non vuoi dolori nell'implementazione, e vuoi utilizzare le best practice più concordate e pronte per essere considerate di classe enterprise, c'è sempre Demandware o host di altri prodotti che riempiono le nicchie tra Endeca / Lucene ad un estremo e un'istanza self-hosted di WooCommerce su WordPress dall'altro.

Inoltre, tutti i giocatori tecnologicamente più grandi, come IBM, Microsoft e SAP, offrono qualcosa per risolvere anche il problema della ricerca di sfaccettature Web. Endeca e Lucene sono i nomi che emergono continuamente quando sei un SEO che affronta questi problemi, quindi questo è un modo semplice per inquadrare questa discussione di ricerca sfaccettata, ma tieni presente che ci sono davvero altri a ogni estremità dello spettro, e innumerevoli altri in-between. Se ad esempio si desidera la facilità cloud di Demandware, ma con l'opzione di prendere tutto in casa un giorno per iniziare la stratificazione in estrema personalizzazione per un vantaggio competitivo, c'è Hybris nella fascia alta e Magento nella fascia bassa.

Due scenari estremi

Ma alla fine della giornata, tutte queste infrastrutture hanno una qualche forma di ricerca sfaccettata e devono affrontare lo stesso insieme di problemi. In generale, la ricerca sfaccettata rientra in una delle due categorie. Tutti i milioni di pagine potenzialmente "rese possibili" sono:

  1. Completamente invisibile per la ricerca a causa di un motivo o di un altro
  2. Visibile per la ricerca, ma crea un sito che Googlebot non finirà mai di esplorare ed esplorare

Nel primo scenario, i siti di ricerca sfaccettati che sono invisibili alla ricerca sono invisibili perché l'interfaccia utente è costruita con elementi di forma CGI vecchio stile e richiede un invio o l'esecuzione di JavaScript per la ricerca da eseguire, oppure è effettivamente eseguibile per la ricerca, ma i proprietari del sito hanno "disattivato" la capacità di Google di eseguire la scansione / indicizzazione del sito tramite robots.txt o qualche altro meccanismo, in genere perché hanno sofferto i problemi della situazione numero due.

Nella situazione numero due, l'intero sito di ricerca sfaccettato e tutte le potenziali pagine che può generare sono perfettamente esplorabili da Google. Tuttavia, le pagine non finiscono mai e il 99% di tale ricerca senza fine è un contenuto duplicato. In altre parole, è una trappola ragno. Google vede tutto il tuo sito, ma a causa della ridicolaggine del compito che hai impostato prima, si arrenderà e passerà al prossimo sito.

Raramente abbiamo pensato, ma è di fondamentale importanza, che questa trappola spider avrà un impatto sul ranking delle ricerche diluendo o del tutto offuscando il "core set" di pagine importanti che il tuo sito può / dovrebbe generare che potrebbe essere posizionato in modo facile -Scoprire percorsi di clic (navigazione principale e secondaria) ed essere ottimizzato per allinearsi alle parole chiave di conversione conosciute e di ricerca conosciute.

Pensa ai termini degli alberi reali della vita reale

Quindi, il trucco è quello di illuminare quel nucleo di pagine, come il tronco principale ei rami di un albero. Questi rappresentano forse le prime due sfaccettature selezionate o qualche altro meccanismo per "definire l'insieme principale di pagine" che è coordinato con ciò che la ricerca per parole chiave sta andando. Tronco e rami sono fondamentali. Sono il tuo set principale di pagine canoniche non duplicate, indipendentemente dal fatto che siano state effettivamente prodotte scegliendo parametri di ricerca sfaccettati. (Le tue pagine principali potrebbero essere incluse in queste).

Anche se il tuo sito può generare milioni di pagine in più, questo "nucleo" di qualsiasi da 100 a 10.000 pagine può essere il tuo set canonico principale. Tutti gli altri milioni di varianti per lo più duplicate potrebbero essere in possesso di tag canonici sull'URL di corrispondenza più simile del set principale. Sì, potrebbe esserci qualche lavoro di sviluppo personalizzato qui se il tuo piattaforma di e-commerce non supporta questi trucchi pronti all'uso.

E questo è solo uno degli approcci per ottenere queste trappole spider sotto controllo - lascia che tutto indicizzi ... lascia che la trappola spider continui a esistere ... ma sii chiaro a Google su cosa sta succedendo e su come qualsiasi strisciante sorvegli alla fine- core / importante-set ovvio è un lavoro esagerato e forse non necessario. Una ricerca Google con un modificatore di sito dovrebbe tornare con approssimativamente la quantità di pagine core canoniche che ora stai chiaramente pubblicizzando e NON il resto, che stai ammettendo sono permutazioni a bassa priorità.

Le migliori soluzioni sono sempre quelle in cui solo un numero limitato di pagine può essere generato da un sito e Google può girarle tutte in pochi giorni. Prova a correre Rana urlante contro un sito (con molta memoria). Se non finisce mai, potresti avere una trappola a ragno.

È come su un dato albero, potrebbe essere difficile, ma potresti davvero contare le foglie! È possibile, ma finirai. Così anche Screaming Frog finirà di strisciare un sito correttamente finito.

Questioni di ordine: ridurre le permutazioni

Determinate ibridazioni di sfaccettature possono aiutare a tenere sotto controllo la situazione, come rendere certi sfaccettature solo in grado di attivarsi in combinazione con alcune altre sfaccettature per riflettere e applicare i vincoli di relazione dati. Si potrebbe considerare questa una combinazione dello schema di navigazione drill-down molto più finito con le facce di ricerca. (Le sfaccettature sono presentate in modo specifico a determinati livelli di drill-down). La navigazione drill-down tende a imporre un determinato ordine ai parametri della stringa di query (offuscati come cartelle o meno).

Puoi anche costruire i tuoi URL con attenzione, con un certo ordine forzato sulle faccette, in modo che tu abbia a che fare solo con le combinazioni anziché con le permutazioni. (Esegui una ricerca per "combinazioni vs permutazioni".) Specificamente, se selezioni il facet A e poi il facet B in un caso, ma il facet B e il facet A in un altro, gli URL saranno diversi, ma il risultato pagina uguale. Questo può essere risolto semplicemente alfabetizzando o usando un ordine prestabilito su come i parametri devono apparire sull'URL.

E infine ricordando che stiamo attaccando alla metafora dell'albero per la gerarchia del sito, lo scopo di un albero è di allargare rami, ramoscelli e foglie per creare un'area superficiale con foglie per catturare la luce del sole in modo più efficiente. L'evoluzione ha modellato gli alberi in modo che non continuino a crescere oltre il punto in cui catturano la luce in modo più efficiente.

Modellare artisticamente un sito

Come affermato nell'opinione di questo articolo, la maggior parte dei siti di ricerca sfaccettati rendono il loro sito invisibile alla ricerca o un compito impossibile da gattonare. La vera risposta è da qualche parte nel mezzo: una formazione artistica. Esistono molti modi per eliminarlo, dall'apportare modifiche al file robots.txt al perfezionamento delle impostazioni di Search Console di Google (in precedenza Strumenti per i Webmaster), alla modifica dei meta tag nel tuo view-source.

Le soluzioni sono varie e tutte devono essere dirette da una strategia di targeting per parole chiave globale e basata su ciò che è supportato dalla tua piattaforma tecnologica e implementabile dal tuo team. A differenza degli alberi naturali la cui forma massima è definita dai vincoli della natura, i siti web sfaccettati possono diventare disinibiti e non si può mai sapere, tranne che per i risultati migliori su Google.