Faceted Search Gone Wild: Αποτελεσματική μόχλευση της Endeca & Lucene για SEO

Η πολύπλοκη αναζήτηση ήταν αρκετά σπάνια. Τώρα, φαίνεται να είναι παντού! Η απόκτηση των λεπτομερειών σχετικά με το πώς διερευνάτε την ορατότητα αναζήτησης σε ιστότοπους με αυτήν τη λειτουργία είναι ένα από τα πράγματα που συνήθως σπάνε σε ιστότοπους ηλεκτρονικού εμπορίου σήμερα. Αντιμετωπίζουμε τα ίδια ζητήματα ξανά και ξανά εδώ στο Flying Point Digital και από μια άποψη SEO δεν είναι απλώς "να γίνουν καλύτερες σελίδες κατηγοριών". Αν και αυτό είναι ένα σημαντικό κομμάτι της επιδιόρθωσης, είναι μόνο η μισή ιστορία.

Ευχαριστώ, καπετάνιος

Υπάρχει αρκετή επίβλεψη ή παρανόηση του τι συμβαίνει με την πολύπλευρη αναζήτηση και πόσο καλή είναι αυτή η τεχνική πλοήγησης του ιστότοπου για το SEO, ότι είναι καιρός να γράψουμε ένα άρθρο. Είναι η ίδια, παλιά, τυχαία ιστορία αράχνης, αλλά με μια συστροφή. Ή, πρέπει να πούμε με νέες διαστάσεις. Για όσους έχουν ήδη βρεθεί στη βιομηχανία SEO, αυτό είναι πιθανότατα αρκετές πληροφορίες τόσο για την εξαγωγή όσο και για την επίλυση του προβλήματος. Η ευδιάκριτη αναζήτηση δημιουργεί μια παγίδα αράχνης τόσο μεγάλη όσο κάθε συνδυασμός πιθανών επιλογών επιφάνειας, αρκεί η πλοήγηση σας να είναι φιλική προς την αναζήτηση.

Το πρόβλημα έχει καθοριστεί. Οι λύσεις είναι σιωπηρές. Μπορείτε αλμυρά παλιά σκυλιά της βιομηχανίας SEO μπορεί να πάει μακριά. Για όσους μόλις ακούσουν ή ασχολούνται με αυτό για πρώτη φορά, διαβάστε παρακάτω. Θα σας βυθίσουμε πρώτα σε ένα κομμάτι της ιστορίας, στην κακή κατάσταση που υπάρχει επί του παρόντος σε τέτοιους ιστότοπους και, στη συνέχεια, θα παρουσιάσουμε μερικές ευρείες κτυπήσεις μιας πιθανής λύσης.

Θα σας βυθίσουμε πρώτα σε ένα κομμάτι της ιστορίας, στην κακή κατάσταση που υπάρχει επί του παρόντος σε τέτοιους ιστότοπους και, στη συνέχεια, θα παρουσιάσουμε μερικές ευρείες κτυπήσεις μιας πιθανής λύσης

Καταλόγους εκατομμυρίων προϊόντων

Όπου υπάρχει ηλεκτρονικό εμπόριο με μεγάλους καταλόγους εκατομμυρίων ή ακόμα και μόνο δεκάδων χιλιάδων προϊόντων, υπάρχουν δομημένα δεδομένα όπως η τιμή και το χρώμα και το μέγεθος για να τα περιγράψουμε όλα. Και ο όρος που επιλέγεται για να περιγράψει τις διεπαφές χρήστη που κατασκευάζονται γύρω από την αναζήτηση και το φιλτράρισμα χρησιμοποιώντας τέτοιους περιγραφείς προϊόντων είναι οι όψεις.

Η λεπτομερή αναζήτηση είναι μόνο όλα τα φίλτρα στα οποία μπορείτε να κάνετε κλικ για να βελτιώσετε την αναζήτησή σας, πέρα ​​από τις λέξεις-κλειδιά που συνδέονται με την σύνδεση ή την εξάσκηση στην πλοήγηση. Υπάρχουν εδώ ορισμένοι τύποι ορισμών και σιωπηρή παραγνώριση παραγγελιών (που δεν υπάρχει στην πλοήγηση). Η ανίχνευση κάτω από τα μενού που είναι ευαίσθητα σε παραγγελίες (όπως οι υπερσυνδέσεις Ιστού) συνεπάγεται οριστική τελικότητα στην εξερεύνησή σας. Όλα όσα βρίσκετε είναι ανάλογα με τα αρχεία σε σκληρό δίσκο ή κόμβους σε δέντρο. Ενώ είναι δυνατό, είναι απλώς πιο δύσκολο να δημιουργήσετε παγίδες με αράχνη με πλοήγηση. Είναι ο τρόπος με τον οποίο λειτουργεί το Web ως επί το πλείστον, και αυτό έκανε το Google search-and-index ένα τέτοιο λαμπρό και αποτελεσματικό σύστημα. Είναι επίσης αυτό που έχει δώσει στην Google μια άδικη φήμη για τους δυναμικούς ιστότοπους που δεν τους αρέσουν.

Spider-παγίδες και μικτά μηνύματα

Μόλις εισαχθεί ένα ερωτηματικό στη διεύθυνση URL, ο ιστότοπος θεωρείται "δυναμικός" και ο ιστότοπος θα μπορούσε να συνεχίσει για πάντα. Σκεφτείτε μια ιστοσελίδα ημερολογίου όπου μπορείτε πάντα να κάνετε κλικ σε μια σύνδεση "επόμενης ημέρας". Είναι πραγματικά τόσο εύκολο να δημιουργήσετε μια παγίδα αράχνης. Και δεν υπάρχει η ύπαρξη του ερωτηματικού που καθιστά τον ιστότοπο δυναμικό ή κακό ή δυσανάγνωστο στην Google με οποιονδήποτε τρόπο. Είναι ότι το ερωτηματικό είναι παρόντες στους τύπους ιστοτόπων που η Google πρέπει να βάλει στην άκρη σε κάποιο σημείο και να προχωρήσει με τη δραστηριότητα της ανίχνευσης ιστότοπων που δεν κάνουν τα πράγματα άθλια. Ή αλλιώς, όλοι οι φαινομενικά απεριόριστοι πόροι του Google θα ξοδευτούν ανιχνεύοντας ένα απλό απλό ημερολόγιο σε ένα μικρό ιστότοπο.

Οι δυναμικές τοποθεσίες (ή οι διευθύνσεις URL) δεν είναι εγγενώς κακές, όπως αισθάνονται κάποιοι. Αυτό που είναι κακό είναι πόσο εύκολο είναι να κάνετε τυχαίες παγίδες και να μην συνειδητοποιήσετε ποτέ ότι έχετε ακόμη και το πρόβλημα. Από την πλευρά της Google, μπαίνουν στην επόμενη τοποθεσία με κάποιο ρεαλιστικό τρόπο, έτσι δεν ξοδεύουν όλο τον χρόνο τους γυρίζοντας τους τροχούς τους. Η Google έχει πολύ μεγαλύτερη προθυμία αυτές τις μέρες να βουτήξει ατρόμητα σε παγίδες αράχνης, να τραβήξει πίσω μερικές εκατομμύρια σελίδες και να δει αν δεν μπορούν να το καταλάβουν.

Σε αυτό το άρθρο, εστιάζουμε σε έναν συγκεκριμένο τύπο δυναμικής αράχνης παγίδευσης URL όπως δημιουργείται από το σύστημα πλοήγησης που ονομάζεται συχνά πολύπλευρη αναζήτηση. Διασκεδαστική λέξη, όψεις. Σας κάνει να σκεφτείτε τα κομμένα πρόσωπα ενός κοσμήματος. Υποθέτω ότι εξυπηρετεί το e-commerce biz και είναι ευκολότερο από το να λέει αυθαίρετα παραμετροποιημένη ή αποδιδόμενη ή πολυδιάστατη ή πεδίου φιλτραρισμένη αναζήτηση. Δεν είναι όλες οι παραμετροποιημένες αναζητήσεις ως όψεις. Οι προσόψεις τείνουν να επιτρέπουν στον εαυτό τους να πηγαίνουν σε διαφορετικές παραγγελίες και σε φαινομενικά άπειρες μεταλλάξεις - και αυτό που τους κάνει «προσόψεις» και μια τέτοια ιδιαίτερα δυσάρεστη αράχνη-παγίδα.

Endeca και Lucene

Παρατηρούμε πιο συχνά προβλήματα με τις πολύπλευρες τοποθεσίες αναζήτησης, επειδή είναι πλέον εύκολο να δημιουργήσουμε ιστότοπους που το χρησιμοποιούν. Αυτή η τεχνική πλοήγησης ήταν πολύ πιο σπάνια λόγω του κόστους και της εμπειρογνωμοσύνης που απαιτήθηκε για την τοποθέτησή της, καθώς και των απαιτήσεων του ογκώδους διακομιστή για την παροχή αυτού του χαρακτηριστικού (με ακριβή δεδομένα) σε κλίμακα. Αυτό αλλάζει. Ανεξάρτητα από το τι είναι κλειδωμένα τα δεδομένα σας, κάποιο προϊόν όπως το Endeca (τώρα από την Oracle) ή το Lucene (έργο Apache) μπορεί να σκουπίσει μέσα από αυτό και να δημιουργήσει τη βάση δεδομένων και τα ευρετήρια που απαιτούνται για τη σύνδεση με τα στοιχεία της δομής τοποθεσίας αναζήτηση σε έναν ιστότοπο.

Η Endeca είναι από καιρό το κυρίαρχο εμπορικό λογισμικό επιχειρηματικής κατηγορίας για προσφορά πολύπλευρης αναζήτησης - γι 'αυτό ακούτε το όνομά της που επικαλείται τόσο πολύ όταν προκύψει αυτό το θέμα. Θα πληρώσετε για αυτή την εμπιστοσύνη, φυσικά. Αλλά αν έχετε τη δική σας εμπιστοσύνη και μια ισχυρή ομάδα προγραμματιστών, υπάρχει η εναλλακτική στοίβα λογισμικού Lucene (δωρεάν και ανοιχτού κώδικα).

Lucene, όπως μου είπαν - καθώς δεν είμαι προγραμματιστής εμπειρίας με αυτή τη συγκεκριμένη στοίβα λογισμικού - κάνει σχεδόν όλα τα πράγματα που κάνει η Endeca, ακόμη και με επιδόσεις σε επίπεδο επιχείρησης, αλλά δωρεάν. Όπως και με την Endeca, υπάρχει πραγματικά μια ολόκληρη τσάντα αρπαγής μεμονωμένων προϊόντων που συνεργάζονται σε ένα είδος οικοσυστήματος. Η κορυφή αυτού του οικοσυστήματος είναι το Apache Software Foundation (ισοδύναμο της εταιρείας), το έργο Lucene (ισοδύναμο προϊόντος) και μετά από αυτό το μέρος που κάνει το πραγματικό Web UI που μιλάμε - είτε Solr είτε Elastic Search.

Έτσι όλα αυτά τα πράγματα Lucene και Endeca είναι ομολογουμένως ότι τα έργα υποδομής πληροφορικής που "Το σύννεφο" υποτίθεται ότι σας εμποδίζουν να αντιμετωπίζετε και έχετε ένα κομμάτι ενός old-school DIY-αισθάνεστε σε αυτά. Εάν είστε μια μικρότερη εταιρεία ή απλά δεν θέλετε πόνους στην εφαρμογή και θέλετε να χρησιμοποιείτε τις πιο συμφωνημένες βέλτιστες πρακτικές εκτός χαρτοφυλακίου και εξακολουθείτε να θεωρείτε επιχειρηματική τάξη, υπάρχει πάντα Demandware ή ένα πλήθος άλλων προϊόντων που γεμίζουν τις θέσεις μεταξύ Endeca / Lucene στο ένα άκρο και μια αυτο-φιλοξενούμενη παρουσία του WooCommerce στο WordPress στο άλλο.

Επιπλέον, όλοι οι πραγματικά μεγάλοι τεχνικοί παίκτες, όπως η IBM, η Microsoft και η SAP, προσφέρουν κάτι για την επίλυση του προβλήματος της πολύπλευρης αναζήτησης στο Web. Endeca και Lucene είναι τα ονόματα που εμφανίζονται ξανά και ξανά όταν είστε ένα SEO που αντιμετωπίζει αυτά τα προβλήματα, οπότε είναι ένας εύκολος τρόπος να πλαισιώσετε αυτήν την πολύπλευρη συζήτηση αναζήτησης, αλλά να θυμάστε ότι υπάρχουν πραγματικά άλλοι σε κάθε άκρο του φάσματος, και αμέτρητες περισσότερες μεταξύ τους. Εάν, για παράδειγμα, θέλετε το cloud-ease της Demandware, αλλά με την επιλογή να το παίρνετε όλα στο σπίτι κάποια μέρα για να αρχίσετε την layering σε ακραίες προσαρμογές για ανταγωνιστικό πλεονέκτημα, υπάρχει το Hybris στο high-end και το Magento στο low-end.

Δύο εξαιρετικά σενάρια

Αλλά στο τέλος της ημέρας, όλες αυτές οι υποδομές έχουν κάποια μορφή πολύπλευρης αναζήτησης και πρέπει να αντιμετωπίσουν την ίδια σειρά προβλημάτων. Γενικά, η πολύπλευρη αναζήτηση εμπίπτει σε μία από τις δύο κατηγορίες. Όλα τα εκατομμύρια πιθανών σελίδων που «έγιναν δυνατές» είναι είτε:

  1. Εντελώς αόρατο για αναζήτηση εξαιτίας ενός ή του άλλου λόγου
  2. Είναι ορατό για αναζήτηση, αλλά δημιουργεί έναν ιστότοπο που το Googlebot δεν θα ολοκληρώσει ποτέ την ανίχνευση και την εξερεύνηση

Στο πρώτο σενάριο, οι πολύπλευρες τοποθεσίες αναζήτησης που είναι αόρατες για αναζήτηση είναι είτε αόρατες επειδή η διεπαφή χρήστη είναι χτισμένη με παλιομοδίτικα στοιχεία της φόρμας CGI και απαιτεί την υποβολή ή την εκτέλεση JavaScript για να εκτελεστεί η αναζήτηση ή είναι πραγματικά ανιχνεύσιμη, αλλά οι ιδιοκτήτες ιστότοπων έχουν απενεργοποιήσει την ικανότητα της Google να ανιχνεύει / ευρετηρεί τον ιστότοπο μέσω του robots.txt ή κάποιου άλλου μηχανισμού - συνήθως επειδή υπέστη τους πόνους της κατάστασης δεύτερης.

Στην κατάσταση δύο, ολόκληρη η πολύπλευρη τοποθεσία αναζήτησης και όλες οι πιθανές σελίδες που μπορεί να δημιουργήσει είναι απόλυτα crawlable από την Google. Ωστόσο, οι σελίδες δεν τελειώνουν ποτέ, και το 99% αυτής της ατελείωτης ανίχνευσης είναι διπλό περιεχόμενο. Με άλλα λόγια, είναι μια παγίδα αράχνης. Το Google βλέπει ολόκληρο τον ιστότοπό σας, αλλά λόγω της γελοιοποίησης της εργασίας που έχετε θέσει ενώπιόν του, θα παραιτηθεί και θα μετακινηθεί στον επόμενο ιστότοπο.

Σπάνια σκεφτήκαμε αλλά είναι πολύ σημαντικό ότι αυτή η παγίδα θα επηρεάσει τις ταξινομήσεις αναζήτησης με την αραίωση ή την πλήρη απαξίωση του "βασικού συνόλου" των σημαντικών σελίδων που μπορεί / θα πρέπει να δημιουργήσει ο ιστότοπός σας, οι οποίες θα μπορούσαν να τοποθετηθούν εύκολα -ανακαλύψτε τις διαδρομές κλικ (κύρια & δευτερεύουσα πλοήγηση) και να τροποποιήσετε για να ευθυγραμμιστεί με τις γνωστές λέξεις-κλειδιά αναζήτησης και γνωστών μετατροπών.

Σκεφτείτε με όρους πραγματικών δέντρων πραγματικής ζωής

Έτσι, το τέχνασμα είναι να ανάβει αυτό το κεντρικό σύνολο σελίδων, όπως ο κύριος κορμός και τα κλαδιά ενός δέντρου. Αυτά ίσως αντιπροσωπεύουν τις δύο πρώτες επιλεγμένες πτυχές ή κάποιο άλλο μηχανισμό για τον "ορισμό του πυρήνα των σελίδων" που συντονίζεται με το τι κάνει η έρευνα λέξεων-κλειδιών σας. Ο κορμός και τα κλαδιά είναι πυρήνας. Είναι το κύριο σύνολο των κανονικών μη διπλών σελίδων - ανεξάρτητα από το αν παράγονται ή όχι στην πραγματικότητα, επιλέγοντας πολύπλευρες παραμέτρους αναζήτησης. (Οι βασικές σας σελίδες μπορεί να αποτελούνται από αυτές).

Ακόμη και αν ο ιστότοπός σας μπορεί να δημιουργήσει εκατομμύρια σελίδες από αυτό, αυτός ο "πυρήνας" οπουδήποτε από 100 έως 10.000 σελίδες μπορεί να είναι το κύριο κανονικό σετ. Όλα τα άλλα εκατομμύρια επικαλυπτόμενων παραλλαγών θα μπορούσαν να έχουν τις κανονικές ετικέτες πίσω στην πιο κοντινή αντιστοιχία διεύθυνσης URL από το σετ πυρήνα. Ναι, μπορεί να υπάρχουν κάποιες εργασίες προσαρμοσμένης ανάπτυξης εδώ, αν σας πλατφόρμα ηλεκτρονικού εμπορίου δεν υποστηρίζει τέτοιου είδους τεχνάσματα.

Και αυτό είναι μόνο μία από τις προσεγγίσεις για τον έλεγχο αυτών των παγίδων αράχνη-αφήστε τα πάντα να δείξουν ... αφήστε την παγίδα-αράχνη να συνεχίσει να υπάρχει ... αλλά να είστε σαφής στην Google για το τι συμβαίνει και πώς κάθε crawling παρελθόν- το προφανές πυρήνα / σημαντικό σύνολο είναι η υπερβολική και ίσως περιττή εργασία. Μια αναζήτηση Google με έναν τροποποιητή ιστότοπου θα πρέπει να επανέλθει με περίπου την ποσότητα των κανονικών σελίδων πυρήνα που διαφημίζετε τώρα σαφώς - και ΟΧΙ τα υπόλοιπα, τα οποία παραδέχεστε ως μεταλλαγές χαμηλής προτεραιότητας.

Οι καλύτερες λύσεις είναι πάντα εκείνες όπου μόνο ένας πεπερασμένος αριθμός σελίδων μπορεί να δημιουργηθεί από έναν ιστότοπο και η Google μπορεί να τις περιστρέψει μέσα σε λίγες μέρες. Δοκιμάστε να τρέξετε Screaming Frog εναντίον ενός ιστότοπου (με άφθονη μνήμη). Εάν δεν τελειώνει ποτέ, μπορεί να έχετε μια παγίδα αράχνης.

Είναι σαν σε κάθε δέντρο, μπορεί να είναι δύσκολο, αλλά θα μπορούσατε να μετρήσετε τα φύλλα! Είναι δυνατό, αλλά θα τελειώσετε. Επίσης, το Screaming Frog θα ολοκληρώσει την ανίχνευση ενός κατάλληλα πεπερασμένου χώρου.

Παραγγείλετε τα θέματα-Κοπή των παραλλαγών

Ορισμένες υβριδοποιήσεις πτυχών μπορούν να βοηθήσουν την κατάσταση να τεθεί υπό έλεγχο - όπως κάνοντας ορισμένες όψεις μόνο να ενεργοποιηθούν σε συνδυασμό με ορισμένες άλλες πτυχές για να αντικατοπτρίζουν και να επιβάλουν τους περιορισμούς των σχέσεων δεδομένων. Μπορεί να θεωρήσετε αυτόν τον συνδυασμό ενός πολύ πιο πεπερασμένου συστήματος πλοήγησης με κατακόρυφη αναζήτηση. (Οι επιφάνειες παρουσιάζονται συγκεκριμένα σε ορισμένα επίπεδα διάτρησης). Η πλοήγηση με τρυπάνι τείνει να επιβάλλει μια συγκεκριμένη σειρά στις παραμέτρους των συμβολοσειρών ερωτημάτων σας (που είναι συγκεχυμένες ως φάκελοι ή όχι).

Μπορείτε επίσης να κατασκευάσετε προσεκτικά τις διευθύνσεις URL σας, με μια συγκεκριμένη επιβολή σειράς στις πτυχές, έτσι ώστε να ασχολείστε μόνο με συνδυασμούς αντί για μεταλλαγές. (Πραγματοποιήστε μια αναζήτηση για "συνδυασμούς εναντίον παραλλαγών"). Ειδικότερα, αν επιλέξετε facet A και στη συνέχεια facet B σε μια περίπτωση, αλλά στη συνέχεια facet B και στη συνέχεια facet A σε άλλη, οι διευθύνσεις URL θα είναι διαφορετικές, σελίδα το ίδιο. Αυτό μπορεί να επιλυθεί μόνο με αλφαβητισμό ή χρησιμοποιώντας κάποια προκαθορισμένη σειρά για τον τρόπο εμφάνισης των παραμέτρων στη διεύθυνση URL.

Και τελικά θυμόμαστε ότι είμαστε κολλημένοι με τη μεταφορά των δένδρων για την ιεραρχία των τοποθεσιών, ο σκοπός ενός δέντρου είναι να εξαπλωθεί τα κλαδιά, τα κλαδιά και τα φύλλα του για να δημιουργήσει επιφάνεια με φύλλα για να συλλαμβάνει το ηλιακό φως με τον πιο αποτελεσματικό τρόπο. Η εξέλιξη έχει διαμορφώσει τα δέντρα έτσι ώστε να μην συνεχίζουν να μεγαλώνουν πέρα ​​από το σημείο όπου συλλαμβάνουν το φως πιο αποτελεσματικά.

Καλλιτεχνική διαμόρφωση μιας ιστοσελίδας

Όπως αναφέρεται στην περιγραφή αυτού του άρθρου, οι περισσότερες πολύπλευρες τοποθεσίες αναζήτησης καθιστούν τον ιστότοπό τους αόρατο για αναζήτηση ή μια αδύνατη περιπέτεια. Η πραγματική απάντηση είναι κάπου στο μέσον - μια καλλιτεχνική διαμόρφωση. Υπάρχουν πολλοί τρόποι για να το αποφύγετε αυτό, από την προσαρμογή του αρχείου robots.txt στην προσαρμογή των ρυθμίσεων της Κονσόλας αναζήτησης Google (πρώην Εργαλεία για Webmasters), για να αλλάξετε τις ετικέτες meta στην πηγή προβολής.

Οι λύσεις ποικίλλουν και όλες θα πρέπει να κατευθύνονται από μια στρατηγική στόχευσης βασικών λέξεων-κλειδιών και με βάση το τι υποστηρίζεται από την πλατφόρμα τεχνολογίας σας και μπορεί να υλοποιηθεί από την ομάδα σας. Σε αντίθεση με τα φυσικά δέντρα των οποίων το μέγιστο σχήμα ορίζεται από τους περιορισμούς της φύσης, οι πολύπλευρες ιστοσελίδες μπορούν να αναπτυχθούν χωρίς εμπόδια, και ίσως να μην το γνωρίζετε ποτέ - εκτός από το ότι δεν εκτελείτε ποτέ καλά στο Google.