Faceted Search Gone Wild: efektywne wykorzystanie Endeca i Lucene do SEO

Wyszukiwanie fasetowane było dość rzadkie. Teraz wydaje się być wszędzie! Błędne informacje na temat tego, w jaki sposób walczysz z widocznością witryn za pomocą tej funkcji, są jedną z rzeczy najczęściej łamanych w dzisiejszych witrynach e-commerce. W Flying Point Digital ciągle napotykamy te same problemy, az perspektywy SEO nie chodzi tylko o „tworzenie lepszych stron kategorii”. Chociaż jest to ważna część poprawki, to tylko połowa historii.

Dzięki, kapitanie Oczywistym

Jest wystarczająco dużo nadzoru lub nieporozumień co do tego, co się dzieje z fasetowym wyszukiwaniem i jak dobra może być ta technika nawigacji dla SEO, że nadszedł czas, abyśmy napisali artykuł. To ta sama, odwieczna, przypadkowa historia o pułapce pająka, ale z niespodzianką. Lub powinniśmy powiedzieć o nowych wymiarach. Dla tych, którzy przez jakiś czas byli w branży SEO, jest to prawdopodobnie mnóstwo informacji, które pozwalają zarówno wyciągnąć, jak i rozwiązać problem. Wyszukiwanie fasetowe tworzy pułapkę typu pająk tak dużą, jak każda kombinacja możliwych selekcji aspektów, o ile nawigacja jest „przyjazna dla wyszukiwania”.

Zdefiniowany problem. Rozwiązania dorozumiane. Ty słone stare psy z branży SEO mogą odejść. Dla tych, którzy dopiero słyszą lub radzą sobie z tym po raz pierwszy, czytaj dalej. Najpierw pogrążymy cię w historii, złej sytuacji, która często istnieje na takich stronach, a na końcu przedstawiamy kilka szerokich uderzeń jednego możliwego rozwiązania.

Milionowe katalogi produktów

Wszędzie tam, gdzie istnieje e-commerce z dużymi katalogami milionów, a nawet dziesiątkami tysięcy produktów, istnieją strukturalne dane, takie jak cena, kolor i rozmiar, aby to wszystko opisać. Terminem wybranym do opisu interfejsów użytkownika zbudowanych wokół wyszukiwania i filtrowania przy użyciu takich opisów produktów jest aspekt.

Wyszukiwanie fasetowane to tylko wszystkie filtry, które możesz kliknąć, aby zawęzić wyszukiwanie, wykraczając poza dołączanie słów kluczowych lub drążenie po nawigacji. Są tu pewne formalne definicje i domniemana niewrażliwość na porządek (która nie występuje w nawigacji w dół). Drążenie w dół menu czułych na zamówienia (takich jak hiperłącza internetowe) implikuje pewną ostateczność eksploracji. Wszystko, co „odnajdziesz”, jest analogiczne do plików na dysku twardym lub węzłach w drzewie. Choć jest to możliwe, trudniej jest tworzyć pułapki z nawigacją. W ten sposób działa sieć, a to sprawiło, że wyszukiwarka i indeks Google stały się tak wspaniałym i skutecznym systemem. To również dało Google nieuczciwą reputację „nie lubiących” dynamicznych witryn.

Pająki i mieszane wiadomości

Po wprowadzeniu znaku zapytania do adresu URL witryna jest uważana za „dynamiczną”, a witryna może trwać wiecznie. Pomyśl o stronie kalendarza, na której zawsze możesz kliknąć link „następny dzień”. Tworzenie pułapki-pająka jest naprawdę proste. I to nie istnienie znaku zapytania sprawia, że witryna jest dynamiczna, zła lub nieczytelna dla Google w żaden sposób. To, że znak zapytania jest obecny na typach witryn, które Google musi odłożyć w pewnym momencie, i radzi sobie z działalnością polegającą na indeksowaniu witryn, które nie sprawiają, że rzeczy są nieszczęśliwe. Albo, wszystkie pozornie nieskończone zasoby Google'a będą spędzane na indeksowaniu jednego prostego nieskończonego kalendarza na jednej małej stronie.

Dynamiczne witryny (lub adresy URL) nie są z natury złe, jak niektórzy uważają. Złe jest to, jak łatwo jest zrobić przypadkowe pułapki na pająki i nigdy nie zdawać sobie sprawy, że masz problem. Ze strony Google po prostu wchodzą na następną stronę w jakiś realistyczny sposób, więc nie spędzają całego czasu na obracaniu swoich kół. Google ma obecnie dużo więcej ochoty na nieustanne zanurzanie się w pułapki na pająki, wycofywanie kilku milionów stron i sprawdzanie, czy nie potrafią tego zrozumieć.

W tym artykule skupiamy się na jednym konkretnym typie dynamicznej pułapki URL-a, generowanej przez schemat nawigacyjny, często nazywany wyszukiwaniem fasetowym. Zabawne słowo, aspekty. Sprawia, że myślisz o ciętych twarzach klejnotu. Domyślam się, że to dobrze działa z biznesem e-commerce i jest to łatwiejsze niż powiedzenie arbitralnie sparametryzowanego lub przypisanego lub wielowymiarowego lub filtrowanego przez pole wyszukiwania. Nie wszystkie sparametryzowane wyszukiwania są aspektami. Aspekty pozwalają sobie na przechodzenie w różnych rzędach i na pozornie nieskończonych permutacjach - zarówno tych, które sprawiają, że są „aspektami”, jak i szczególnie paskudnej pułapki-pająka.

Endeca i Lucene

Coraz częściej zauważamy problemy z wyszukiwarek w witrynach wyszukiwania, ponieważ teraz łatwiej jest tworzyć witryny, które z nich korzystają. Ta technika nawigacji była znacznie rzadsza ze względu na koszt i wiedzę wymaganą do jej skonfigurowania, a także duże wymagania serwera dotyczące dostarczania tej funkcji (z dokładnymi danymi) w skali. To się zmienia. Niezależnie od tego, jakie dane są zablokowane, niektóre produkty, takie jak Endeca (teraz z Oracle) lub Lucene (projekt Apache) mogą przeglądać je i budować bazę danych i indeksy wymagane do łączenia się z komponentami budującymi witryny, które są warstwowe szukaj w witrynie.

Endeca od dawna jest dominującym oprogramowaniem komercyjnym klasy korporacyjnej, oferującym wyszukiwanie fasetowe - dlatego słychać ich nazwę, gdy pojawia się ten temat. Oczywiście zapłacisz za to zaufanie. Ale jeśli masz pewność siebie i silny zespół programistów, istnieje alternatywna wersja oprogramowania Lucene, niezastrzeżona (darmowa i otwarta).

Lucene, jak mi powiedziano - jako że nie jestem twórcą doświadczenia z tym konkretnym pakietem oprogramowania - robi prawie wszystko, co robi Endeca, nawet z wydajnością na poziomie przedsiębiorstwa, ale za darmo. Podobnie jak w przypadku Endeca, istnieje naprawdę cały zestaw pojedynczych produktów, które współpracują ze sobą w pewnego rodzaju ekosystemie. Najważniejszym elementem tego ekosystemu jest Apache Software Foundation (odpowiednik firmy), następnie projekt Lucene (odpowiednik produktu), a następnie część, o której mówimy, czyli Solr lub Elastic Search.

Tak więc wszystkie te rzeczy Lucene i Endeca są prawdą, że infrastruktura informatyczna, którą „The Cloud” ma powstrzymać cię od konieczności radzenia sobie z nią, i mieć w sobie trochę oldschoolowego stylu DIY. Jeśli jesteś mniejszą firmą lub po prostu nie chcesz borykać się z wdrożeniem i chcesz korzystać z najlepszych uzgodnionych najlepszych rozwiązań i nadal być uznawanych za klasy korporacyjne, zawsze istnieje Demandware lub wiele innych produktów, które wypełniają niszę między Endeca / Lucene na jednym skraju a samo-hostowaną instancją WooCommerce na WordPressie na drugim.

Ponadto wszyscy naprawdę wielcy gracze technologiczni, tacy jak IBM, Microsoft i SAP, oferują coś do rozwiązania również problemu z wyszukiwaniem w sieci. Endeca i Lucene to nazwy, które pojawiają się w kółko, gdy zajmujesz się tymi problemami, więc jest to łatwy sposób na obramowanie tej dyskusji na temat wyszukiwania, ale pamiętaj, że na każdym końcu widma są naprawdę inni, i niezliczone więcej pomiędzy. Jeśli na przykład chcesz mieć łatwość obsługi Demandware w chmurze, ale z możliwością zabrania jej do domu, aby zacząć nakładanie warstw w ekstremalnym dostosowywaniu do przewagi konkurencyjnej, w High-endie znajdują się Hybris, a na najniższym Magento.

Dwa ekstremalne scenariusze

Ale w ostatecznym rozrachunku wszystkie te infrastruktury mają jakąś formę wyszukiwania fasetowego i muszą radzić sobie z tym samym zestawem problemów. Ogólnie rzecz biorąc, wyszukiwanie fasetkowe należy do jednej z dwóch kategorii. Wszystkie miliony potencjalnych stron „możliwych” to:

Zupełnie niewidoczny do przeszukania z jednego lub innego powodu
Widoczne do wyszukiwania, ale tworzy witrynę, której Googlebot nigdy nie zakończy indeksowania i eksplorowania

W pierwszym scenariuszu fasetowane witryny wyszukiwania, które są niewidoczne dla wyszukiwania, są albo niewidoczne, ponieważ interfejs użytkownika jest zbudowany ze staroświeckich elementów formularza CGI i wymaga przesłania lub wykonania kodu JavaScript, aby wyszukiwanie mogło zostać wykonane, lub jest faktycznie indeksowane, ale właściciele witryn „wyłączyli” zdolność Google do indeksowania / indeksowania witryny za pomocą robots.txt lub innego mechanizmu - zazwyczaj dlatego, że cierpieli na bóle sytuacji numer dwa.

W sytuacji numer dwa, cała fasetowana witryna wyszukiwania i wszystkie potencjalne strony, które może wygenerować, są doskonale indeksowane przez Google. Strony są jednak niekończące się, a 99% tego niekończącego się przeszukiwania to zduplikowane treści. Innymi słowy, to pułapka-pająk. Google widzi całą witrynę, ale z powodu śmieszności zadania, które przed nią postawiłeś, zrezygnuje i przejdzie do następnej strony.

Rzadko się zastanawiało, ale najważniejsze, że ta pułapka-pająk będzie miała wpływ na rankingi wyszukiwania, rozcieńczając lub całkowicie zaciemniając „podstawowy zestaw” ważnych stron, które może / powinien generować witryna, które można umieścić w łatwym do -Ukryj ścieżki kliknięć (główna i pomocnicza nawigacja) i dostosuj je, aby dopasować je do znanych wyszukiwanych i znanych słów kluczowych do konwersji.

Myśl w kategoriach rzeczywistych drzew rzeczywistych

Sztuczka polega na podświetleniu tego podstawowego zestawu stron, na przykład głównego pnia i gałęzi drzewa. Być może reprezentują one dwa pierwsze wybrane aspekty lub inny mechanizm „definiowania podstawowego zestawu stron”, który jest skoordynowany z tym, do czego prowadzi badanie słów kluczowych. Pień i gałęzie są rdzeniem. Są one twoim głównym zestawem kanonicznych, nie duplikujących się stron - niezależnie od tego, czy zostały faktycznie wyprodukowane, wybierając fasetowane parametry wyszukiwania. (Twoje główne strony mogą również zawierać te strony).

Nawet jeśli Twoja witryna może wygenerować miliony stron więcej niż ta, ten „rdzeń” zawierający od 100 do 10 000 stron może być Twoim głównym zestawem kanonicznym. Wszystkie pozostałe miliony przeważnie zduplikowanych odmian mogą posiadać znaczniki kanoniczne z powrotem do najlepiej dopasowanego adresu URL z zestawu podstawowego. Tak, mogą tu być jakieś niestandardowe prace rozwojowe platforma e-commerce nie obsługuje takich gotowych sztuczek.

A to tylko jedno z podejść do opanowania tych pułapek-pająków - niech wszystko indeksuje ... pozwól, aby pułapka-pająk nadal istniała ... ale bądź jasna dla Google o tym, co się dzieje, i o tym, jak przemierzanie w końcu - oczywistym rdzeniem / ważnym zestawem jest przesadzona i może niepotrzebna praca. Wyszukiwarka Google z modyfikatorem witryny powinna powrócić w przybliżeniu z ilością kanonicznych stron rdzennych, które teraz wyraźnie reklamujesz - a NIE resztą, którą przyznajesz, są permutacje o niskim priorytecie.

Najlepszymi rozwiązaniami są zawsze te, w których witryna może wygenerować tylko ograniczoną liczbę stron, a Google może je wykorzystać w ciągu kilku dni. Spróbuj uruchomić Krzycząca Żaba przeciwko stronie (z dużą ilością pamięci). Jeśli nigdy się nie skończy, możesz mieć pułapkę pająka.

To jest jak na każdym drzewie, może być trudne, ale w rzeczywistości można policzyć liście! Jest to możliwe, ale skończysz. Tak samo Screaming Frog zakończy indeksowanie właściwie skończonego miejsca.

Porządek porządku - obcinanie permutacji

Pewna hybrydyzacja aspektów może pomóc w opanowaniu sytuacji - na przykład dzięki temu, że niektóre aspekty mogą być aktywowane tylko w połączeniu z pewnymi innymi aspektami, aby odzwierciedlić i wymusić ograniczenia relacji danych. Możesz uznać to za kombinację znacznie bardziej skończonego schematu nawigacyjnego z aspektami wyszukiwania. (Aspekty są prezentowane konkretnie na niektórych poziomach szczegółowości). Nawigacja w dół umożliwia wymuszenie określonej kolejności parametrów ciągu zapytania (niewidocznych jako foldery lub nie).

Możesz również skonstruować swoje adresy URL ostrożnie, z pewnym wymuszonym porządkiem faset, tak że masz do czynienia tylko z kombinacjami zamiast permutacji. (Wykonaj wyszukiwanie „kombinacji a permutacji.”) W szczególności, jeśli wybierzesz aspekt A, a następnie aspekt B w jednym przypadku, a następnie aspekt B, a następnie aspekt A w innym przypadku, adresy URL będą różne, ale wynikowy strona ta sama. Można to naprawić, wpisując alfabetycznie lub używając wstępnie ustawionej kolejności wyświetlania parametrów w adresie URL.

I wreszcie, pamiętając, że trzymamy się metafory drzewa dla hierarchii stron, celem drzewa jest rozłożenie jego gałęzi, gałązek i liści, aby utworzyć powierzchnię z liśćmi, aby najskuteczniej uchwycić światło słoneczne. Ewolucja ukształtowała drzewa, dzięki czemu nie wyrastają poza punkt, w którym przechwytują światło najskuteczniej.

Artystycznie kształtująca strona

Jak stwierdzono podczas opiniowania tego artykułu, większość wyszukanych witryn wyszukiwania sprawia, że ich witryna jest niewidoczna dla wyszukiwania lub niemożliwe do przeszukiwania. Prawdziwa odpowiedź jest gdzieś w środku - kształtowanie artystyczne. Istnieje wiele sposobów na to, aby to zrobić, od wprowadzania zmian w pliku robots.txt po modyfikowanie ustawień Google Search Console (dawniej Narzędzia dla webmasterów), zmianę metatagów w źródle widoku.

Rozwiązania są zróżnicowane i wszystkie powinny być kierowane przez nadrzędną strategię kierowania na słowa kluczowe i na podstawie tego, co jest obsługiwane przez platformę technologiczną i możliwe do wdrożenia przez zespół. W przeciwieństwie do drzew naturalnych, których maksymalny kształt jest określony przez ograniczenia natury, fasetowane strony internetowe mogą rosnąć w nieskrępowany sposób, a być może nigdy się o tym nie dowiesz - z wyjątkiem tego, że nigdy nie działa dobrze w Google.