Фасетирано търсене Gone Wild: ефективно използване на Endeca & Lucene за SEO

Фасетното търсене е било доста рядко. Сега изглежда, че е навсякъде! Грешките в начина, по който се справяте с видимостта на сайтовете с тази функция, е една от най-често нарушените в сайтовете за електронна търговия днес. Ние се сблъскваме с едни и същи проблеми отново и отново тук, във Flying Point Digital, и от гледна точка на SEO, това не е просто "да направим по-добри страници с категории". Въпреки че това е важна част от решението, това е само половината от историята.

Благодаря, капитан Очевиден

Има достатъчно наблюдение или погрешно схващане за това какво се случва с фасетираното търсене и колко добра може да бъде тази навигационна техника на сайта за SEO, че е време да напишем статия. Това е една и съща, вековна, случайна история на паяка, но с обрат. Или трябва да кажем с нови измерения. За тези, които са били в индустрията на SEO известно време, това е може би много информация, за да се извлече и да се реши проблема. Фасетираното търсене създава капан-паяк толкова голям, колкото всяка комбинация от възможни аспекти, стига навигацията да е „удобна за търсене“.

Дефиниран проблем. Решения подразбиращи се. Солените стари кучета от SEO индустрията могат да си отидат. За тези, които току-що чуват или се занимават с това за първи път, прочетете. Първо ще ви потопим в историята, в лошото положение, което в момента съществува в такива сайтове, и след това най-накрая ще направим няколко широки удара на едно възможно решение.

Първо ще ви потопим в историята, в лошото положение, което в момента съществува в такива сайтове, и след това най-накрая ще направим няколко широки удара на едно възможно решение

Million-продуктови каталози

Където има електронна търговия с големи каталози от милиони, или дори само десетки хиляди продукти, има структурирани данни като цена, цвят и размер, за да се опише всичко. И терминът, избран за описание на потребителските интерфейси, изградени около търсенето и филтрирането с помощта на такива описатели на продукти, е аспект.

Фасетираното търсене е само всички филтри, върху които можете да кликнете, за да прецизирате търсенето си, освен включване на ключови думи или пробиване надолу за навигация. Тук има някои формални дефиниции и подразбираща се нечувствителност на поръчките (която не е налична при навигация с разбивка). Пробиването през менютата, които са чувствителни към поръчките (като уеб хипервръзки), предполага определена окончателност на вашето изследване. Всичко, което "намирате" е аналогично на файлове на твърд диск или възли в едно дърво. Макар че е възможно, просто е по-трудно да се създадат капани за паяци с навигиране надолу. Това е начинът, по който Мрежата работи най-вече, и това е, което направи търсенето и индексирането на Google такова брилянтен и ефективен система. Това е и това, което даде на Google несправедлива репутация за „не харесва“ динамичните сайтове.

Паяци и смесени съобщения

Веднага след като въпросният знак е въведен в URL адреса, сайтът се счита за "динамичен" и сайтът може да продължи вечно. Помислете за уеб страница от календара, където винаги можете да кликнете върху връзката „на следващия ден“. Наистина е толкова просто да се създаде капан за паяк. И това не е наличието на въпросителен знак, което прави сайта динамичен или лош или нечетим на Google по някакъв начин. Това е, че въпросният знак присъства на типовете сайтове, които Google трябва да остави настрана в някакъв момент, и да се заеме с работата по обхождането на сайтове, които не правят нещата нещастни. Или пък всички привидно безкрайни ресурси на Google биха били изразходвани за пълзящи по един прост безкраен календар на един малък сайт.

Динамичните сайтове (или URL адреси) не са лоши по своята същност, както се чувстват някои хора. Лошото е колко лесно е да се правят случайни капани-паяци и никога да не се осъзнава, че имате проблем. От страна на Google те просто се качват на следващия сайт по някакъв реалистичен начин, така че те не прекарват цялото си време в преобръщане на колелата си. В наши дни Google има много повече желание да се гмурне в капан-паяк, да изтегли няколко милиона страници и да види дали не могат да го разберат.

В тази статия се фокусираме върху един конкретен тип динамичен капан за паяци на URL адреси, генериран от навигационната схема, често наричана фасетирано търсене. Забавна дума, аспекти. Прави мислите за изрязаните лица на бижу. Предполагам, че служенето на електронната търговия е много добро и е по-лесно, отколкото да се произнесе произволно параметризирано или атрибутирано или многомерно или филтрирано търсене. Не всички параметризирани търсения са фасети. Границите са склонни да си позволят да се движат в различни порядъци и в привидно безкрайни пермутации - и това, което ги прави „фасети” и такава особено гадна капан за паяк.

Ендека и Луцене

Забелязваме по-често проблеми с фасетирани сайтове за търсене, защото сега е по-лесно да се правят сайтове, които го използват. Тази навигационна техника е била значително по-рядка поради разходите и експертните познания, необходими за нейното създаване, както и за силните сървърни изисквания за предоставяне на тази функция (с точни данни) в мащаб. Това се променя. Без значение какви са данните ви, някой продукт като Endeca (сега от Oracle) или Lucene (проект на Apache) може да премине през него и да изгради базата данни и индекси, необходими за свързване към компонентите за изграждане на сайтове, които са фасетирани търсене в сайт.

Endeca отдавна е доминиращият търговски клас на корпоративния клас, който предлага фасетирано търсене - затова чувате името им да се повтаря толкова много, когато възникне тази тема. Разбира се, вие ще платите за това доверие. Но ако имате собствено доверие и силен екип от разработчици, има алтернатива на софтуера на Lucene, която не е собственост (свободен и отворен код).

Както казах - както аз не съм разработчик на опит с този конкретен софтуерен стек, Lucene прави почти всичко, което Endeca прави, дори и с производителността на ниво предприятие, но безплатно. Както и при Endeca, наистина има цяла купчина от отделни продукти, които работят заедно в един вид екосистема. Горната част на тази екосистема е Apache Software Foundation (еквивалент на компанията), след това проектът Lucene (еквивалент на продукт) и след това частта, която прави реалния уеб потребителски интерфейс - Solr или Elastic Search.

Така че всичко, което се случва с Lucene и Endeca, е, че ИТ инфраструктурата, която „The Cloud“ би трябвало да ви предпази от това да се налага да се справяте с тях, и да имате някакво усещане за стари училища за тях. Ако сте по-малка компания или просто не желаете да се борите с прилагането, и искате да използвате най-добрите договорени практики и все още да се считате за корпоративен клас, винаги има Demandware, или множество други продукти, които запълват нишите между Endeca / Lucene в една екстремност и самостоятелно хостван случай на WooCommerce в WordPress в другия.

Освен това, всички наистина големи технологични играчи, като IBM, Microsoft и SAP, предлагат нещо за решаване на проблема с търсенето в интернет. Endeca и Lucene са имената, които се появяват отново и отново, когато сте SEO, които се справят с тези проблеми, така че това е лесен начин да се оформи тази дискусия в границите на търсенето, но имайте предвид, че наистина има други на всеки край на спектъра, и безброй повече между тях. Ако например искате тази лекота на Demandware, но с възможност да вземете всичко в къщата, за да започнете да натрупвате екстремни персонажи за конкурентно предимство, Hybris е на най-високия клас и Magento на най-ниския клас.

Два екстремни сценария

Но в края на деня всички тези инфраструктури имат някаква форма на търсене и трябва да се справят със същия набор от проблеми. Като цяло, фасетираното търсене попада в една от двете категории. Всичките милиони потенциални страници, които са „направени възможни“, са или:

  1. Напълно невидим за търсене по една или друга причина
  2. Вижда се за търсене, но създава сайт, който Googlebot никога няма да завърши обхождане и проучване

В първия сценарий, фасетираните сайтове за търсене, които са невидими за търсене, са или невидими, тъй като потребителският интерфейс е изграден със стари елементи на CGI-формата и изисква представяне или изпълнение на JavaScript, за да може търсенето да се изпълни, или е действително обхождане, но собствениците на сайтове са „изключили“ възможността на Google да обхожда / индексира сайта чрез robots.txt или друг механизъм - обикновено защото са претърпели болките от ситуация номер две.

В ситуация номер две целият фасетиран сайт за търсене и всички потенциални страници, които той може да генерира, са напълно обхождани от Google. Страниците обаче никога не свършват и 99% от това непрекъснато обхождане е дублирано съдържание. С други думи, това е капан за паяк. Google вижда целия ви сайт, но заради нелепостта на задачата, която сте задали, той ще се откаже и ще се премести на следващия сайт.

Рядко се замисля, но е от критично значение, че този паяк-капан ще повлияе на класацията ви за търсене, като разрежда или напълно обърква "основния набор" от важни страници, които вашият сайт може / би трябвало да генерира, който би могъл да бъде позициониран в лесно -открийте пътища за кликване (главна и вторична навигация) и ги променете, за да се приведете в съответствие с известни търсени и познати ключови думи за конвертиране.

Помислете за действителните дървета от реалния живот

Така че, трикът е да запалиш този основен набор от страници, като главния багажник и клоните на дървото. Те може би представляват първите две избрани аспекти или някакъв друг механизъм за "определяне на основния набор от страници", който е съгласуван с това, за което се занимава изследването на ключовата дума. Стъблото и клоните са ядро. Те са вашият главен набор от канонични страници, които не са дублирани - независимо дали са действително произведени чрез избиране на фасетирани параметри за търсене. (Вашите основни страници може да се състоят от тях).

Дори ако вашият сайт може да генерира милиони страници повече от това, това "ядро" от 100 до 10 000 страници може да бъде вашият главен каноничен набор. Всички други милиони най-често дублиращи се вариации могат да притежават канонични тагове към най-близкия URL адрес от основния набор. Да, тук може да има някаква работа по разработка, ако вашият платформа за електронна търговия не поддържа такива трикове.

И това е само един от подходите за контролиране на тези паякови капани - нека всичко да се индексира ... нека паяк-капанът да продължи да съществува ... но да бъде ясно на Google за това, което се случва, и как всяко пълзене покрай евентуално очевидното ядро ​​/ важното е превъзхождаща и може би ненужна работа. Търсене с Google с модификатор на сайт трябва да се върне с приблизително количеството канонични основни страници, които сега ясно рекламирате - и НЕ останалата част, която признавате, са пермутации с нисък приоритет.

Най-добрите решения винаги са такива, при които един сайт може да генерира само ограничено количество страници, а Google може да се върти през всички тях след няколко дни. Опитайте да стартирате Викащата жаба срещу сайт (с много памет). Ако никога не свърши, може да имате капан за паяк.

Това е като на всяко дърво, може да е трудно, но всъщност можете да преброите листата! Възможно е, но ще свършиш. Също така ще завърши „Крещящата жаба“, която пълзи правилно ограничен участък.

Въпросът за реда - намаляване на пермутациите

Определена хибридизация на аспектите може да помогне да се контролира ситуацията - например да се даде възможност на някои аспекти да активират само в комбинация с някои други аспекти, за да отразят и наложат ограниченията във връзка с данните. Можете да помислите, че това е комбинация от много по-ограничената схема за навигация с подробности от търсенето. (Фасетите са представени конкретно на определени нива). Навигирането надолу има за цел да наложи определен ред на параметрите на низа на заявката (объркани като папки или не).

Можете също така да конструирате вашите URL адреси внимателно, с определена принудителна поръчка към аспектите, така че да се занимавате само с комбинации вместо с пермутации. (Направете търсене за "комбинации срещу пермутации.") По-конкретно, ако изберете фасет А и след това фасет Б в един случай, но след това фасет В и след това аспект А в друг, URL адресите ще бъдат различни, но резултатните страница. Това може да бъде коригирано само чрез азбучно или чрез предварително зададен ред за това, как параметрите да се появяват в URL адреса.

И накрая, като си спомняме, че се придържаме към метафората на дървото за йерархията на сайта, целта на дървото е да разстила клоните, клонките и листата, за да създаде повърхност с листа, за да улови най-ефективно слънчевата светлина. Еволюцията е оформяла дърветата, така че да не продължават да растат покрай точката, в която улавят светлината най-ефективно.

Художествено оформяне на сайта

Както е посочено в тази статия, повечето фасетирани сайтове за търсене или правят сайта им невидим за търсене или невъзможна пълзеща работа. Истинският отговор е някъде по средата - художествено оформяне. Има много начини да се справите с това, да направите корекции във файла robots.txt, за да променяте настройките на Google Конзолата за търсене (преди това Инструменти за уеб администратори), за да промените мета таговете във вашия източник на изглед.

Решенията са разнообразни и всички трябва да бъдат насочени чрез обща стратегия за насочване по ключови думи и въз основа на това, което се поддържа от вашата технологична платформа и приложими от екипа ви. За разлика от естествените дървета, чиято максимална форма се определя от ограниченията на природата, фасетираните уебсайтове могат да станат непокътнати и може би никога няма да го знаете - с изключение на това, че никога не се представят добре в Google.