Ограничена потрага поминала на диво: ефективно ги проширува Endeca & Lucene за оптимизација

Обично пребарувањето беше прилично ретко. Сега, се чини дека е насекаде! Добивањето на погрешните податоци за тоа како преклопувате видливоста на сајтови со оваа функција е една од најчестите работи што денес најчесто се растураат во е-трговија сајтови. Ние се среќаваме со истите прашања одново и одново на Flying Point Digital, и од перспектива на SEO, тоа не е едноставно "да направите подобра категорија страници". Иако тоа е важен дел од фикс, тоа е само половина од приказната.

Благодарам, капетан Очигледно

Има доволно надгледување или заблуда за тоа што се случува со фацетирани пребарувања и колку е добра оваа техника за навигација на страниците може да биде за SEO, дека е време да напишеме статија. Тоа е иста, староста, случајна приказна за пајажина, но со пресврт. Или, треба да кажеме со нови димензии. За оние кои биле во индустријата оптимизација некое време, тоа е веројатно многу информации за да се заклучи и да го поправат проблемот. Ограниченото пребарување создава замка со пајакови што е голема како и секоја комбинација од можни селекции на аспекти, се додека вашата навигација е "пријателска за пребарување".

Проблемот е дефиниран. Имплицитни решенија. Вие солени стари кучиња од SEO-индустријата може да си отиде. За оние кои само слушаат или се занимаваат со ова за прв пат, читајте на. Најпрво ќе те исфрлиме во малку историја, лошата ситуација што во моментот често постои на такви локации, а потоа конечно да изложите неколку широки потези од едно можно решение.

Каталог на милион производи

Каде што има е-трговија со големи каталози од милиони или дури десетици илјади производи, постојат структурирани податоци како цена и боја и големина за да се опише сето тоа. И избраниот термин за опишување на корисничките интерфејси изградени околу пребарувањето и филтрирањето со користење на такви опишувачи на производи се аспекти.

Овозможено пребарување е само сите филтри за кои можете да кликнете за да го насочите вашето пребарување, освен клучните клучни зборови или дуплирањето на навигацијата. Тука има некои формални дефиниции, и имплицирана неосетливост на редоследот (што не е присутна на навигацијата за дупчење). Разградувањето низ менија со чувствителни нарачки (како што се веб хиперлинкови) имплицира извесна конечност на вашето истражување. Сè што "наоѓате" е аналогно на датотеки на хард диск или јазли во дрво. Додека е можно, едноставно е потешко да се создадат пајаци со навигација за дупчење. Тоа е начинот на кој Веб најчесто работи, и тоа е она што го направи Google пребарување и индекс како брилијантен и ефикасен систем. Тоа е, исто така, она што му даде на Google неправедна репутација за "не им се допаѓа" динамички сајтови.

Спајдер-замки и мешани пораки

Веднаш штом ќе се воведе прашалник за URL, страницата се смета за "динамична", а сајтот може да трае вечно. Размислете за веб-страница на календарот каде секогаш можете да кликнете на линкот "следниот ден". Тоа е навистина толку едноставно да се создаде пајакова стапица. И тоа не е постоењето на прашалник што го прави сајтот динамичен или лош или нечитлив за Google на кој било начин. Тоа е дека знакот за прашањето е присутен на видовите на сајтови кои Google треба да ги стави настрана во одреден момент, и да продолжи со бизнисот со индексирање сајтови, кои не прават работите мизерни. Или на друго место, сите навидум бесконечни ресурси на Google ќе бидат потрошени индексирање на еден едноставен бесконечен календар на една мала страница.

Динамичните сајтови (или URL адресите) не се инхерентно лоши, како што некои луѓе ги чувствуваат. Што е лошо е колку е лесно да се направат случајни пајаци и никогаш не сфаќате дека дури и го имате проблемот. Од страна на Google, тие само се навлезе на следната страница на некој реален начин, така што тие не ги трошат сите нивното време вртење нивните тркала. Google има многу повеќе подготвеност овие денови за безнадежно да се нурне во пајакови замки, да се повлече неколку милиони страници и да види дали тие не можат да направат никаква смисла за тоа.

Во оваа статија, ние се фокусираме на еден посебен тип на динамички URL пајакот-замка како што е генерирана од навигациската шема често наречена фацетирано пребарување. Забавен збор, аспекти. Те размислува за сечените лица од скапоцен камен. Претпоставувам дека услугата за електронска трговија е одлична и полесно е да се каже произволно параметризирано или припишано или мултидимензионално или полесно филтрирано пребарување. Не сите параметризирани пребарувања се аспекти. Аспектите имаат тенденција да си дозволат да одат во различни нарачки и во навидум бесконечни пермутации - и она што ги прави "аспекти" и како особено непријатна пајакова стапица.

Endeca и Lucene

Честопати ги забележуваме проблемите со фацетирани страници за пребарување, бидејќи сега е полесно да се прават сајтови кои го користат. Оваа техника за навигација беше значително поретка поради трошоците и стручноста што е потребна за да се постави, и барањата на серверот за доставување на оваа функција (со точни податоци) на скала. Тоа се менува. Без оглед на тоа што вашите податоци се заклучени во, некој производ како Endeca (сега, од Oracle) или Lucene (проект Apache) може да ги избрише и да ја изгради базата на податоци и индексите потребни за поврзување со компонентите за градење сајтови, пребарај на страница.

Endeca одамна е доминантен комерцијален софтвер од претпријатието, кој нуди фацетирани пребарувања, и затоа го слушате нивното име толку многу повикани кога се појавува оваа тема. Се разбира, ќе плаќате за таа доверба. Но, ако имате своја сопствена доверба и силен тим за развој, тука е алтернативата за стекнување на софтверот Lucene (слободен софтвер со отворен код).

Lucene, како што ми велат, бидејќи не сум развивач на искуство со овој софтверски стек - го прави речиси сето она што Endeca го прави, дури и со перформанси на ниво на претпријатие, но бесплатно. Како и кај Endeca, навистина има цела вреќа за одделни производи кои работат заедно во еден вид на екосистем. На врвот на тој екосистем е Apache Software Foundation (еквивалент на компанијата), потоа проектот Lucene (еквивалент на производ), а потоа и делот што го прави вистинскиот веб интерфејс за кој зборуваме - или Solr или Elastic Search.

Значи, сите овие работи на Lucene и Endeca се подразбираат дека ИТ инфраструктурните работи кои "Облакот" треба да ве спречат да се справиш со нив, и да имате малку стара училишна DIY-чувство за нив. Ако сте помала компанија, или едноставно не сакате болки при имплементацијата и сакате да ги користите најподобрените најдобри практики надвор од кутијата и се уште да се сметате за претпријатие-класа, секогаш има Demandware или домаќин на други производи кои ги исполнуваат нишите меѓу Endeca / Lucene во еден крајност и само-домаќин пример на WooCommerce на WordPress во друга.

Плус, сите навистина големи технолошки играчи, како што се IBM, Microsoft и SAP, нудат нешто за да го решат проблемот со пребарување на Интернет. Endeca и Lucene се имињата кои доаѓаат одново и одново кога сте оптимизација за справување со овие проблеми, така што ова е лесен начин да ја расклопите оваа дискусија за пребарување, но имајте на ум дека постојат навистина други на секој крај на спектарот, и безброј повеќе меѓусебно. Ако, на пример, сакате да го направите тоа лесно за облак на Demandware, но со опција за преземање на сето тоа во куќата еден ден да започнете да се вклопувате во екстремна прилагодување за конкурентна предност, Hybris е на high-end, а Magento на low-end.

Две екстремни сценарија

Но, на крајот на денот, сите овие инфраструктури имаат некаква форма на фацетирано пребарување и мора да се справат со истиот проблем. Општо земено, фацетираното пребарување паѓа во една од двете категории. Сите милиони потенцијални страници што се "овозможени" се или:

Целосно невидлив за пребарување поради една или друга причина
Видлив за пребарување, но создава сайт кој Googlebot никогаш нема да заврши со индексирање и истражување

Во првото сценарио, страниците за пребарување што се невидливи за пребарување се или невидливи, бидејќи корисничкиот интерфејс е изграден со старомодни елементи на CGI-форма и бара поднесување или извршување на JavaScript за пребарувањето кое треба да се изврши или, всушност, но сопствениците на страницата "ја исклучија" можноста на Google да индексира страница преку robots.txt или некој друг механизам - обично затоа што претрпеле болки од ситуација број два.

Во ситуација број два, целата фацетирана страница за пребарување и сите потенцијални страници што може да ги генерираат, совршено се пребаруваат од Google. Сепак, страниците никогаш не завршуваат, а 99% од бесконечното индексирање е дупликат содржина. Со други зборови, тоа е пајажина. Google ја гледа целата своја страница, но поради смешноста на задачата што ја поставивте пред него, ќе се откаже и ќе се пресели на следното место.

Ретко се замисли, но критично важно е дека оваа пајакова стапица ќе има влијание врз вашата ранг-листа за пребарување со разредување или комплетно заматеност на "основниот сет" на важни страници кои вашиот сајт може / треба да ги генерира, кои би можеле да бидат позиционирани лесно -Откријте ги патеките за кликање (главна и секундарна навигација) и бидете прилагодени за усогласување со познатите пребарувани и познати клучни зборови за конвертирање.

Размислете за условите на актуелните реални животни дрвја

Значи, трикот е да го осветли тој главен сет на страници, како што е главното стебло и гранките на едно дрво. Овие можеби ги претставуваат првите два избрани аспекти или некој друг механизам за "дефинирање на основни сет на страници" кој е координиран со она што се случува за истражување на вашите клучни зборови. Багажникот и гранките се јадро. Тие се вашиот господар во собата на канонски не-дупликат страници - без разлика дали тие биле всушност произведени со избирање на фацетирани параметри за пребарување. (Вашите основни страници можеби се состојат од нив).

Дури и ако вашиот сајт може да генерира милиони повеќе страници од ова, ова "јадро" од било кое место од 100 до 10.000 страници може да биде вашиот господар канонски сет. Сите други милиони варијации кои се претежно дупликати можат да поседуваат канонски тагови назад кон најблискиот прилагодлив URL од основниот сет. Да, можеби има некои сопствени развојни активности тука е-трговија платформа не ги поддржува таквите трикови надвор од кутијата.

И тоа е само еден од пристапите за добивање на овие паука стапици под контрола-нека се индекс ... нека пајакот-стапица да продолжат да постојат ... но да биде јасно на Google за тоа што се случува, и каков било ползење минатото на крајот - очигледно јадро / важна поставеност е над-врвот и можеби непотребна работа. Пребарувањето на Google со модификатор на веб-страница треба да се врати со приближно количество канонски основни страници што сега јасно ги рекламирате - а НЕ остатокот, за кој што признавате, се пермутации со низок приоритет.

Најдобрите решенија се секогаш оние каде што само еден конечен износ на страници може да биде генериран од страна на веб-страница, и Google може да се вртат преку сите нив за неколку дена. Обидете се да работите Вриска жаба против сајт (со многу меморија). Ако никогаш не завршува, можеби ќе има пајакова стапица.

Тоа е како на било кое дадено дрво, тоа може да биде тешко, но вие всушност би можеле да ги бројат лисјата! Можно е, но ќе завршиш. Исто така, Screaming Frog ќе заврши со индексирање на соодветна конечна локација.

Ред работите - сечење на пермутации

Одредена хибридизација на аспекти може да помогне да се добие ситуацијата под контрола - како што се прави одредени аспекти само да се активираат во комбинација со одредени други аспекти за да се рефлектираат и спроведат ограничувањата во однос на односите. Може да сметате дека ова е комбинација од многу поконвентната шема на навигација за дупчење со аспекти на пребарување. (Аспектите се претставени конкретно на одредени нивоа на укинување). Дуплирањето низ навигацијата има тенденција да наметне одреден ред до параметрите на низата за пребарување (зафатени како папки или не).

Исто така можете внимателно да ги конструирате Вашите адреси, со одредена присилна нарачка на аспектите, така што ќе се занимавате само со комбинации наместо пермутации. (Направете пребарување за "комбинации наспроти пермутации".) Поточно, ако изберете еден аспект А и потоа фасет Б во еден случај, но потоа аспект Б, а потоа и фасет А во друг, URL-то ќе биде различен, но како резултат страница истото. Ова може да се поправи само со азбука или со некоја однапред наместена нарачка за тоа како параметрите треба да се појавуваат на URL-то.

И конечно се сеќаваме дека се држиме до дрвото-метафора за хиерархија на локацијата, целта на дрвото е да ги шириме гранките, гранките и лисјата за да создадеме површина со лисја за да го собереме сончевото светло најефикасно. Еволуцијата ги обликува дрвјата така што тие не продолжуваат да излегуваат надвор од точката каде што најефикасно ја осветлуваат светлината.

Уметнички обликување на веб-страница

Како што е наведено при раскинувањето на овој напис, повеќето сајтови за пребарување со веб-страници или ги прават своите веб-страници невидливи за пребарување или за невозможно пишување на скучна работа. Вистинскиот одговор е некаде во средина - уметничко обликување. Постојат многу начини да се исклучи ова, од правење прилагодувања на вашата датотека robots.txt за да ги прилагодите поставувањата на вашата Google Search Console (порано Алатки за веб-администратори), до промена на мета таговите во изворот на преглед.

Решењата се различни, и сите треба да бидат насочени со сеопфатна стратегија за таргетирање на клучни зборови и врз основа на она што е поддржано од вашата технологија платформа и имплементира од вашиот тим. За разлика од природни дрвја чија максимална форма е дефинирана од ограничувањата на природата, веб-страниците со страници може да се зголемат необезбедени и никогаш нема да го знаете - освен што никогаш не се пријави добро во Google.