Гранавітая Пошук Gone Wild: Эфектыўна Выкарыстанне Endeca & Lucene для SEO

пошук Гранавітая раней даволі рэдка. Цяпер, здаецца, усюды! Атрыманне звестак пра тое, як няправільна вы спрачацца пошук бачнасці сайтаў з гэтай асаблівасцю з'яўляецца адна з рэчаў, якія найбольш часта зламаных у сайтах электроннай камерцыі сёння. Мы сутыкаемся з тымі ж праблемамі зноў і зноў тут Лятучы Поінт Digital і ад SEO-пункту гледжання, гэта не проста «зрабіць лепшыя старонкі катэгорыі». Нягледзячы на ​​тое, што з'яўляецца важнай часткай выправіць, гэта толькі палова гісторыі.

Дзякуй, капітан Відавочнае

Там дастаткова хібы або няправільнае ўяўленне аб тым, што адбываецца з гранёным пошукам і наколькі добра гэты сайт навігацыйнай тэхнікай можа быць для SEO, што прыйшоў час , што мы напісалі артыкул. Гэта тое ж самае, векавая, выпадковая гісторыя павука-пастку, але з разыначкай. Ці, калі мы гаворым, з новымі памерамі. Для тых, хто быў у SEO індустрыі некаторага часу, гэта, верагодна, шмат інфармацыі, як вывесці і выправіць гэтую праблему. пошук Гранавітай стварае павук-пастку, як вялікую, як любую камбінацыю магчымых выбараў агранкі, так доўга, як ваша рух «пошук дружалюбнымі».

пэўныя праблемы. Рашэння няяўныя. Вы салёных старыя сабакі SEO-індустрыі можа сысці. Для тых, хто толькі пачуўшы аб або барацьбе з гэтым у першы раз, чытайце далей. Мы акунём Вас першымі ў трохі гісторыі, дрэнная сітуацыя, якая часта існуе ў цяперашні час на такіх сайтах, а затым, нарэшце, выкладзем некалькі шырокіх мазкоў адно з магчымых рашэнняў.

Мы акунём Вас першымі ў трохі гісторыі, дрэнная сітуацыя, якая часта існуе ў цяперашні час на такіх сайтах, а затым, нарэшце, выкладзем некалькі шырокіх мазкоў адно з магчымых рашэнняў

Каталогі Мільён прадуктаў

Ўсюды, дзе ёсць электронная камерцыя з вялікімі каталогамі мільёнаў, ці нават толькі дзесяткі-оф-тысячы прадуктаў, там структураваныя дадзеныя, такія як кошт і колер і памер, каб апісаць усё гэта. А тэрмін, абраны для апісання карыстацкіх інтэрфейсаў, пабудаваных вакол пошуку і фільтрацыі з выкарыстаннем такіх прадуктаў-describers з'яўляецца фасетами.

пошук Гранавітай гэта проста ўсё фільтры, якія вы можаце пстрыкнуць на больш дакладны пошук, за закаркаванні ў ключавых словах ці бурэння ўніз па навігацыі. Там нейкія фармальныя вызначэння тут, і мае на ўвазе парадак неадчувальнасць (г.зн. няма на свідравальнай ўніз навігацыі). Бурэнне ўніз па меню замовы адчувальнага (напрыклад, вэб-гіперспасылак) мае на ўвазе пэўную завершанасць вашага даследавання. Усё, што вы «знайсці» аналагічна файлаў на цвёрдым дыску або вузлоў у дрэве. Хоць гэта магчыма, гэта проста цяжэй стварыць павук-пастку з свідравым ўніз навігацыяй. Гэта як у асноўным працуе Web, і гэта тое, што зрабіў Google пошук і індэкс такой бліскучай і эфектыўнай сістэмы. Гэта таксама тое, што дало Google несправядлівае рэпутацыю «не падабаецца» дынамічныя сайты.

Spider-Пастка і змешаныя паведамлення

Як толькі знак пытання ўводзіцца ў URL, сайт лічыцца «дынамічны», і сайт можа працягвацца вечна. Падумайце аб каляндарным вэб-старонкі, дзе вы заўсёды можаце націснуць на "наступны дзень» спасылку. Гэта сапраўды так проста стварыць павук-пастку. І гэта не існаванне знака пытання, што робіць сайт дынамічным або дрэннымі ці нечытэльным для Google у любым выпадку. Гэта, што пытальнік прысутнічае на тыпах сайтаў Google павінен адкласці ў баку нейкі момант, і атрымаць з бізнесам поўзаць сайты, якія не робяць рэчы няшчаснымі. Ці ж, усё, здавалася б, бясконцыя рэсурсы Google будзе выдаткавана поўзаць, што адзін просты бясконцы каляндар на адным маленькім участку.

Дынамічныя сайты (або URL) не з'яўляюцца па сваёй сутнасці дрэнна, як некаторыя людзі адчуваюць. Што дрэннае ў тым, як лёгка гэта зрабіць выпадковы павук-пастку і не разумее, што вы нават маеце праблему. З боку Google, яны проста атрымаць на наступны сайт у нейкі рэальны шлях, так што яны не марнуюць увесь свой час спінінг іх колы. Google мае значна больш гатоўнасці ў гэтыя дні, каб бясстрашна нырае у навуцы-пастку, цягнуць назад некалькі мільёнаў старонак, і паглядзець, калі яны не могуць зрабіць які-небудзь сэнс.

У гэтым артыкуле мы засяроджваецца ў на адным канкрэтным тыпе дынамічнага URL-павук пасткі, згенераваныя навігацыі схема часта называюць гранёны пошукам. Fun слова, фасеты. Робіць вы думаеце пра зрэзаных граняў каштоўнага каменя. Я мяркую, што служыць для электроннай камерцыі бізу проста выдатна, і гэта прасцей, чым сказаць адвольна параметризованными або прыпісаны або шматмерным або палі фільтрацыі пошуку. Не ўвесь параметризованный пошук у фасетах. Грані, як правіла, дазволіць сабе пайсці ў розных парадках і, здавалася б, бясконцых перастановак, і тое, што робіць іх «грані» і такі асабліва непрыемны павук-пастку.

Endeca і Lucene

Мы заўважылі праблемы з гранёным пошукавымі сайтамі часцей, таму што лягчэй цяпер рабіць сайты, якія выкарыстоўваюць яго. Гэты метад навігацыі выкарыстоўваецца, значна радзей з-за высокі кошт і ведаў, неабходных для яго налады, а таксама патрабаванне да мясістым серверу на дастаўку гэтай функцыі (з дакладнымі дадзенымі) у маштабе. Гэта мяняецца. Незалежна ад таго, што вашы дадзеных замкнёныя ў некаторым прадукт, як Endeca (цяпер, з Oracle) або Lucene (праект Apache) можа нясецца праз яго і стварыць базу дадзеных і індэксы, неабходныя для падлучэння да вузла-будаўнічых кампанентаў, пласт гранёных пошук у сайт.

Endeca ўжо даўно дамінуючая карпаратыўнага класа камерцыйнага праграмнага забеспячэння, каб прапанаваць шматгранны пошук і менавіта таму вы чуеце іх назва выклікаецца так шмат, калі ўзнікае гэтая тэма. Вы будзеце плаціць за гэта давер, вядома. Але калі ў вас ёсць свой уласны упэўненасць і моцную каманду распрацоўшчыкаў, ёсць незарэгістраванае стэк альтэрнатыўных (бясплатна і з адкрытым зыходным кодам) праграмнага забеспячэння Lucene.

Lucene, так як я сказаў, як я не з'яўляюся распрацоўшчыкам досвед працы з гэтым праграмным забеспячэннем канкрэтнага стэка робіць амаль усе Endeca робіць, нават з прадукцыйнасцю на ўзроўні прадпрыемства, але бясплатна. Як Endeca, там сапраўды цэлы захоп мяшок асобных прадуктаў, якія працуюць разам у нейкі экасістэмы. Верхняя частка гэтай экасістэмы з'яўляецца Apache Software Foundation (эквівалент кампаніі), то праект Lucene (эквівалент прадукту), і пасля гэтага, тая частка, якая робіць фактычны вэб-інтэрфейс мы гаворым пра-небудзь Solr або эластычнага Search.

Так што ўсё гэта Lucene і Endeca матэрыял, па агульным прызнанні, што інфраструктура матэрыял ІТ, што «Воблака» павінен трымаць вас ад неабходнасці мець справу з, і ёсць трохі старой школы DIY-адчуваць сябе да іх. Калі вы невялікая кампанія, ці проста не хочаце болю рэалізацыі, і хочаце быць з выкарыстаннем найбольш узгодненымі перадавой практыкай па-за скрынкі і да гэтага часу лічацца карпаратыўным класам, заўсёды ёсць Demandware, або мноства іншых прадуктаў, якія запаўняюць нішы паміж Endeca / Lucene на адным полюсе і ў самопринятом экзэмпляры WooCommerce на WordPress на іншым.

Акрамя таго, усё сапраўды вялікія тэхнічныя гульцы, такія як IBM, Microsoft і SAP, прапанаваць нешта для вырашэння вэб-гранёных праблем пошуку занадта. Endeca і Lucene імёны, якія прыходзяць зноў і зноў, калі вы з'яўляецеся SEO вырашэння гэтых праблем, так што гэта лёгкі спосаб вызначыць гэты шматгранны пошук абмеркаванне, але майце на ўвазе, што ёсць на самой справе іншыя на кожным канцы спектру, і незлічонае мноства больш паміж імі. Напрыклад, калі вы хочаце, каб воблака-лёгкасць Demandware, але з магчымасцю прымаць усё гэта ў доме, калі-небудзь, каб пачаць напластоўваць ў экстрэмальных наладах для дасягнення канкурэнтнага перавагі, ёсць Hybris на высокім канцы, і Magento на нізкім канцы.

Два крайніх сцэнара

Але ў рэшце рэшт, усе гэтыя інфраструктуры маюць некаторую форму аграненыя пошуку і прыходзіцца мець справу з тым жа наборам праблем. Як правіла, агранены пошук патрапіць у адну з дзвюх катэгорый. Усе мільёны патэнцыйных старонак, «магчымыя» альбо:

  1. Цалкам нябачны для пошуку з-за той ці іншай прычыне
  2. Бачны для пошуку, але і стварае сайт, які Googlebot ніколі не скончыць сканаванне і даследаваць

У першым сцэнары, кантаваныя пошукавыя сайты, якія нябачныя для пошуку альбо нябачныя, паколькі карыстацкі інтэрфейс пабудаваны з старамодным CGI-формай элементамі і патрабуе прадставіць або выкананне JavaScript для пошуку, каб выканаць, ці гэта на самай справе сканіравацца, але ўладальнікі сайта «выключыў» здольнасць кампаніі Google поўзаць / INDEX сайт праз robots.txt або якой-небудзь іншы механізм, як правіла, таму, што яны пакутавалі ад болю сітуацыі нумар два.

У сітуацыі нумары два, увесь шматгранны пошук па сайце і ўсе патэнцыйныя старонкі могуць генераваць зусім сканеры Google. Тым не менш, старонкі ніколі канцоўка, і 99% ад гэтага бясконцага поўзання з'яўляецца дубляваным кантэнтам. Іншымі словамі, гэта павук-пастка. Google бачыць увесь сайт, але з-за недарэчнасці задачы, якую паставіў перад ім, ён будзе адмовіцца і перайсці на наступны сайт.

Рэдка думаў пра гэта , але крытычна важным з'яўляецца тое , што гэты павук-пастка будзе мець уплыў на пазіцыі сайта ў пошукавых развядзенне або цалкам заблытвання ў «базавы набор» важных старонак вашага сайта можа / павінен быць генерыруючых , якія могуць быць размешчаны ў просты ў -Откройте націсніце-шляху (асноўны і другаснай навігацыі) і быць пераробленыя для ўзгаднення з вядомымі шуканых-на і вядомых преобразовательных ключавых слоў.

Мысляць Actual Real-Life Trees

Такім чынам, хітрасць заключаецца ў тым, каб асвятліць, што асноўнай набор старонак, як асноўны ствол і галіны дрэва. Яны, магчыма, ўяўляюць сабой першыя дзве абраныя грані або якой-небудзь іншы механізм для «вызначэння асноўнага набору старонак», які каардынуецца з тым, што вашыя даследаванні ключавых слоў будзе для. Ствол і галіны ядра. Яны ваш майстар набор кананічных без дублюючых старонак-ці былі яны ці не былі фактычна зроблены шляхам выбару кантаваныя параметраў пошуку. (Вашы асноўныя старонкі могуць таксама складацца з іх).

Нават калі ваш сайт можа генераваць мільёны больш старонак, чым гэта, гэта «ядро» где-то ад 100 да 10000 старонак можа быць ваш майстар кананічны набор. Усе астатнія мільёны ў асноўным дублікаты варыяцый могуць мець кананічныя тэг назад у найбліжэйшай камбінацыйнай URL з асноўнага набору. Так, там можа быць нейкі работы на заказ развіцця тут, калі ваш платформа электроннай камерцыі не падтрымлівае такія трукі з уласнага скрынкі.

І гэта толькі адзін з падыходаў да атрымання гэтых павукападобных пасткі пад кантролем, хай усё індэкс ... хай павук-пастка працягвае існаваць ... але быць ясна Google пра тое, што адбываецца, і як любы паўзе міма eventually- відавочна, ядро ​​/ важна, мноства больш-топ і, магчыма, непатрэбная праца. Google-пошук з сайтам мадыфікатарам павінен вярнуцца прыблізна з колькасцю кананічных асноўных старонак цяпер відавочна якая рэкламуе-а не ўсё астатняе, што вы дапускаюць з нізкім прыярытэтам перастаноўкамі.

Лепшыя рашэнні заўсёды тыя, дзе толькі канчатковае колькасць старонак можа быць атрымана з дапамогай сайта, і Google можа закруціць іх усё на працягу некалькіх дзён. паспрабуйце запусціць Якія крычаць Frog супраць сайта (з вялікім аб'ёмам памяці). Калі ён ніколі не сканчаецца, вы можаце мець павук пастку.

Гэта як у любым дрэве, гэта можа быць цяжка, але вы маглі б на самай справе злічыць лісты! Гэта магчыма, але вы скончыце. Так што таксама Якія крычаць жабы скончыць паўзе правільна канчатковы сайт.

Замовіць Пытанні-высечцы Перастаноўкі

Некаторая гібрыдызацыя граняў можа дапамагчы атрымаць сітуацыю пад кантролем, напрыклад, як зрабіць пэўныя аспекты толькі здольныя актываваць у спалучэнні з некаторымі іншымі аспектамі, каб адлюстраваць і забяспечыць захаванне абмежаванняў дадзеных адносін. Вы маглі б разгледзець гэта спалучэнне значна больш канчатковай бурыльныя ўніз навігацыйнай схемы з пошукавымі гранямі. (Грані прадстаўлены канкрэтна на пэўных узроўнях дэталізацыі уніз). Дрыль-уніз рух імкнецца забяспечыць захаванне вызначанага парадку для вашых параметраў радкі запыту (абфусцыраваны ў выглядзе тэчак ці не).

Вы можаце таксама пабудаваць вашыя адрасы старанна, з пэўным гвалтоўным парадкам да гранях, так што вы маеце справу толькі з камбінацыямі замест перастановак. (Выканайце пошук для «камбінацый супраць перастановак.») У прыватнасці, калі вы выбіраеце фасеты A, а затым фаска B ў адным выпадку, а затым фасеты B, а затым фасеты А ў іншым, URL-адрас будзе адрознівацца, але ў выніку старонка тая ж. Гэта можа быць выпраўлена толькі ў алфавітным парадку або з дапамогай нейкай загадзя ўсталяваны парадак для таго, як гэтыя параметры з'яўляюцца на URL.

І, нарэшце, успомніць, што мы прытрымліваемся з дрэва метафара для сайта-іерархіі, мэта дрэва, каб распаўсюдзіць свае галіны, галінкі і лісце, каб стварыць павярхоўную зону з лісцем, каб найбольш эфектыўна захопліваць сонечнае святло. Эвалюцыя формы дрэў, так што яны не працягваюць расці міма кропкі, дзе яны захопліваюць святло найбольш эфектыўна.

Мастацка фарміраванне сайта

Як паказана ў opining гэтага артыкула, большасць гранёных пошукавыя сайты альбо зрабіць іх сайт нябачным для пошуку або немагчыма паўзе моташна. Рэальны адказ дзесьці ў сярэдзіне-артыстычнай-шэйпінгам. Ёсць шмат спосабаў, каб ажыццявіць гэта, ад ўнясення змяненняў у файл robots.txt для наладкі вашага Google Search Console (раней вэб-майстроў Tools) настройкі для змены мета-тэгаў на ваш погляд-крыніцы.

Рашэнні разнастайныя, і ўсё павінна быць накіравана на агульнай стратэгіі таргетынгу на ключавыя словы, і на аснове таго, што падтрымліваецца вашай тэхналагічнай платформы і рэалізуюцца вашай камандай. У адрозненне ад натуральных дрэў, максімальная форма вызначаецца абмежаваннямі прыроды, кантаваныя сайты могуць расці раскаваны, і вы ніколі не можаце ведаць гэта, акрамя ніколі не працуе добра ў Google.