Pencarian Segi Pergi Liar: Secara Efektif Memanfaatkan Endeca & Lucene untuk SEO
Pencarian faceted dulu sangat jarang. Sekarang, sepertinya ada di mana-mana! Mendapatkan detail yang salah tentang bagaimana Anda memperjuangkan visibilitas pencarian situs dengan fitur ini adalah salah satu hal yang paling umum rusak di situs e-commerce saat ini. Kami mengalami masalah yang sama berulang-ulang di sini di Flying Point Digital, dan dari perspektif SEO, ini bukan hanya "membuat halaman kategori yang lebih baik". Meskipun itu merupakan bagian penting dari perbaikan, itu hanya setengah dari cerita.
Terima kasih, Kapten Obvious
Ada cukup pengawasan atau kesalahpahaman tentang apa yang terjadi dengan pencarian faceted dan seberapa baik teknik navigasi situs ini untuk SEO, bahwa sudah saatnya kita menulis artikel. Itu adalah cerita perangkap laba-laba yang sama, tua, dan tidak disengaja, tetapi dengan twist. Atau, haruskah kita katakan dengan dimensi baru. Bagi mereka yang telah berada di industri SEO beberapa saat, itu mungkin banyak informasi untuk menyimpulkan dan memperbaiki masalah. Pencarian faceted menciptakan perangkap laba-laba sebesar setiap kombinasi pilihan facet yang mungkin, selama navigasi Anda "ramah pencarian".
Masalah didefinisikan. Solusi tersirat. Anda anjing tua yang asin dari industri SEO bisa pergi. Bagi mereka yang baru mendengar atau menangani ini untuk pertama kalinya, baca terus. Kami akan menjerumuskan Anda ke dalam sedikit sejarah, situasi buruk yang saat ini sering ada di situs tersebut, dan akhirnya memaparkan beberapa goresan luas dari satu solusi yang mungkin.
Juta Katalog Produk
Di mana pun ada e-commerce dengan katalog besar jutaan, atau bahkan hanya puluhan ribu produk, ada data terstruktur seperti harga dan warna serta ukuran untuk menggambarkan semuanya. Dan istilah yang dipilih untuk mendeskripsikan antarmuka pengguna yang dibangun di sekitar pencarian dan pemfilteran menggunakan penjelas produk tersebut adalah segi.
Pencarian faceted hanyalah semua filter yang dapat Anda klik untuk mempersempit pencarian Anda, di luar memasukkan kata kunci atau menelusuri navigasi. Ada beberapa definisi formal di sini, dan ketidakpekaan urutan tersirat (yang tidak ada pada navigasi drill-down). Mengebor menu yang sensitif terhadap pesanan (seperti hyperlink Web) menyiratkan finalitas tertentu untuk eksplorasi Anda. Segala sesuatu yang Anda "temukan" analog dengan file pada hard drive atau node di pohon. Meskipun memungkinkan, membuat spider-traps dengan navigasi drill-down lebih sulit. Begitulah cara sebagian besar Web bekerja, dan itulah yang membuat Google mencari dan mengindeks sistem yang brilian dan efektif. Itu juga yang memberi Google reputasi tidak adil untuk situs dinamis yang “tidak suka”.
Spider-Traps dan Pesan Campuran
Segera setelah tanda tanya dimasukkan ke URL, situs tersebut dianggap "dinamis", dan situs tersebut dapat berlangsung selamanya. Pikirkan halaman web kalender tempat Anda selalu dapat mengklik tautan "hari berikutnya". Sangat sederhana untuk membuat perangkap laba-laba. Dan bukan adanya tanda tanya yang membuat situs itu dinamis atau buruk atau tidak dapat dibaca oleh Google dengan cara apa pun. Itu tanda tanya ada pada jenis situs Google harus mengesampingkan pada titik tertentu, dan melanjutkan bisnis merangkak situs yang tidak membuat segalanya sengsara. Atau yang lain, semua sumber daya Google yang tampaknya tak terbatas akan dihabiskan untuk menjelajahi satu kalender tak terbatas sederhana di satu situs kecil.
Situs dinamis (atau URL) pada dasarnya tidak buruk, seperti yang dirasakan sebagian orang. Yang buruk adalah betapa mudahnya membuat perangkap laba-laba yang tidak disengaja dan tidak pernah menyadari bahwa Anda bahkan memiliki masalah. Dari sisi Google, mereka hanya masuk ke situs berikutnya dengan cara yang realistis, sehingga mereka tidak menghabiskan seluruh waktu mereka memutar roda mereka. Google memiliki lebih banyak kemauan saat ini untuk terjun ke dalam perangkap laba-laba, menarik beberapa juta halaman, dan melihat apakah mereka tidak dapat memahaminya.
Pada artikel ini, kami berfokus pada satu jenis jebakan URL dinamis seperti yang dihasilkan oleh skema navigasi yang sering disebut pencarian segi. Kata yang menyenangkan, segi. Membuat Anda memikirkan wajah-wajah permata yang terpotong. Saya kira yang melayani bisnis e-commerce baik-baik saja dan lebih mudah daripada mengatakan sewenang-wenang parameterisasi atau dikaitkan atau multidimensi atau pencarian bidang-filtered. Tidak semua pencarian parameter adalah bagian. Sisi cenderung membiarkan diri mereka pergi dalam urutan yang berbeda dan dalam permutasi yang tampaknya tak terbatas - baik yang membuat mereka "sisi" dan perangkap laba-laba yang sangat jahat.
Endeca dan Lucene
Kami memperhatikan masalah dengan situs pencarian faceted lebih sering, karena sekarang lebih mudah untuk membuat situs yang menggunakannya. Teknik navigasi ini dulunya jauh lebih jarang karena biaya dan keahlian yang diperlukan untuk mengaturnya, dan persyaratan server yang gemuk untuk memberikan fitur ini (dengan data akurat) pada skala. Itu berubah. Tidak peduli apa data Anda dikunci, beberapa produk seperti Endeca (sekarang, dari Oracle) atau Lucene (proyek Apache) dapat menyapu melalui itu dan membangun database dan indeks yang diperlukan untuk menyambung ke komponen pembangunan situs yang lapisan faceted cari ke suatu situs.
Endeca telah lama menjadi perangkat lunak komersial kelas enterprise yang dominan untuk menawarkan pencarian segi — itulah sebabnya Anda sering mendengar nama mereka dipanggil ketika topik ini muncul. Anda akan membayar untuk kepercayaan itu, tentu saja. Tetapi jika Anda memiliki kepercayaan diri Anda sendiri, dan tim pengembang yang kuat, ada alternatif tumpukan perangkat lunak Lucene yang tidak berpemilik.
Lucene, seperti yang saya katakan — karena saya bukan pengembang pengalaman dengan tumpukan perangkat lunak khusus ini — melakukan hampir semua yang dilakukan Endeca, bahkan dengan kinerja tingkat perusahaan, tetapi gratis. Seperti halnya Endeca, benar-benar ada sekumpulan produk individual yang bekerja bersama dalam semacam ekosistem. Bagian atas ekosistem itu adalah Apache Software Foundation (setara dengan perusahaan), kemudian proyek Lucene (setara produk) dan setelah itu, bagian yang membuat UI Web aktual yang sedang kita bicarakan — baik Solr atau Pencarian Elastis.
Jadi semua hal Lucene dan Endeca ini memang diakui bahwa infrastruktur IT yang seharusnya membuat Anda tidak berurusan dengan "The Cloud", dan memiliki sedikit nuansa DIY kuno bagi mereka. Jika Anda adalah perusahaan yang lebih kecil, atau tidak ingin kesulitan implementasi, dan ingin menggunakan praktik terbaik yang paling disetujui saat ini dan masih dianggap kelas perusahaan, selalu ada Demandware, atau sejumlah produk lain yang mengisi ceruk antara Endeca / Lucene pada satu ekstrem dan contoh mandiri WooCommerce di WordPress di sisi lain.
Ditambah lagi, semua pemain teknologi yang sangat besar, seperti IBM, Microsoft dan SAP, menawarkan sesuatu untuk menyelesaikan masalah pencarian segi Web juga. Endeca dan Lucene adalah nama-nama yang muncul berulang kali ketika Anda seorang SEO menangani masalah ini, jadi ini adalah cara mudah untuk membingkai diskusi pencarian segi ini, tetapi perlu diingat bahwa benar-benar ada orang lain di setiap ujung spektrum, dan tak terhitung banyaknya di antara keduanya. Misalnya, jika Anda menginginkan Demandware yang mudah dari cloud, tetapi dengan opsi untuk mengambilnya sendiri di suatu hari nanti untuk mulai melakukan layering dalam kustomisasi ekstrem untuk keunggulan kompetitif, ada Hybris di kelas atas, dan Magento di kelas bawah.
Dua Skenario Ekstrim
Tetapi pada akhirnya, semua infrastruktur ini memiliki beberapa bentuk pencarian segi dan harus berurusan dengan masalah yang sama. Secara umum, pencarian faceted termasuk dalam salah satu dari dua kategori. Semua jutaan halaman potensial yang "dimungkinkan" adalah:
- Sama sekali tidak terlihat untuk mencari karena satu atau lain alasan
- Terlihat untuk dicari, tetapi membuat situs yang tidak akan pernah selesai dirayapi dan dijelajahi oleh Googlebot
Dalam skenario pertama, situs pencarian faceted yang tidak terlihat untuk pencarian tidak terlihat karena antarmuka pengguna dibangun dengan elemen bentuk CGI kuno dan memerlukan pengiriman atau eksekusi JavaScript untuk dieksekusi, atau sebenarnya dapat dirayapi, tetapi pemilik situs telah "mematikan" kemampuan Google untuk merayapi / mengindeks situs melalui robots.txt atau mekanisme lain — biasanya karena mereka telah menderita kesusahan situasi nomor dua.
Dalam situasi nomor dua, seluruh situs pencarian faceted dan semua halaman potensial yang dapat dihasilkannya dapat dirayapi dengan sempurna oleh Google. Namun, halaman tersebut tidak pernah berakhir, dan 99% dari perayapan yang tidak pernah berakhir itu adalah konten duplikat. Dengan kata lain, ini adalah perangkap laba-laba. Google melihat seluruh situs Anda, tetapi karena konyolnya tugas yang Anda tetapkan sebelumnya, Google akan menyerah dan pindah ke situs berikutnya.
Jarang dipikirkan, tetapi sangat penting, adalah bahwa perangkap laba-laba ini akan berdampak pada peringkat pencarian Anda dengan menipiskan atau sepenuhnya mengaburkan "kumpulan inti" dari halaman-halaman penting yang dapat / harus dihasilkan oleh situs Anda yang dapat diposisikan dengan mudah -menemukan jalur klik (navigasi utama & sekunder) dan di-tweak untuk menyelaraskan dengan kata kunci yang dicari yang dicari dan dikenal.
Berpikir dalam Istilah Pohon Kehidupan Nyata yang Sebenarnya
Jadi, triknya adalah menyalakan set inti halaman, seperti batang utama dan cabang-cabang pohon. Ini mungkin mewakili dua aspek pertama yang dipilih atau mekanisme lain untuk "mendefinisikan set inti halaman" yang dikoordinasikan dengan apa yang akan dilakukan penelitian kata kunci Anda. Batang dan cabang adalah inti. Mereka adalah set master Anda dari halaman non-duplikat kanonik - apakah mereka benar-benar diproduksi dengan memilih parameter pencarian faceted. (Halaman inti Anda mungkin terdiri dari ini).
Sekalipun situs Anda dapat menghasilkan jutaan halaman lebih banyak dari ini, "inti" dari 100 hingga 10.000 halaman ini dapat menjadi perangkat utama Anda. Semua jutaan variasi duplikat lainnya dapat memiliki tag kanonik kembali ke URL yang paling cocok dari set inti. Ya, mungkin ada beberapa pekerjaan pengembangan kustom di sini jika Anda platform e-commerce tidak mendukung trik luar biasa seperti itu.
Dan itu hanya salah satu pendekatan untuk mengendalikan perangkap laba-laba ini — biarkan semuanya indeks ... biarkan perangkap laba-laba terus ada ... tetapi jelas bagi Google tentang apa yang terjadi, dan bagaimana setiap merangkak melewati akhirnya- inti / perangkat penting yang jelas adalah pekerjaan yang berlebihan dan mungkin tidak perlu. Pencarian Google dengan pengubah-situs akan menghasilkan kira-kira jumlah halaman inti kanonis yang sekarang Anda iklankan — dan BUKAN sisanya, yang Anda akui adalah permutasi prioritas rendah.
Solusi terbaik selalu yang di mana hanya sejumlah halaman terbatas dapat dihasilkan oleh sebuah situs, dan Google dapat menelusuri semua dalam beberapa hari. Coba jalankan Menjerit Katak terhadap situs (dengan banyak memori). Jika tidak pernah selesai, Anda mungkin memiliki perangkap laba-laba.
Ini seperti pada pohon tertentu, mungkin sulit, tetapi Anda benar-benar bisa menghitung daunnya! Itu mungkin, tetapi Anda akan selesai. Begitu juga Screaming Frog akan selesai merayapi situs yang terbatas.
Urutan Urutan — Memotong Permutasi
Hibridisasi aspek tertentu dapat membantu mengendalikan situasi — seperti membuat aspek tertentu hanya dapat diaktifkan dalam kombinasi dengan aspek tertentu lainnya untuk mencerminkan dan menegakkan batasan hubungan data. Anda mungkin menganggap ini kombinasi skema navigasi drill-down yang lebih terbatas dengan aspek pencarian. (Aspek disajikan secara khusus pada level penelusuran tertentu). Navigasi menelusuri cenderung memaksakan urutan tertentu ke parameter string kueri Anda (dikaburkan sebagai folder atau tidak).
Anda juga dapat membuat URL dengan hati-hati, dengan urutan tertentu untuk aspek, sehingga Anda hanya berurusan dengan kombinasi alih-alih permutasi. (Lakukan pencarian untuk "kombinasi vs permutasi.") Secara khusus, jika Anda memilih facet A dan kemudian facet B dalam satu kasus, tetapi kemudian facet B dan kemudian facet A di yang lain, URL-nya akan berbeda, tetapi hasilnya halaman yang sama. Ini dapat diperbaiki dengan hanya mengurutkan huruf atau menggunakan beberapa urutan yang telah ditentukan sebelumnya untuk bagaimana parameter akan ditampilkan di URL.
Dan akhirnya mengingat bahwa kita berpegang teguh pada metafora pohon untuk hierarki situs, tujuan sebuah pohon adalah untuk menyebar cabang, ranting dan dedaunan untuk menciptakan area permukaan dengan daun untuk menangkap sinar matahari dengan sangat efisien. Evolusi telah membentuk pohon sehingga mereka tidak terus tumbuh melewati titik di mana mereka menangkap cahaya dengan paling efisien.
Artistik Membentuk Situs
Seperti yang dinyatakan pada pendapat artikel ini, sebagian besar situs pencarian faceted baik membuat situs mereka tidak terlihat untuk mencari atau tugas merangkak yang tidak mungkin. Jawaban yang sebenarnya ada di suatu tempat di tengah-tengah — pembentuk artistik. Ada banyak cara untuk melakukan ini, dari membuat penyesuaian ke file robots.txt Anda untuk mengubah pengaturan Google Search Console (sebelumnya Webmaster Tools) Anda, untuk mengubah meta tag di sumber tampilan Anda.
Solusinya beragam, dan semua harus diarahkan oleh strategi penargetan kata kunci yang menyeluruh, dan berdasarkan apa yang didukung oleh platform teknologi Anda dan dapat diterapkan oleh tim Anda. Tidak seperti pohon alami yang bentuk maksimumnya ditentukan oleh kendala alam, situs web faceted dapat tumbuh tanpa hambatan, dan Anda mungkin tidak pernah mengetahuinya — kecuali karena tidak pernah berkinerja baik di Google.