Búsqueda facetada Gone Wild: aprovechando efectivamente a Endeca y Lucene para SEO

La búsqueda de facetas solía ser bastante rara. Ahora, parece estar en todas partes! Una de las cosas que se rompe con más frecuencia en los sitios de comercio electrónico de hoy es obtener información errónea sobre cómo contrarrestar la visibilidad de los sitios con esta función. Nos encontramos con los mismos problemas una y otra vez aquí en Flying Point Digital, y desde una perspectiva SEO, no se trata simplemente de "hacer mejores páginas de categorías". Aunque eso es una parte importante de la solución, es solo la mitad de la historia.

Gracias, capitán obvia

Hay suficiente supervisión o idea errónea de lo que está pasando con la búsqueda facetada y lo buena que puede ser esta técnica de navegación del sitio para SEO, que es hora de que escribamos un artículo. Es la misma historia, antigua, accidental, de la trampa de la araña, pero con un giro. O, deberíamos decir con nuevas dimensiones. Para aquellos que han estado en la industria de SEO por un tiempo, es probable que haya mucha información para inferir y solucionar el problema. La búsqueda facetada crea una trampa de araña tan grande como cada combinación de posibles selecciones de facetas, siempre que su navegación sea "fácil de buscar".

Problema definido. Soluciones implícitas. Ustedes perros viejos salados de la industria SEO pueden desaparecer. Para aquellos que solo escucharon o trataron con esto por primera vez, siga leyendo. Primero lo sumergiremos en un poco de la historia, la mala situación que a menudo existe en esos sitios, y luego, finalmente, presentaremos algunos trazos generales de una posible solución.

Primero lo sumergiremos en un poco de la historia, la mala situación que a menudo existe en esos sitios, y luego, finalmente, presentaremos algunos trazos generales de una posible solución

Millones de catálogos de productos

Donde sea que haya comercio electrónico con grandes catálogos de millones, o incluso decenas de miles de productos, hay datos estructurados como precio, color y tamaño para describirlo todo. Y el término elegido para describir las interfaces de usuario creadas alrededor de la búsqueda y el filtrado utilizando dichos descriptores de producto es facetas.

La búsqueda por facetas es solo todos los filtros en los que puede hacer clic para refinar su búsqueda, más allá de insertar palabras clave o profundizar en la navegación. Aquí hay algunas definiciones formales, y una insensibilidad implícita al orden (que no está presente en la navegación detallada). La exploración a través de menús sensibles al orden (como los hipervínculos web) implica cierta finalidad para su exploración. Todo lo que "encuentra" es análogo a los archivos en un disco duro o nodos en un árbol. Si bien es posible, simplemente es más difícil crear trampas para arañas con la navegación detallada. Es cómo funciona la Web en su mayoría, y es lo que hizo que la búsqueda e índice de Google sea un sistema tan brillante y eficaz. También es lo que le ha dado a Google una reputación injusta por "no gustar" los sitios dinámicos.

Trampas de araña y mensajes mixtos

Tan pronto como se introduce un signo de interrogación en la URL, el sitio se considera "dinámico" y el sitio podría continuar para siempre. Piense en una página web de calendario en la que siempre puede hacer clic en el enlace "al día siguiente". Es realmente tan simple crear una trampa de araña. Y no es la existencia del signo de interrogación lo que hace que el sitio sea dinámico, malo o ilegible para Google de ninguna manera. Es que el signo de interrogación está presente en los tipos de sitios que Google tiene que dejar de lado en algún momento, y continuar con el negocio de los sitios de rastreo que no hacen que las cosas sean miserables. O bien, todos los recursos aparentemente infinitos de Google se gastarían rastreando ese único calendario infinito en un pequeño sitio.

Los sitios dinámicos (o URL) no son intrínsecamente malos, como algunas personas sienten. Lo que es malo es lo fácil que es hacer trampas accidentales y nunca darse cuenta de que incluso tienes el problema. Desde el lado de Google, están llegando al siguiente sitio de una manera realista, por lo que no pasan todo el tiempo haciendo girar sus ruedas. Google tiene mucha más disposición en estos días para sumergirse intrépidamente en las trampas de las arañas, retirar algunos millones de páginas y ver si no pueden darle ningún sentido.

En este artículo, nos centramos en un tipo particular de trampa de araña dinámica de URL, tal como lo genera el esquema de navegación a menudo llamado búsqueda facetada. Palabra divertida, facetas. Te hace pensar en las caras cortadas de una joya. Supongo que eso sirve para el negocio de comercio electrónico simplemente bien y es más fácil que decir búsqueda parametrizada o atribuida arbitrariamente o multidimensional o filtrada por campos. No todas las búsquedas parametrizadas son facetas. Las facetas tienden a permitirse ir en diferentes órdenes y en permutaciones aparentemente infinitas, tanto lo que las hace "facetas" como una trampa de araña particularmente desagradable.

Endeca y lucene

Estamos notando problemas con más frecuencia en los sitios de búsqueda facetada, porque ahora es más fácil hacer sitios que lo usen. Esta técnica de navegación solía ser considerablemente más rara debido al costo y la experiencia requerida para configurarlo, y los requisitos del servidor para entregar esta función (con datos precisos) a escala. Eso está cambiando. No importa en qué se encuentren bloqueados sus datos, algunos productos como Endeca (ahora, de Oracle) o Lucene (un proyecto de Apache) pueden barrerlo y construir la base de datos y los índices necesarios para conectarse a los componentes de construcción de sitios que tienen facetas. buscar en un sitio.

Endeca ha sido durante mucho tiempo el software comercial dominante de clase empresarial para ofrecer búsquedas facetadas, por lo que escuchas que se invoca su nombre cuando surge este tema. Pagarás por esa confianza, por supuesto. Pero si tiene su propia confianza y un sólido equipo de desarrolladores, existe la alternativa de pila de software Lucene no propietaria (de código abierto y gratuita).

Lucene, como me dijeron, ya que no soy un desarrollador de experiencia con esta pila de software en particular, hace casi todo lo que hace Endeca, incluso con rendimiento de nivel empresarial, pero de forma gratuita. Al igual que con Endeca, en realidad hay una gran cantidad de productos individuales que trabajan juntos en una especie de ecosistema. La parte superior de ese ecosistema es Apache Software Foundation (equivalente a la empresa), luego el proyecto Lucene (equivalente a producto) y después de eso, la parte que forma la interfaz de usuario real de la que estamos hablando, ya sea Solr o Elastic Search.

Así que todo esto de Lucene y Endeca es que las cosas de infraestructura de TI con las que "The Cloud" se supone que evitan que tengas que lidiar con ellas, y que tengan un poco de la sensación de bricolaje de la vieja escuela. Si usted es una empresa más pequeña, o simplemente no quiere problemas de implementación, y desea utilizar las mejores prácticas acordadas fuera de la caja y seguir siendo considerado de clase empresarial, siempre hay Demandware o un host de otros productos que llenan los nichos entre Endeca / Lucene en un extremo y una instancia auto alojada de WooCommerce en WordPress en el otro.

Además, todos los jugadores realmente grandes de tecnología, como IBM, Microsoft y SAP, también ofrecen algo para resolver el problema de búsqueda facetado en la web. Endeca y Lucene son los nombres que aparecen una y otra vez cuando eres un SEO que aborda estos problemas, por lo que esta es una forma fácil de enmarcar esta discusión de búsqueda facetada, pero ten en cuenta que realmente hay otros en cada extremo del espectro. e innumerables más en el medio. Si, por ejemplo, desea esa facilidad de uso de Demandware en la nube, pero con la opción de llevarlo todo de manera interna algún día para comenzar a crear capas de personalización extrema para obtener una ventaja competitiva, está Hybris en la gama alta y Magento en la gama baja.

Dos escenarios extremos

Pero al final del día, todas estas infraestructuras tienen algún tipo de búsqueda facetada y tienen que lidiar con el mismo conjunto de problemas. En general, la búsqueda facetada se divide en una de dos categorías. Todos los millones de páginas potenciales que se "hacen posibles" son:

  1. Completamente invisible para buscar debido a una razón u otra
  2. Visible para buscar, pero crea un sitio que Googlebot nunca terminará de rastrear y explorar.

En el primer escenario, los sitios de búsqueda facetada que son invisibles para la búsqueda son invisibles porque la interfaz del usuario está construida con elementos de forma CGI pasados ​​de moda y requiere un envío o la ejecución de JavaScript para que la búsqueda se ejecute, o es realmente rastreable, pero los propietarios del sitio han "desactivado" la capacidad de Google para rastrear / indexar el sitio a través de robots.txt o algún otro mecanismo, generalmente porque han sufrido los dolores de la situación número dos.

En la situación número dos, Google puede rastrear perfectamente todo el sitio de búsqueda facetada y todas las páginas potenciales que puede generar. Sin embargo, las páginas nunca terminan, y el 99% de ese rastreo interminable es contenido duplicado. En otras palabras, es una trampa de araña. Google ve todo su sitio, pero debido a la ridiculez de la tarea que le asignó, se dará por vencido y pasará al siguiente sitio.

Rara vez se pensó, pero de importancia crítica, es que esta trampa de araña tendrá un impacto en sus rankings de búsqueda al diluir u ofuscar completamente el "conjunto principal" de páginas importantes que su sitio puede / debería generar, lo que podría posicionarse de manera fácil -descubrir las rutas de clic (navegación principal y secundaria) y ajustarlas para alinearlas con las palabras clave de conversión conocidas y buscadas conocidas.

Piense en términos de árboles reales de la vida real

Entonces, el truco es iluminar ese conjunto de páginas básicas, como el tronco principal y las ramas de un árbol. Quizás representen las dos primeras facetas seleccionadas o algún otro mecanismo para "definir el conjunto de páginas principal" que se coordina con la búsqueda de palabras clave. Tronco y ramas son núcleo. Son su conjunto maestro de páginas canónicas no duplicadas, ya sea que se hayan producido o no al elegir parámetros de búsqueda facetados. (Sus páginas centrales podrían estar compuestas de estas).

Incluso si su sitio puede generar millones de páginas más que esto, este "núcleo" de entre 100 y 10.000 páginas puede ser su principal conjunto canónico. Todos los otros millones de variaciones en su mayoría duplicadas podrían poseer etiquetas canónicas de vuelta a la URL de coincidencia más cercana desde el conjunto central. Sí, podría haber algún trabajo de desarrollo personalizado aquí si tu plataforma de comercio electrónico no admite tales trucos listos para usar.

Y ese es solo uno de los enfoques para controlar estas trampas para arañas: deje que todo se indexe ... deje que la trampa para arañas siga existiendo ... pero sea claro para Google sobre lo que está sucediendo y cómo cualquier rastreo pasa por delante de ... El conjunto básico / importante obvio es un trabajo exagerado y quizás innecesario. Una búsqueda en Google con un modificador de sitio debería regresar con aproximadamente la cantidad de páginas centrales canónicas que ahora está anunciando claramente, y NO con el resto, que está admitiendo que son permutaciones de baja prioridad.

Las mejores soluciones son siempre aquellas en las que solo un sitio puede generar una cantidad finita de páginas, y Google puede hojearlas todas en unos pocos días. Intenta correr Rana gritando Contra un sitio (con mucha memoria). Si nunca termina, es posible que tengas una trampa de araña.

Es como en cualquier árbol dado, podría ser difícil, ¡pero en realidad podrías contar las hojas! Es posible, pero terminarás. Así también, Screaming Frog terminará de rastrear un sitio adecuadamente finito.

Los asuntos de orden — reduciendo las permutaciones

Cierta hibridación de facetas puede ayudar a controlar la situación, como hacer que ciertas facetas solo puedan activarse en combinación con otras facetas para reflejar y hacer cumplir las restricciones de relación de datos. Podría considerar esto como una combinación del esquema de navegación mucho más finito y detallado con facetas de búsqueda. (Las facetas se presentan específicamente en ciertos niveles de desglose). La navegación detallada tiende a imponer un cierto orden a los parámetros de su cadena de consulta (ofuscada como carpetas o no).

También puede construir sus URL con cuidado, con un cierto orden forzado para las facetas, de modo que solo esté tratando con combinaciones en lugar de permutaciones. (Realice una búsqueda de "combinaciones frente a permutaciones"). Específicamente, si selecciona la faceta A y luego la faceta B en un caso, pero luego la faceta B y luego la faceta A en otro, las direcciones URL serán diferentes, pero la resultante página de la misma. Esto se puede solucionar simplemente ordenando alfabéticamente o usando un orden preestablecido de cómo deben aparecer los parámetros en la URL.

Y, finalmente, recordando que nos atenemos a la metáfora del árbol para la jerarquía del sitio, el propósito de un árbol es extender sus ramas, ramitas y hojas para crear un área de superficie con hojas para capturar la luz solar de la manera más eficiente. La evolución ha dado forma a los árboles para que no sigan creciendo más allá del punto donde capturan la luz de manera más eficiente.

Modelando Artísticamente un Sitio

Como se indicó en la opinión de este artículo, la mayoría de los sitios de búsqueda de facetas hacen que su sitio sea invisible para la búsqueda o una tarea de rastreo imposible. La respuesta real está en algún lugar en el medio: una formación artística. Hay muchas maneras de lograr esto, desde hacer ajustes a su archivo robots.txt hasta ajustar su configuración de la Consola de búsqueda de Google (anteriormente Herramientas para webmasters de Google), hasta cambiar las etiquetas meta en su fuente de visualización.

Las soluciones son variadas, y todas deben estar dirigidas por una estrategia de orientación de palabras clave global, y en función de lo que sea compatible con su plataforma tecnológica y su equipo pueda implementar. A diferencia de los árboles naturales cuya forma máxima está definida por las limitaciones de la naturaleza, los sitios web de facetas pueden crecer sin inhibiciones, y es posible que nunca lo sepa, a excepción de nunca tener un buen desempeño en Google.