Faceted Search Gone Wild:有效利用Endeca和Lucene进行搜索引擎优化

分面搜索过去非常罕见。 现在,它似乎无处不在! 如何通过此功能纠正有关网站搜索可见性的细节是当今电子商务网站中最常见的问题之一。 我们在Flying Point Digital上一遍又一遍地遇到同样的问题,从SEO的角度来看,它不仅仅是“制作更好的类别页面”。 虽然这是修复的重要部分,但它只是故事的一半。

谢谢,船长Obvious

对于分面搜索所发生的事情有足够的疏忽或误解,以及这种网站导航技术对搜索引擎优化的好处,是时候我们写了一篇文章。 这是一个古老的,偶然的蜘蛛陷阱故事,但有一个转折。 或者,我们应该说新的维度。 对于那些曾经在SEO行业工作过一段时间的人来说,这可能是推断和解决问题的大量信息。 只要您的导航是“搜索友好”,分面搜索就会创建一个与可能的方面选择的每个组合一样大的蜘蛛陷阱。

问题定义。 解决方案隐含 你咸的SEO行业的老狗可以消失。 对于刚刚第一次听到或处理此事的人,请继续阅读。 我们将首先介绍一些历史,这些网站上经常存在的糟糕情况,然后最后列出一个可能的解决方案。

问题定义。 解决方案隐含 你咸的SEO行业的老狗可以消失。 对于刚刚第一次听到或处理此事的人,请继续阅读。 我们将首先介绍一些历史,这些网站上经常存在的糟糕情况,然后最后列出一个可能的解决方案。

百万产品目录

无论哪里有数百万的大型目录的电子商务,甚至只有数万种产品,都有结构化的数据,如价格,颜色和大小来描述这一切。 选择用于描述围绕使用此类产品描述符进行搜索和过滤的用户界面的术语是方面。

分面搜索只是您可以点击以优化搜索的所有过滤器,除了插入关键字或向下钻取导航。 这里有一些正式的定义,隐含的顺序不敏感(钻取导航中不存在)。 向下钻取订单敏感菜单(如Web超链接)意味着您的探索具有一定的终极性。 您“找到”的所有内容都类似于硬盘驱动器上的文件或树中的节点。 虽然这是可能的,但使用向下钻取导航创建蜘蛛陷阱更加困难。 这就是网络主要运作的方式,也是Google搜索和索引这样一个出色而有效的系统的原因。 这也是谷歌因“不喜欢”动态网站而获得不公平声誉的原因。

蜘蛛陷阱和混合信息

只要在URL中引入问号,该网站就会被视为“动态”,并且网站可以永久存在。 想想日历网页,您可以随时点击“第二天”链接。 创建蜘蛛陷阱真的很简单。 而且问号的存在并不会使网站以任何方式对Google产生动态或糟糕或不可读的影响。 这就是问号出现在谷歌必须在某些时候放在一边的网站类型上,并且继续抓住那些不会使事情变得悲惨的网站的业务。 或者,谷歌的所有看似无限的资源都将用于在一个小网站上抓取一个简单的无限日历。

有些人认为,动态网站(或网址)本质上并不是坏事。 什么是坏的是制造偶然的蜘蛛陷阱是多么容易,从来没有意识到你甚至有问题。 从Google的角度来看,他们只是以一种现实的方式进入下一个网站,所以他们不会把所有时间花在转动轮子上。 如今谷歌更加愿意勇敢地潜入蜘蛛陷阱,撤回几百万页,看看他们是否能够理解它。

在本文中,我们将重点放在由通常称为分面搜索的导航方案生成的一种特定类型的动态URL蜘蛛陷阱上。 有趣的单词,小平面。 让你想起宝石的切面。 我想这对电子商务商业来说很好,而且比任意参数化或归因或多维或现场过滤搜索更容易。 并非所有参数化搜索都是方面。 小平面倾向于允许自己以不同的顺序和看似无限的排列 - 这是什么使它们成为“方面”和如此特别讨厌的蜘蛛陷阱。

恩德卡和卢塞恩

我们更频繁地注意到分面搜索网站的问题,因为现在制作使用它的网站更容易。 由于设置所需的成本和专业知识,以及提供大规模提供此功能(具有准确数据)的强大服务器要求,这种导航技术过去非常罕见。 那是在改变。 无论您的数据被锁定,Endeca(现在,来自Oracle)或Lucene(Apache项目)等产品都可以扫描它并构建连接到构建层的网站构建组件所需的数据库和索引搜索网站。

Endeca长期以来一直是提供分面搜索的主导企业级商业软件 - 这就是为什么当这个话题出现时你听到他们的名字被调用的原因。 当然,你会为这种信心付出代价。 但是如果你有自己的信心,并且有强大的开发团队,那就是非专有(免费和开源)Lucene软件堆栈替代品。

Lucene,正如我所说 - 因为我不是这个特定软件堆栈的经验开发人员 - 几乎所有Endeca都做了,即使是企业级性能,但是免费。 和Endeca一样,在一个生态系统中,真正有一大堆独立产品可以协同工作。 该生态系统的顶层是Apache Software Foundation(相当于公司),然后是Lucene项目(相当于产品),之后是构成我们正在讨论的实际Web UI的部分 - Solr或Elastic Search。

因此,所有这些Lucene和Endeca的东西都是IT基础设施的东西,“云”应该让你不必处理,并且对他们有一点老派的DIY感觉。 如果你是一家规模较小的公司,或者根本不想要实施的痛苦,并且想要使用最开端即用的最佳实践,并且仍然被认为是企业级的,那么总会有Demandware或者其他一些产品填补了Endeca / Lucene之间在一个极端的利基和另一个在WordPress上自我托管的WooCommerce实例。

此外,所有真正的大型技术公司,如IBM,微软和SAP,都提供了解决Web分面搜索问题的方法。 Endeca和Lucene是当你是SEO解决这些问题时反复出现的名字,所以这是构建这个分面搜索讨论的简单方法,但请记住,频谱的每一端都有其他的,中间还有无数次。 例如,如果你想要那些易于使用的云计算产品,但是可以选择在某一天全部内部开始以极端定制方式进行分层以获得竞争优势,那么高端的Hybris和低端的Magento都是如此。

两种极端情景

但最终,所有这些基础设施都有某种形式的分面搜索,必须处理同样的问题。 通常,分面搜索分为两类。 所有数以百万计的潜在页面都“成为可能”是:

  1. 由于某种原因,搜索完全不可见
  2. 可以进行搜索,但会创建一个Googlebot永远不会完成抓取和浏览的网站

在第一种情况下,搜索不可见的分面搜索网站要么是不可见的,因为用户界面是使用旧式CGI表单元素构建的,并且需要提交或执行JavaScript才能执行搜索,或者它实际上是可抓取的,但网站所有者“关闭”了谷歌通过robots.txt或其他一些机制抓取/索引网站的能力 - 通常是因为他们遭受了第二种情况的痛苦。

在第二种情况下,Google可以完全抓取整个分面搜索网站及其可以生成的所有潜在网页。 但是,页面永无止境,99%的永无止境的抓取是重复内容。 换句话说,它是一个蜘蛛陷阱。 Google会看到您的整个网站,但由于您在其之前设置的任务非常荒谬,它将放弃并转移到下一个网站。

很少考虑,但非常重要的是,这个蜘蛛陷阱通过稀释或完全混淆您的网站可以/应该生成的重要页面的“核心集”来对您的搜索排名产生影响,这些页面可以放在易于定位的位置。 - 发现点击路径(主要和辅助导航)并进行调整以与已知的已搜索和已知转换关键字对齐。

从实际的真实树木的角度思考

因此,诀窍是点亮核心的页面集,例如树的主干和分支。 这些可能代表前两个选定方面或“定义核心页面集”的其他机制,与您的关键字研究的目标相协调。 主干和分支是核心。 它们是规范的非重复页面的主要集合 - 无论它们是否实际上是通过选择分面搜索参数生成的。 (您的核心页面可能包含这些内容)。

即使您的网站可以生成比这更多的页面,这个100到10,000页的“核心”可以成为您的主要规范集。 所有其他数百万个大多数重复的变体都可以拥有规范标签,回到核心集中最接近匹配的URL。 是的,如果你的话可能会有一些自定义开发工作 电子商务平台 不支持这种开箱即用的技巧。

而这只是让这些蜘蛛陷阱得到控制的方法之一 - 让一切指数......让蜘蛛陷阱继续存在......但谷歌要清楚发生了什么,以及最终如何爬行 - 明显的核心/重要组合是过度的,也许是不必要的工作。 使用网站修改程序的Google搜索应该返回大约您现在明确广告的规范核心页面的数量 - 而不是其他,您承认的是低优先级排列。

最好的解决方案始终是网站只能生成有限数量的网页,Google可以在几天内完成所有网页。 试试跑步 尖叫的青蛙 对一个网站(有大量的内存)。 如果它永远不会结束,你可能会有一个蜘蛛陷阱。

它就像在任何给定的树上,它可能很难,但你实际上可以计算叶子! 这是可能的,但你会完成。 Screaming Frog也会完成爬行一个适当的有限网站。

订单事项 - 减少排列

某些方面的混合可以帮助控制情况 - 例如使某些方面仅能够与某些其他方面一起激活以反映和实施数据关系约束。 您可能会认为这是更加有限的向下钻取导航方案与搜索方面的组合。 (在某些向下钻取级别特别呈现了构面)。 向下钻取导航会强制对查询字符串参数执行某个顺序(模糊或不作为文件夹)。

您还可以仔细构建您的URL,并对方面执行特定的强制执行,这样您只需处理组合而不是排列。 (搜索“组合与排列”。)具体来说,如果你选择了一个方面A然后在一个案例中分面B,但是然后分面B然后在另一个分区中分面A,则URL将会有所不同,但结果是页面相同。 这可以通过仅按字母顺序排列或使用某些预设顺序来修复参数在URL上的显示方式。

最后记住,我们坚持使用树形隐喻来建立场地层次结构,树的目的是展开树枝,树枝和树叶,创造出能够最有效捕捉阳光的树叶表面区域。 进化塑造了树木,使它们不会继续生长,超过它们最有效捕获光线的点。

艺术塑造网站

正如本文所述,大多数分面搜索网站要么使其网站不可搜索,要么无法进行爬行。 真正的答案是在中间的某个地方 - 一个艺术塑造。 有很多方法可以解决此问题,从调整robots.txt文件到调整Google Search Console(以前的网站站长工具)设置,更改视图源中的元标记。

解决方案是多种多样的,所有这些都应该由一个全面的关键字定位策略指导,并且基于您的技术平台支持并由您的团队实施。 与最大形状由自然约束定义的自然树不同,分面网站可以不受限制地发展,你可能永远不会知道它 - 除了在Google中表现不佳。