使用弹性搜索和Spark简化搜索索引

下载幻灯片

每个维护过搜索集群的人都知道保持在线更新代码和离线重新索引管道同步的痛苦。当根据上下文对数据进行不同的索引时,可能会出现微妙的错误。通过使用Spark & Spark Streaming,我们可以在上下文之间重用相同的索引代码,甚至可以通过直接与正确的索引节点对话来减少开销。

有时我们需要使用搜索数据作为分布式地图减少作业的一部分。我们将演示如何使用弹性搜索作为Spark的侧数据源。

我们还将使用Twitter firehose在两个实际示例中说明这两个任务。在第一个例子中,我们将在地理空间上下文中索引推文,在第二个例子中,我们将使用相同的索引来确定每个地区的顶级标签。



«回来
霍尔顿Karau
关于Holden Karau

Holden是一名跨性别的加拿大开源开发者,专注于Apache Sbob下载地址park、气流、Kubeflow和相关的“大数据”工具。她是Learning Spark、High Performance Spark和Kubeflow for Machine Learning的合著者。她是Apache Spark的提交者和PMC。在试图改进搜索和推荐系统时,她被骗进了大数据的世界,很久以前就忘记了她最初的目标。