两张是一个数据科学在伍斯特理工学院博士生。他的研究集中在大规模的时间序列分析、查询处理和索引优化、分布式系统和深入了解跟踪。他有更多的十年在华为和爱立信研发经验。
大量的时间序列数据不断生成和收集要求分布式大规模发展的时间序列数据处理平台。bob体育客户端下载索引中起关键作用的加速时间序列相似性查询这些系统的依赖。然而,最先进的技术,包括广泛采用iSAX-based索引,在缺少有效利用现代分布式系统的并行能力构建索引超过数十亿的时间序列数据的数据(TBs)。
我们提出一个索引框架基于Apache的火花,这是由一种新的索引树,和相关的新签名,索引和查询billion-scale时间序列。这个框架由一个全球集中指数和地方分布式索引。这新索引不仅减少了深度和索引树的大小显著,而且更有效地维护相似关系与现有技术相比。我们进行了广泛的实验合成和真实的数据集。
评价结果表明,在10亿年的时间序列数据集,又建设非集群状态指数约60%的速度比最先进的系统,而聚集索引是83%的建设速度比最先进的系统。
此外,执行精确匹配查询的平均响应时间减少了50%,而kNN-Approximate查询的准确性和现有技术相比从3%上升到40%。
会话标签:# SAISEco5