令我们兴奋的是宣布数据bricks总可用性 运行时间5.0内含发布spark2.4.bob体育客户端下载发布后平台关键部分性能大增基准工作量显示总执行时间提高16%,DatabricksDelta从大幅度改善获益元数据缓存提高查询延迟率30%除这些强性能提高外,我们已经打包出 多新特征和改进我现在将突出部分这些
MERGE、DELETE和UPDATE数据架三角洲增强写
Databricks运行5.0 我们改进MERGE命令使用
- 可缩放MERGE命令databricksDelta排除前限合并可扩至数以亿计行
sCD类型1和2查询中现在也可以使用MERGESCD类型2查询通过为维表中给定自然键创建多记录跟踪历史数据databricksDelta当前支持的典型使用案例似有:更多MERGE信息,这些新特征见咨询文档记录. - 子类目前支持LEETE UPDATE命令通常您会插入词串Delete和UPDATE支持DatabricksDelta,例如:
-- 例1取出全事件去哪儿session_时间选择最小化(session_time)从好事件例2取出命令类AS系统t1哪里有问题高山市安全选择流水体从返回命令去哪儿图1.oid=oid例3淡出事件去哪儿类别非内部高山市安全选择类别从事件2去哪儿日期 >0101) |
更新命令和DELETE命令的进一步信息请参考Databricks三角洲文档.
ObjectimIZE命令加DatabricksDelta改进阅读
除发布新特征外,我们投入巨资改善DatabricksDelta系统, 包括提高OTPIMIZE命令性能和稳定性的工作
- ObjectimIZE命令现在尽快分批执行,提高时间性能
- 默认线程数OTPIMZE并行运行极大提高大表优化性能
- databricks运行5.0加速ObjectimIZE写法,在写分治表时避免不必要整理数据
- 从数据键运行时间5.0开始 ObjectimiZEZORDER现在是增量化,消除重写数据文件的需要
Databricks三角洲查询的隔离度提高多引用单数据bricksDelta表(自接等)的任何查询都从同一张快照读取,即使表同时更新
最后,我们要指出小型DatabricksDelta表改进查询延迟度(DatabricksRuntime5.0发布注解)。
结构流-新特征
流源Kafka客户端升级为2.0版,这是一个重要里程碑databricks支持 kafka.iso
新的Azure布流存储文件基础流源反列表查找新文件处理,流源直接读文件事件通知查找新文件这会大大降低AzureBlob存储文档结构流查询成本
更多了解上述新特征并查看Databricks Runtime5.0中全表改进
- 亚马逊网络服务Databricks运行5.0发布注解
- 微软Azure:Azure数据bricks运行5.0发布注解
推荐所有客户升级Databricks Runtime5.0使用这些新特征和性能优化
免费试数据键