比较Apache SparkTM和砖
Apache Spark功能提供了快速、易用和广泛的使用优势,并包括支持一系列用例的api:
- 数据集成和ETL
- 互动分析
- 机器学习和高级分析
- 实时数据处理
Databricks构建在Spark之上,并添加:
- 高可靠性和高性能的数据管道
- 大规模生产数据科学
特征比较
砖运行时 |
运行多个版本的Spark | ||
为云存储访问优化的内置文件系统(AWS S3, Redshift, Azure Blob) | ||
为SQL和Python工作负载提供自动配置资源的无服务器池 | ||
spark原生细粒度资源共享,以实现最佳利用 | ||
计算资源的故障隔离 | ||
更快地写入S3 | ||
在连接和筛选期间计算优化 | ||
快速释放周期 | ||
伸缩计算 | ||
自动缩放本地存储 | ||
集群的高可用性 | ||
多用户集群共享 | ||
在现场实例和按需实例之间自动迁移 | ||
第二级计费 |
管理三角洲湖 |
ACID事务 | ||
模式管理 | ||
批处理/流读写支持 | ||
数据版本控制 | ||
性能优化 |
集成工作区 |
支持多种语言(SQL, Python, R和Scala)的交互式笔记本 | ||
实时协作 | ||
笔记本修订历史和GitHub集成 | ||
一键式可视化 | ||
将笔记本发布为交互式仪表板 |
生产工作和工作流程 |
Spark作业监视警报 | ||
从笔记本到Spark Jobs的一键部署 | ||
在笔记本电脑中构建工作流的api | ||
带监控的生产流 |
企业安全 |
笔记本、集群、作业和结构化数据的访问控制 | ||
审计日志 | ||
支持SAML 2.0的SSO | ||
数据加密(静止和运动时) | ||
合规性(HIPAA, SOC 2 Type 2) |
集成 |
通过认证的ODBC/JDBC连接其他BI工具(Tableau, Looker等) | ||
REST API | ||
数据源连接器 |
专家支持 |
来自设计Spark的提交者的帮助和支持 | ||
SQL支持 |