主持的火花
回到术语表什么是托管Spark?
Apache Spark是一个针对大数据的快速通用集群计算系统,围绕速度、易用性和高级分析构建,最初于2009年在加州大学伯克利分校建立。它提供了Scala、Java、Python和R的高级api,以及一个优化的引擎,支持用于数据分析的通用计算图。此外,它还支持其他一些工具,如用于SQL和DataFrames的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX和用于流处理的Spark Streaming。Spark提供两种数据探索模式:
- 互动
- 批处理
托管Spark服务提供以下特性:
- 交互式Scala、Python和R覆盖
- 在Scala, Java, Python中批量提交
- 多个用户可以共享同一个服务器
- 允许用户通过REST从任何地方提交作业
- 不需要对程序进行代码更改
额外的资源
回到术语表