关于谷歌云特性的数据
在其他云上的数据库中可用的某些功能在谷歌云上的数据库的此版本中不可用。本文列出了当前版本中可用的特性和不受支持的特性。有关基于日期的发布说明的详细信息,请参见Databricks平bob体育客户端下载台发布说明.
本版本的特性
下表列出了谷歌Cloud上Databricks Runtime的主要特性。
功能 |
描述和链接 |
---|---|
砖运行时 |
Databricks运行时7.3 LTS及以上。Databricks运行时8.0机器学习及以上。看到Databricks运行时发布. |
Apache火花 |
仅限Spark 3 |
支持地区 |
看到数据云和区域. |
砖的SQL |
砖的SQL为SQL分析人员提供了一个直观的环境,用于运行特别查询和在存储在数据湖中的数据上创建仪表板。 |
统一目录 |
统一目录提供跨Databricks工作区的集中式访问控制、审计和数据发现功能。此版本不包括数据沿袭。 |
三角洲分享 |
三角洲分享是一个安全的数据共享平台,可以让您与组织以外的用户bob体育客户端下载共享Databricks中的数据。 |
优化三角洲湖 |
Delta Lake是一个开源存储bob下载地址层,为数据湖带来可靠性。Delta Lake提供ACID事务,可扩展的元数据处理,并统一流和批处理数据。Delta Lake运行在您现有的数据湖之上,并且完全兼容Apache Spark api。Databricks上的Delta Lake允许您根据工作负载模式配置Delta Lake。看到三角洲湖是什么?. |
集群自动驾驶仪 |
集群自动伸缩选项。看到创建集群. |
集群政策 |
集群策略是管理员定义的、可重用的集群模板,这些模板在集群属性上强制执行规则,从而确保用户创建的集群符合这些规则。作为Databricks管理员,您现在可以创建集群策略并授予用户策略权限。通过这样做,您可以更好地控制所创建的资源,为用户提供他们工作所需的灵活性,并大大简化集群创建体验。看到管理集群策略. |
Delta Live Tables(公开预览) |
Delta Live Tables是一个用于构建可靠、可维护和可扩展的数据处理管道的框架。看到什么是Delta Live Tables?. |
高性能集群 |
支持高并发集群、高内存实例类型(N2系列)以及某些实例类型上的本地ssd。看到创建集群. |
笔记本和协作 |
笔记本是一个基于web的文档界面,其中包含可运行的代码、可视化和叙述文本。看到介绍Databricks笔记本. |
工作 |
作业是在Databricks集群中运行非交互式代码的一种方式。您的工作可以由单个任务组成,也可以是具有复杂依赖关系的大型多任务工作流。看到创建、运行和管理Databricks作业. |
优化自动定量 |
自动添加和删除工作节点以响应不断变化的工作负载,以优化资源使用。看到具有本地ssd的集群实例类型. |
管理控制台 |
工作空间管理任务。看到数据管理介绍. |
单节点集群 |
单节点集群是指由Spark驱动组成的集群,不包含Spark worker。单节点集群支持Spark作业和所有Spark数据源,包括三角洲湖.单节点集群有助于使用Spark加载和保存数据的单节点机器学习工作负载,以及轻量级探索性数据分析。 |
单点登录(SSO) |
Databricks工作区用户使用其谷歌云身份帐户(或GSuite帐户)进行身份验证谷歌的OAuth 2.0实现,它符合OpenID连接规范,并通过了OpenID认证。Databricks向谷歌提供身份验证请求中的openid配置文件作用域值。可选地,客户可以将其谷歌云身份帐户(或GSuite帐户)配置为与外部SAML 2.0身份提供者(IdP)联合,以验证用户凭据。谷歌云身份可以与Azure Active Directory, Okta, Ping和其他idp联合。然而,Databricks只直接与谷歌身份平台api交互。bob体育客户端下载看到单点登录. |
基于角色的访问控制 |
使用访问控制列表(acl)来配置访问工作区对象(文件夹、笔记本、实验和模型)、集群、池、表和作业的权限。看到访问控制. |
令牌管理 |
创建一个可用于验证REST API请求的个人访问令牌。工作区管理员还可以监视令牌,控制哪些非管理员用户可以创建令牌,并设置新令牌的最大生存期。看到管理个人访问令牌. |
谷歌GKE (Kubernetes Engine)数据平面 |
在客户帐户中有一个谷歌云VPC +子网,其中包含工作空间的工作者网络环境。工作区中的所有Databricks Runtime集群都在私人,区域谷歌GKE集群。GKE是一个托管Kubernetes服务。请参阅谷歌文档GKE. |
与谷歌云身份集成 |
Databricks工作区用户使用其谷歌云身份帐户(或GSuite帐户)进行身份验证谷歌的OAuth 2.0实现,它符合OpenID连接规范,并通过了OpenID认证。Databricks向谷歌提供身份验证请求中的openid配置文件作用域值。可选地,客户可以将其谷歌云身份帐户(或GSuite帐户)配置为与外部SAML 2.0身份提供者(IdP)联合,以验证用户凭据。谷歌云身份可以与Azure Active Directory, Okta, Ping和其他idp联合。然而,Databricks只直接与谷歌身份平台api交互。bob体育客户端下载看到单点登录. |
BigQuery连接器 |
在Databricks中可以对谷歌BigQuery表进行读写。看到谷歌BigQuery. |
谷歌云存储连接器(DBFS和direct) |
通过DBFS (Databricks File System)或直接连接数据库中的谷歌GCS桶进行读写操作 |
MLflow |
MLflow是一个用于管bob下载地址理端到端机bob体育客户端下载器学习生命周期的开源平台。Managed MLflow on Databricks提供了跟踪和保护机器学习模型训练运行和运行机器学习项目的集成体验。对托管MLflow的支持于2021年3月22日添加,需要Databricks Runtime 8.1及以上版本。对模型服务的支持于2022年1月10日添加。 |
用于Git集成的回购 |
将Databricks中的工作与远程Git存储库同步。这使得实现开发最佳实践更加容易。Databricks支持与GitHub, Bitbucket和GitLab的集成。看到Git与Databricks Repos的集成. |
砖连接 |
将您最喜欢的IDE (IntelliJ、Eclipse、PyCharm、RStudio、Visual Studio)、笔记本服务器(如Zeppelin)和其他自定义应用程序连接到Databricks集群。看到砖连接. |
与BI工具集成 |
与Power BI、Tableau、TIBCO、lookker和SQL Workbench集成。看到技术合作伙伴bob体育外网下载. |
支持gpu集群 |
使用gpu集群。看到GPU-enabled集群. |
Customer-managed VPC |
将Databricks工作空间部署到您创建和管理的VPC中。看到Customer-managed VPC. |
Databricks CLI(实验性) |
的Databricks命令行界面提供了从命令行方便地访问许多Databricks api。CLI是实验性的。一些命令和选项尚未在谷歌Cloud上的Databricks上进行测试。 |
本版本中未包含的重要功能
一般:
三角洲湖的某些特征
某些托管MLflow特性
某些合作伙伴集成
账户:
可计费的使用日志发送到GCS桶
工作区:
Customer-managed键
笔记本电脑:
托管Jupyter笔记本。然而,你可以,导出一个数据库笔记本到Jupyter
集群:
存储自动定量
凭据透传
集装箱服务(自备集装箱)
集群日志传递
驱动程序和工作节点的不同池
集成:
R Studio服务器
已知的问题
具有尚未使用的实例类型的集群可能启动缓慢。这更有可能发生在刚刚准备好的工作空间上。
对于工作负载标识,Databricks仅支持来自用于部署Databricks工作区的同一项目的服务帐户。
在谷歌云组织级别,如果您使用谷歌组织策略按域限制身份,请在提供Databricks工作空间之前通知您的Databricks帐户团队。
Databricks支持每个工作区最多256个正在运行的集群。
您的GCP集群事件日志页面可能包含“试图将集群大小调整到'
'工作者的目标”消息。这是预期的行为。当请求的worker数量达到50%后,集群被标记为“正在运行”。继续添加更多的工作人员,直到集群达到所请求的数量。临时拥有少于目标数量的工作人员通常不会阻止notebook或Apache Spark命令的运行。 删除工作空间时,Databricks创建的两个GCS桶如果不为空,可能不会自动删除。删除工作区后,您可以在项目的谷歌云控制台中手动删除这些对象。进入如下页面,进行替换
<项目id >
您的谷歌云平台项目ID:bob体育客户端下载https://console.cloud.google.com/storage/browser?project= <项目id >
.Maven库仅在Databricks Runtime 7.3 LTS(没有其他7. LTS)上受支持。x版本)和Databricks Runtime 8.1及以上版本。
在个别情况下,单节点集群可能启动失败,返回
意想不到的状态为集群
错误。如果你遇到这个问题,联络支持.不能创建新的GPU集群在笔记本上安排一项工作.只有当已有GPU集群存在时,才能在其上运行作业从集群页面创建.