砖的概念
本文介绍了有效使用Databricks所需了解的一组基本概念。
有些概念对Databricks是通用的,而另一些则特定于您正在使用的基于人物的Databricks环境:
《数据科学与工程》
Databricks机器学习
一般概念
本节描述适用于所有Databricks基于人物的环境的概念和术语。
帐户和工作空间
在砖工作空间有两层含义:
在云中部署Databricks,作为您的团队用于访问所有Databricks资产的统一环境。您的组织可以选择拥有多个工作区或只有一个:这取决于您的需要。
Databricks基于角色的环境的UI。例如,“工作区浏览器”是指允许您在基于人物的环境中浏览笔记本、库和其他文件的UI。
一个砖账户表示用于计费和支持的单个订阅;它可以包括多个工作区。
认证和授权
本节描述在管理Databricks标识及其对Databricks资产的访问时需要了解的概念。
能进入系统的唯一个人。用户身份由电子邮件地址表示。
用于作业、自动化工具和系统(如脚本、应用程序和CI/CD平台)的服务标识。bob体育客户端下载服务主体由应用程序ID表示。
一个恒等式的集合。组简化了身份管理,更容易分配对工作空间、数据和其他安全对象的访问。所有Databricks身份都可以分配为组的成员。
附加到工作区、集群、作业、表或实验的权限列表。ACL指定授予哪些用户或系统进程对对象的访问权,以及允许对资产进行哪些操作。典型ACL中的每个条目都指定一个主题和一个操作。
类中的工具使用不透明字符串对REST API进行身份验证砖的集成连接到SQL仓库。
《数据科学与工程》
《数据科学与工程》是数据科学家、数据工程师和数据分析师之间协作的经典Databricks环境。本节描述在Databricks数据科学与工程环境中有效工作所需了解的基本概念。
工作空间
一个工作空间是一个用于访问所有Databricks资产的环境。工作区将对象(笔记本、库、仪表板和实验)组织到其中文件夹并提供对数据对象和计算资源的访问。
本节描述Databricks工作区文件夹中包含的对象。
一个基于web的文档界面,其中包含可运行的命令、可视化和叙述文本。
提供有组织的可视化访问的接口。
可用于在集群上运行的笔记本或作业的代码包。数据库运行时包含许多库,您可以添加自己的库。
一个文件夹,其内容通过同步到远程Git存储库进行共同版本管理。
一套MLflow运行用于训练机器学习模型。
数据科学与工程接口
本节描述Databricks支持的访问资产的接口:UI和API。
用户界面
Databricks UI为工作区文件夹及其包含的对象、数据对象和计算资源提供了一个易于使用的图形化界面。
REST API有三个版本:2.1,2.0,1.2.REST API 2.1和2.0支持REST API 1.2的大部分功能和附加功能,是首选的。
数据科学与工程中的数据管理“,
本节描述保存数据的对象,您可以在这些数据上执行分析并将其输入机器学习算法。
blob存储上的文件系统抽象层。它包含目录,其中可以包含文件(数据文件、库和图像)和其他目录。DBFS会自动填充一些数据集你可以用来学习数据库。
数据库
一种经过组织的信息集合,可以方便地访问、管理和更新。
表格
结构化数据的表示。您可以使用Apache Spark SQL和Apache Spark api查表。
Metastore
存储数据仓库中各种表和分区的所有结构信息的组件,包括列和列类型信息、读写数据所需的序列化器和反序列化器,以及存储数据的相应文件。每个Databricks部署都有一个中央Hive metastore,所有集群都可以访问,以持久化表元数据。您还可以选择使用现有的外Hive亚瘤.
数据科学与工程中的计算管理“,
本节描述在Databricks数据科学与工程中运行计算时需要了解的概念。
运行笔记本和作业的一组计算资源和配置。集群有两种类型:通用集群和作业集群。
创建一个通用的集群使用UI、CLI或REST API。您可以手动终止和重启通用集群。多个用户可以共享这样的集群进行协作交互分析。
Databricks作业调度器创建作业集群当你运行工作在一个新的作业集群并在作业完成时终止集群。你不能重新启动作业集群。
一组空闲的、随时可用的实例,可以减少集群启动和自动伸缩时间。当连接到一个池时,集群从池中分配它的驱动程序和工作节点。如果池没有足够的空闲资源来满足集群的请求,则通过从实例提供程序分配新实例来扩展池。当附加的集群终止时,它使用的实例将返回到池中,并可由不同的集群重用。
运行在Databricks管理的集群上的核心组件集。Databricks提供了几种类型的运行时:
砖运行时包括Apache Spark,还添加了大量组件和更新,极大地提高了大数据分析的可用性、性能和安全性。
Databricks运行时机器学习是建立在Databricks运行时上的,为机器学习和数据科学提供了一个现成的环境。它包含多个流行的库,包括TensorFlow、Keras、PyTorch和XGBoost。
开发和运行数据处理管道的框架:
创建、运行和管理Databricks作业:一种非交互机制,用于立即或定期运行笔记本或图书馆。
Delta Live Tables简介:用于构建可靠、可维护和可测试的数据处理管道的框架。
工作负载
Databricks确定了两种不同类型的工作负载定价方案:数据工程(作业)和数据分析(万能)。
工程数据(自动化的)工作负载继续运行作业集群Databricks作业调度器为每个工作负载创建。
数据分析(交互式)工作负载运行在通用的集群.交互式工作负载通常在Databricks中运行命令笔记本.然而,运行工作在一个现有的通用集群也被视为交互式工作负载。
执行上下文
州REPL每种受支持的编程语言的环境。支持的语言有Python、R、Scala和SQL。
Databricks机器学习
的Databricks机器学习环境从数据科学与工程工作空间中提供的特性开始,并添加功能。重要概念包括:
主要组织单位用于跟踪机器学习模型的开发。实验组织、显示和控制对个体的访问记录模型训练代码的运行情况.
一个集中的功能存储库。Databricks Feature Store支持跨组织共享和发现特征,并确保相同的特征计算代码用于模型训练和推断。
一个训练过的机器学习或深度学习模型已经注册在模型注册.