概念类

本节描述概念帮助使用Databricks特征存储器和特征表

特征表

特征组织成特征表每一表必须有一个主密钥并用a支持三角洲表并附加元数据特征表元数据跟踪生成表的数据源以及创建或写表笔记本和作业

databricks运行时间13.2或以上,如果工作空间为UnityCatalog启用,可使用UnityCatalog中带主键的任何Delta表作特征表看吧Unity目录特征工程.存储于本地工作空间特征存储器的特征表称为“工作空间特征表”。看吧工作空间特征存储.

特征表特征通常使用常用计算函数计算和更新

特征查找

多不同模型可能使用特征表,并非所有模型都需要每个特征训练模型使用特征特征查找面向每个特征表上头特征查找指定从表使用特征并定义用键加入特征表传递到标签数据create_training_set.

图解a特征查找工作原理例子中,您想训练模型使用两个特征表的特征customer_featuresproduct_features.创建特征查找特征表,指定表名、从表选择特征(列)和连接特征创建培训数据集时使用查找键

接通电话create_training_set中显示API调用指定DataFrame包含原始培训数据标签df),特征查找并使用标签标签内含实战列训练数据必须包含列对应特征表的每个主密钥特征表中的数据加入输入DataFrame结果显示图中为“训练数据集”。

特征查找图

训练集

训练集由特征列表和DataFrame组成,DataFrame包含原始培训数据、标签和主密钥查找特征创建培训集时通过具体说明特征提取特征存储器,并提供培训集作为模型培训期间输入

看吧创建培训数据集实例创建使用训练集

时间序列特征表

数据训练模型常有时间依存性构建模型时,必须只考虑特征值直到观察目标值时间训练基于目标值时间戳后测量数据特征时,模型性能可能下降

时间序列特征表内含时标列,确保训练数据集中的每一行表示行时标中已知的最新特征值时序特征表随时间变化使用,例如时间序列数据、事件数据或时间汇总数据使用时序特征表

创建时序特征表时,用时序列指定主键中时间列timeseries_columns参数推理(UnityCatalog中特征工程)或时标键参数工作空间特征存储使用时允许点到查create_training_set分数批处理.系统使用时间戳连接timestamp_lookup_key由您定义

不使用timeseries_columns参数或时标键时序列只指主键列,特征存储器不应用时序列加入时对时序列应用时序逻辑取而代之的是,它只匹配行精确时间匹配,而不是匹配时标前所有行匹配

离线存储器

离线特征存储用于特征发现、模型训练以及批量推理内含特征表实现三角洲表.

流水

除批量写入外,Databricks特征商店支持流特征计算码可用结构流将原数据流转换为特征

模型打包

机器学习模型使用Databricks特征存储保留引用这些特征推理时间模型可选取特征存储器中的特征值调用者只需提供模型特征主键(例如,用户标识模型从特征存储器检索所有必备特征值

批量推理特征值取离线存储器并加新数据评分前实时推理特征值取自在线商店

组合模型特征元数据使用FeatureEngineeringClient.log_model特征工程UnityCatalogFeatureStoreClient.log_model工作空间特征商店