Databricks功能商店
本页解释了什么是特征库,它提供了什么好处,以及Databricks特征库的具体优势。
Databricks Feature Store库仅在Databricks Runtime for Machine Learning上可用,并可通过Databricks笔记本和工作流访问。
请注意
此时,Feature Store不支持写入Unity Catalog亚存储。在支持Unity catalog的工作空间中,你只能将特性表写入默认的Hive metastore中。
什么是功能商店?
特征存储是一个集中的存储库,它使数据科学家能够找到和共享特征,并确保用于计算特征值的相同代码用于模型训练和推断。
机器学习使用现有的数据来建立一个模型来预测未来的结果。在几乎所有情况下,原始数据都需要预处理和转换,然后才能用于构建模型。这个过程被称为特征工程,这个过程的输出被称为特征——模型的构建块。
开发功能是复杂且耗时的。另一个复杂的问题是,对于机器学习来说,需要为模型训练进行特征计算,然后在使用模型进行预测时再次进行特征计算。这些实现可能不是由同一个团队或使用相同的代码环境完成的,这可能会导致延迟和错误。此外,组织中的不同团队通常有类似的特性需求,但可能不知道其他团队已经完成的工作。特性存储就是为解决这些问题而设计的。
为什么使用Databricks Feature Store?
Databricks Feature Store与Databricks的其他组件完全集成。
可发现性。Feature Store UI(可以从Databricks工作区访问)允许您浏览和搜索现有的特性。
血统。当您使用feature Store创建特性表时,用于创建特性表的数据源将被保存并可访问。对于特性表中的每个特性,您还可以访问使用该特性的模型、笔记本、作业和端点。
集成模型评分和服务。当您使用Feature Store中的特性来训练模型时,该模型是用特性元数据打包的。当您使用该模型进行批量评分或在线推理时,它会自动从Feature Store中检索特征。调用者不需要知道它们,也不需要包含逻辑来查找或连接特性来获取新数据。这使得模型部署和更新更加容易。
时间点查找。Feature Store支持需要时间点正确性的时间序列和基于事件的用例。
开始使用功能商店
请参阅以下文章来开始使用Feature Store:
试一试例如笔记本电脑说明了功能存储的功能。
参见参考资料Feature Store Python API.
了解使用特性表.
使用时间序列具有表和时间点查找功能检索某一特定时间的最新特征值,用于训练或对模型进行评分。
了解将功能发布到在线功能商店用于实时服务和自动功能查找。
更多的信息
有关使用Feature Store的最佳实践的更多信息,请下载特色商店综合指南.