Apache火花MLlib和自动化MLflow跟踪
请注意
MLlib自动化MLflow跟踪集群运行数据砖上弃用运行时10.1毫升以上,它默认是禁用的集群运行砖运行时的10.2毫升以上。相反,使用MLflow PySpark毫升autologging通过调用mlflow.pyspark.ml.autolog ()
,这是默认启用砖Autologging。
在砖使用旧MLlib自动化MLflow跟踪运行时10.2毫升以上,使它通过设置火花配置spark.databricks.mlflow.trackMLlib.enabled真正的
和spark.databricks.mlflow.autologging.enabled假
。
MLflow是一个开源的bob下载地址平台管理端bob体育客户端下载到端机器学习生命周期。MLflow支持跟踪机器学习模型调优在Python中,R, Scala。对于Python笔记本,砖运行时和介绍砖运行时机器学习支持自动化MLflow跟踪对于Apache火花MLlib模型调优。
MLlib自动化MLflow跟踪,当您运行优化代码使用CrossValidator
或TrainValidationSplit
,自动登录MLflow hyperparameters和评价指标。没有自动MLflow跟踪,你必须显式的API调用日志MLflow。
管理MLflow运行
CrossValidator
或TrainValidationSplit
日志优化结果嵌套MLflow运行:
主要或父运行:信息
CrossValidator
或TrainValidationSplit
主要的运行记录。如果有一个活跃的已经运行,信息记录到这个积极和主动跑不停止。如果没有积极运行,MLflow创建一个新的运行,日志,运行返回之前结束。孩子:每个hyperparameter设置测试和相应的评价指标记录到一个孩子的主要运行下运行。
当调用符合()
,砖建议积极MLflow运行管理;也就是说,包装的调用符合()
在一个“与mlflow.start_run ():
”声明。这将确保信息记录下自己的MLflow主要运行,并使它更容易记录附加标记,运行参数或指标。
请注意
当符合()
多次被称为MLflow运行在相同的活跃,多个运行相同的那些日志主要运行。解决名称冲突MLflow参数和标签,MLflow附加一个UUID名称冲突。
下面的Python笔记本演示了自动化MLflow跟踪。
后执行的操作在过去的细胞在笔记本上,MLflow界面应该显示: