深入学习模型推理工作流
对于模型推断深度学习应用程序,砖建议以下工作流。例如笔记本电脑使用TensorFlow PyTorch,明白了深入学习模型推理的例子。
数据加载到DataFrames火花。根据不同的数据类型,数据砖推荐以下方法来加载数据:
图像文件(JPG, PNG):图像路径加载到火花DataFrame。图像加载和预处理输入数据出现在熊猫UDF。
files_df=火花。createDataFrame(地图(λ路径:(路径),file_paths),(“路径”])
TFRecords:加载数据使用spark-tensorflow-connector。
df=火花。读。格式(“tfrecords”)。负载(image_path)
数据源如拼花、CSV、JSON、JDBC、和其他元数据:加载数据使用火花数据源。
执行模型推理使用熊猫udf。熊猫udf使用Apache箭头和熊猫与数据传输数据。做模型推理,以下是广泛的步骤在工作流熊猫udf。
加载训练模型:为了提高效率,砖建议广播模型的权重从司机和加载模型图和从广播获得权重变量在一个熊猫UDF。
负载和输入数据预处理:批量加载数据,数据砖推荐使用特遣部队。data APITensorFlow和DataLoader类PyTorch。同时也支持预取和多线程加载隐藏IO延迟绑定。
模型预测:跑模型推理的数据批处理。
发回的预测引发DataFrames:收集的预测结果,并返回
pd.Series
。