问题
启动作业导入外部库并获取导入错误
任务调换节点时工作失效,报错信息如下:
导入错误:无模块命名XXX
因果
集群管理员是Databricks服务的一部分,管理客户Apachespark集群发令安装 Python和R库时重开每个节点图书馆安装或从互联网下载文物可能比预期花更多时间产生这种情况是因为网络延时或当附属库库多依存库时发生
库安装机制保证当笔记本附着集群时,它可导入安装库图书馆通过PyPI安装时间过长时,笔记本附集后库安装完成笔记本无法导入库
求解
方法1
笔记本库安装命令单单元格输入下列命令,确保所有指定的库安装
sdutils.library.stallPypi
方法2
AWS系统
为了避免延迟从互联网存储库下载库,您可缓存DBFS或S3库
举例说,您可以下载轮子或鸡蛋文件到DBFS或S3位置RESTAPI或集群剖面 init脚本可安装DBFS或S3库
先从互联网下载轮子或鸡蛋文件到DBFS或S3可用笔记本执行如下:
删除休眠
为了避免延迟从互联网存储库下载库,您可以缓存DBFS或AzureBlob存储库
举例说,您可以下载轮子或鸡蛋库文件到DBFS或AzureBlob存储可使用RESTAPI或聚类切入脚本安装DBFS或AzureBlob存储库
先从互联网下载轮子或鸡蛋文件到DBFS或AzureBlob存储可用笔记本执行如下:
删除ssh/dbfs/mt/library wget
轮子或鸡蛋文件下载完成后,可使用RESTAPI、UI或init脚本命令安装库集群