PyTorch

PyTorch项目是一个Python包,提供GPU加速的张量计算和高水平的功能构建深度学习网络。许可的细节,请参阅PyTorch许可证医生在GitHub上

监控和调试PyTorch模型,考虑使用TensorBoard

PyTorch砖中包含运行时机器学习。如果您使用的是砖运行时,看到的安装PyTorch安装PyTorch指令。

请注意

这不是一个全面PyTorch指南。有关更多信息,请参见PyTorch网站

单节点和分布式训练

测试和迁移单机工作流程,使用单节点集群

深度学习分布式训练选项,请参阅分布式训练

例如笔记本电脑

PyTorch笔记本

在新标签页打开笔记本

安装PyTorch

砖运行时为毫升

介绍砖运行时机器学习包括PyTorch所以你可以创建集群和开始使用PyTorch。PyTorch安装在砖运行时版本的ML版本使用,看到发布说明

砖运行时

砖建议您使用PyTorch列入介绍砖运行时机器学习。但是,如果你必须使用砖运行时,PyTorch可以安装砖PyPI图书馆。下面的例子展示了如何安装PyTorch 1.5.0:

  • 在GPU集群、安装pytorchtorchvision通过指定以下:

    • 火炬= = 1.5.0

    • torchvision = = 0.6.0

  • 对CPU集群、安装pytorchtorchvision通过使用下面的轮子文件:

    https://download.pytorch.org/whl/cpu/torch-1.5.0%2Bcpu-cp37-cp37m-linux_x86_64.whl https://download.pytorch.org/whl/cpu/torchvision-0.6.0%2Bcpu-cp37-cp37m-linux_x86_64.whl

为分布式PyTorch错误和故障排除

以下部分描述常见的错误信息和故障排除指南类:PyTorch DataParallelPyTorch DistributedDataParallel。大多数这些错误都有可能得到解决TorchDistributor上可用,这是砖运行时毫升13.0及以上。然而,如果TorchDistributor不是一个可行的解决方案,建议解决方案还提供了在每个部分。

下面是一个如何使用TorchDistributor的例子:

pyspark.ml.torch.distributor进口TorchDistributordeftrain_fn(learning_rate):#……num_processes=2经销商=TorchDistributor(num_processes=num_processes,local_mode=真正的)经销商运行(train_fn,1 e - 3)

过程0终止退出代码1

这个错误发生在使用笔记本电脑时,不管环境:砖,本地机器,等。为了避免这种错误,使用torch.multiprocessing.start_processesstart_method =叉而不是torch.multiprocessing.spawn

例如:

进口火炬deftrain_fn(排名,learning_rate):#需要设置,如设置(排名)#……num_processes=2火炬多处理start_processes(train_fn,arg游戏=(1 e - 3),nprocs=num_processes,start_method=“叉”)

服务器套接字失败的绑定[:]:{端口号}(errno:98年- - - - - -地址已经使用)。

出现这个错误,当你重新启动分布式培训打断后细胞而发生。

解决,重新启动集群。如果不解决这个问题,可能有一个错误在训练函数的代码。