scratch培训稳定分解

稳定二号复制不到五万元开源培训代码3x成本从上个博客文章下降8x原创稳定二版减8x成本,

使用MosaicML训练传播模型之极远超我过去使用工具的提高量" Tony FrancisCEO梦3D

回来啦数月前显示方式bob体育客户端下载MosaicML平台简单廉价从零开始训练大规模扩散模型今日,我们兴奋地展示自己训练赛事的结果下50k训练稳定二基^一号7.45天从头开始使用bob体育客户端下载MosaicML平台.

图1:仿真 mycrium装饰整合图像生成设计过程推介创界bob体育客户端下载情感板上所有图像都是用内部扩散模型创建的从零到零训练到MosaicML平台

训练自己的图像生成模型通过训练自己的传播模型,你可:

使用专有数据
标注某些艺术或摄影风格的表示
避免违反知识产权法,使模型能用于商业

开源代码方法从零开始训练传播模型这样你就可以训练你自己查查来脱机如果你有兴趣训练自己的模型联系我们测试BOB低频彩并阅读更多关于工程搭建

搭建

模型 :扩散模型作曲模型由变式自动编码器(VAE)、CLIP模型、U-Net和扩散噪声调度器组成,均取自HugingfaceDiffuses库所有模型配置都基于stabilityai/stable-diffusion-2-base.

数据 :我们训练LAION-5B子集包括只有英语字幕样本美学评分4.5+与稳定二基相似, 我们做了两个阶段培训基于图像解析培训数据第一阶段培训使用所有图像解析##256,共7.9亿图像封装样本第二阶段训练中,我们只使用512x512分辨率图像,达3亿图解样本

计算 :两阶段培训共128NVIDIAA100GPUs第一阶段培训在1.6天里为550k迭代运行,第二阶段4.9天为850k迭代运行,共培训20 051A100小时除培训时间外,我们还预先计算VAE和CLIP模型的潜值,以减少多转数据集时培训时间和费用计算前前隐形需要3 784A100多时,共23 835A100多时假设成本2/A100小时,总价标签为47.7k

技术栈:我们使用作曲家训练框架StreamingDataset装载我们100TB数据bob体育客户端下载MosaicML平台接受128GPU培训评价时克服基础设施挑战

缺失曲线 — 图4:损失曲线培训bob体育客户端下载平台发现两件硬件故障并自动重开运行而无人工干预损失不连续性是因为第2阶段分辨率从256x256提高至512x512

挑战解决

无论是传播模型或大语言模型,规模化培训都面临重大挑战bob体育客户端下载我们使用mosaicML平台培训传播模型,自动解决这些挑战,以便集中培训最佳模式bob体育客户端下载以下是三大挑战大规模培训和平台解决方式

基础设施

大数据集大模型培训需要大量计算bob体育客户端下载MosaicML平台在云提供商上无懈可击地编译数以百计GPU举例说,我们的初级培训项目由128A100GPUs组成为确保模型评价不延缓培训速度,我们自动启动不同集群中每个检查站评价运行量使用不同的云提供商,无缝扩展至64GPUs并回溯至8GPUs视可用性而定

即使在培训启动后,软件或硬件故障可能停止培训,让GPU闲置直到有人通知或要求人全天候监听运行bob体育客户端下载幸运的是,MosaicML平台节点特征自动检测失败节点并按需恢复作业自恢复后,我们从故障中恢复并继续进行零人干预培训,避免昂贵停机和人照看刚启动训练

高效软件

软件难以优化配置PyTorch基础作曲库优化培训效率显示于前博客文章作曲家展示出优秀的吞吐量缩放更新时,我们添加了进一步的优化法(Low精度groupNorm低精度图层Norm完全散装数据并行)实现近优强升至128GPUs,成本降为50k并使用作曲家本地演算法EMA接近培训尾声(Termation800k最后阶段)获取EMA所有收益同时存取存储器计算大数培训