跳转到主内容

scrach培训稳定分解 <50k与MosaicML


分享此文章
scrach培训稳定分解 <50k与MosaicML

稳定二号复制不到五万元 开源培训代码3x成本从上个博客文章下降8x原创稳定二版减8x成本,

使用MosaicML训练传播模型之极远超我过去使用工具的提高量" Tony FrancisCEO梦3D

回来啦数月前显示方式bob体育客户端下载MosaicML平台简单廉价从零开始训练大规模扩散模型今日,我们兴奋地展示自己训练赛事的结果下50k训练稳定二基一号7.45天从头开始使用bob体育客户端下载MosaicML平台.

仿真 mycrium装饰
图1:仿真 mycrium装饰整合图像生成设计过程推介创界bob体育客户端下载情感板上所有图像都是用内部扩散模型创建的 从零到零训练到MosaicML平台

训练自己的图像生成模型通过训练自己的传播模型,你可:

  1. 使用专有数据
  2. 标注某些艺术或摄影风格的表示
  3. 避免违反知识产权法,使模型能用于商业

开源代码方法 从零开始训练传播模型 这样你就可以训练你自己查查脱机如果你有兴趣训练自己的模型联系我们测试BOB低频彩并阅读更多 关于工程搭建

搭建

传播模型
图2 获取创意并接受情感各种科目、艺术和摄影风格都由我们的传播模型生成

模型 :扩散模型作曲模型由变式自动编码器(VAE)、CLIP模型、U-Net和扩散噪声调度器组成,均取自HugingfaceDiffuses库所有模型配置都基于stabilityai/stable-diffusion-2-base.

简单扩散模型图
图3:扩展模型简图

数据 :我们训练LAION-5B子集包括只有英语字幕样本 美学评分4.5+与稳定二基相似, 我们做了两个阶段培训 基于图像解析培训数据第一阶段培训使用所有图像解析##256,共7.9亿图像封装样本第二阶段训练中,我们只使用512x512分辨率图像,达3亿图解样本

计算 :两阶段培训共128NVIDIAA100GPUs第一阶段培训在1.6天里为550k迭代运行,第二阶段4.9天为850k迭代运行,共培训20 051A100小时除培训时间外,我们还预先计算VAE和CLIP模型的潜值,以减少多转数据集时培训时间和费用计算前前隐形需要3 784A100多时,共23 835A100多时假设成本2/A100小时,总价标签为47.7k

技术栈:我们使用作曲家训练框架StreamingDataset装载我们100TB数据bob体育客户端下载MosaicML平台接受128GPU培训评价时克服基础设施挑战

缺失曲线
图4:损失曲线培训bob体育客户端下载平台发现两件硬件故障并自动重开运行而无人工干预损失不连续性是因为第2阶段分辨率从256x256提高至512x512

挑战解决

无论是传播模型或大语言模型,规模化培训都面临重大挑战bob体育客户端下载我们使用mosaicML平台培训传播模型,自动解决这些挑战,以便集中培训最佳模式bob体育客户端下载以下是三大挑战 大规模培训和平台解决方式

基础设施

大数据集大模型培训需要大量计算bob体育客户端下载MosaicML平台在云提供商上无懈可击地编译数以百计GPU举例说,我们的初级培训项目由128A100GPUs组成为确保模型评价不延缓培训速度,我们自动启动不同集群中每个检查站评价运行量使用不同的云提供商,无缝扩展至64GPUs并回溯至8GPUs视可用性而定

即使在培训启动后,软件或硬件故障可能停止培训,让GPU闲置直到有人通知或要求人全天候监听运行bob体育客户端下载幸运的是,MosaicML平台节点特征自动检测失败节点并按需恢复作业自恢复后,我们从故障中恢复并继续进行零人干预培训,避免昂贵停机和人照看刚启动训练

高效软件

软件难以优化配置PyTorch基础作曲库优化培训效率显示于前博客文章作曲家展示出优秀的吞吐量缩放更新时,我们添加了进一步的优化法(Low精度groupNorm低精度图层Norm完全散装数据并行)实现近优强升至128GPUs,成本降为50k并使用作曲家本地演算法EMA接近培训尾声(Termation800k最后阶段)获取EMA所有收益同时存取存储器计算大数培训

管理100TB数据

培训LAION-5B子集,内含7.9亿样本,达>100TB数据数据集大小之大难以管理,特别是当多集群单设局部存储时更是如此。MosaicML流式Dataset库使大规模数据集工作简单快捷StreamingDataset库有三个关键特征对培训运行特别有用:

  1. 混合数据集存储在不同位置基于图像分辨率的标本打入不同的数据集训练时用MosicML流Dataset库训练混合数据集分辨率
  2. 即时中段恢复在一个时代中间立即恢复训练保存时间避免迭代整个数据集 返回原位
  3. 弹性确定论MosaicML流Dataset库确定式打乱数据,即使改变GPU数用于培训这使得我们有可能完全复制训练流 快速简化调试

人评价结果

难以评价图像生成模型,无法替代人类评价盲人评价中 我们测量用户偏爱图像质量即时对齐稳定分解2和扩散模型基于用户偏好我们的结论是两种模型质量相似图5 所有图像均基于Trawbench基准的提示生成图像造纸.更多细节见后续博客贴文很快到来

人文评价
图5:人类图像质量评价结果(左侧)和即时对齐结果(右侧)。误差栏显示95%置信区间。在两次实验中,用户优先率差与测量不确定性相似,因此我们得出结论,两种模型总体质量相似。

下题

bob体育客户端下载描述高层次模型培训细节, 并突显大规模培训挑战, 藉由MosaicML平台避免大规模培训。可惜,尽管我们相信透明性,但由于LAION-5B培训图像生成模型的法律模糊性,我们选择目前不发布模型权重关键原因之一 培训图像生成模型 数据是如此关键

未来数日内, 将发布后续博客文章, 内容包括这项努力的全部技术细节if you're looking to培训自己的传播模型使用与我们相同的工具bob体育客户端下载签名演示mosaicML平台或联系我们社区破解脱机并想跟上最新消息 从MosaicML, 跟踪我们微博

附录

更多图像生成趣味与传播模型团队大开杀戒 开创新题材和风格

扩散模型

传播模型

传播模型

传播模型

传播模型

传播模型

传播模型

传播模型

传播模型

传播模型

传播模型

传播模型