Post by 提供80kg以内公主抱服务（暂停接单） <img src="https://neodb.social/media/emoji/moresci.sale/konata02.png" class="emoji" alt="Emoji konata02">

31d

#扩散模型加速 #论文导读 @mature

扩散模型的步数蒸馏，指的是在教师模型的指导下，学生模型学会用更少的步数（对应inference steps）生成相似质量的图片。

渐进式蒸馏 Progressive Distillation

渐进式蒸馏方法可以说是最典型的一个步数蒸馏的方法了。

想象你要教一个新手画家（学生模型）快速画画。

原本的画法是：老师（扩散模型）需要画100笔，每一笔都慢慢修正细节（对应扩散模型的100步去噪）。但新手没耐心画100笔，想几笔搞定。这时候就需要“蒸馏”老师的技巧，让新手学会用更少的步骤画出差不多的效果。

怎么教呢？渐进式蒸馏使用了跳步学习的思想：

- 老师先按老方法画完100笔，但记录下关键中间步骤（比如每隔5笔记录一次）。

- 然后告诉新手：“别一步一步画了，你直接从第0笔跳到第5笔，再跳到第10笔，跳过这些中间步骤”。

- 新手练习时，就要模仿老师跳多步后的结果（比如一笔顶老师五笔的效果），这就完成了单次的步数蒸馏（100步->20步）

- 这时候这个20步模型作为教师模型，再去教下一个学生用更少的步数画出相同的结果，反复练几次，新手就能用很少很少的次数画出老师100笔的效果了。

这个渐进压缩步数的过程就是渐进式蒸馏的核心。

为什么需要渐进蒸馏：

1. 直接学习很难训练，容易模式崩塌。

2. 逐步蒸馏避免误差跳跃过大，积累误差。

分数蒸馏 Score Distillation

直接的渐进式蒸馏技术，在压缩后几步的时候效果会急剧下降，于是DMD提出了分数蒸馏的改进方法，通过最小化生成分布与真实分布之间的KL散度，确保生成图像与原始扩散模型输出在分布层面一致，从而使得模型画出来的结果也和原始模型一样好。

提到KL散度大家可能会联想到GAN，这篇文章也提到，对抗蒸馏（下文会解释）的方法一般是引入判别器，区分教师和学生的生成成果，通过对抗loss迫使学生欺骗判别器。作者认为： “对抗训练需要复杂的平衡，且容易导致模式崩塌（mode collapse），而分布匹配通过显式的最小化KL散度，能更稳定地实现一步生成。

对抗训练 Adversarial Training

对抗训练通常是通过构建一个生成对抗网络（GAN）的架构，其中学生模型作为生成器（Generator，通常用教师模型进行初始化），负责生成样本；另外引入一个判别器（Discriminator），用于区分生成的样本是来自学生模型还是教师模型，从而让学生模型的分布接近教师模型的分布。SDXL-Turbo采用的蒸馏方案就是Adversarial Diffusion Distillation（ADD）。

由于引入对抗机制，GAN方法通常生成质量都会比较接近教师模型，但正如前文所说，GAN面临着难以训练，且容易模式崩塌的问题。并且SDXL-Turbo采用的D是传统的图片编码backbone（DINOv2），不支持latent输入，限制了更大分辨率的图片生成，并且只能在t=0（也就是干净去噪的图片）上使用，无法兼容渐进式的蒸馏方法。

SDXL-Lightning结合了对抗蒸馏和渐进式蒸馏，采用和G一样的网络结构的D（都是pre-trained Diffusion Unet）来支持对t的输入，先直接把模型从 128 步直接蒸馏到 32 步，然后按照按32->8->4 ->2 ->1的顺序，增加对抗损失进行渐进式蒸馏。

饺子包完了下一篇就可以蘸醋吃了大家再等等！

1 0 0 View Post & Replies See Original

31d

#扩散模型加速 #论文导读 @mature

Adversarial Post-Training

为了这一包醋包了一整锅饺子，终于谈到APT了！这篇论文同时支持图片和视频的加速，并且只训练一步生成模型，所以从本质上说更像是是在训练一个超级大的GAN（真的make GAN great again了），原始的diffusion更多意义是用在初始化模型上（这也是其自称Post-Training的原因）。所以也会有GAN的各种优缺点，例如难以训练，容易mode collapse，文本控制能力稍弱，生成图片质量更真实，和——快，因为GAN天然就是one-step的。所以这篇论文的主要contribution就是介绍它们用的各种方法来阻止mode collapse，想办法把这个超大GAN（DiT version）训练出来。

先总结一下之前方法的缺点：SDXL-Lightning和DMD等基于蒸馏的方法，需要用教师模型生成大量数据，这对于视频数据来说cost尤其大，并且模型的上限就是教师模型。DMD2和ADD结合了对抗和分数蒸馏，其中对抗训练使用真实数据，分数蒸馏使用教师模型。而UFO-Gen进一步只是用真实的数据做对抗，直接摆脱了对教师模型的依赖。但UFO-Gen使用的判别器是1B的卷积网络。APT改为使DiT作为G和D的backbone，并提出了多个技巧使得训练稳定，避免mode collaps。

首先，论文利用预训练的扩散模型（如diffusion transformer，DiT）对GAN的生成器和判别器进行初始化。相比UFO-Gen使用的1B卷积网络，APT使用了8B的Transformer，判别器的性能更强。

在训练开始前，先通过LCM之类的确定性蒸馏方法（Deterministic methods），对生成器进行初始化。此时生成器虽然一步生成比较模糊，但是是个好的开始，后续会用对抗训练增加生成的质量。而判别器则用原始的预训练模型进行权重初始化，因为作者发现使用原扩散模型权重初始化比用蒸馏模型权重效果更好。

模型的训练遵循对抗优化的思路，在min - max博弈中交替训练生成器和判别器。生成器努力生成能欺骗判别器的样本，判别器则尽力区分真实样本和生成样本。从而让生成器的分布逐渐接近真实分布。

GAN非常难训练且容易mode collaps，为了稳定训练过程，还引入一个近似R1正则化损失（R1不支持FSDP、checkpointing、flash attention这些，所以文章里做了一个近似R1，同样可以达到目标）。

在这样的对抗训练过程中，生成器不断优化，学习生成更逼真的样本。经过训练后，最终的一步生成任务由GAN的生成器执行。生成器在对抗训练中学习到了真实数据的分布特征，具备了直接生成样本的能力，而不再依赖扩散模型迭代去噪的过程。

知识蒸馏是一种有效的压缩模型的手段，而在文生图扩散模型领域里，通常用于步数的压缩。在APT这篇论文中提到的方法，使用真实的数据直接做对抗，并且是直接训练1 step的生成模型，模型加速改进到这一步，其实已经和教师模型几乎没有关系了（只用来初始化）和蒸馏这个概念也没有太大关系，但模型的加速发展历史和加速蒸馏有着莫大的联系的，故有此文。

（问就是认真看完relative works再看正文方法才发现白看了！）

References：

[1] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

[2] Diffusion Adversarial Post-Training for One-Step Video Generation

[3] Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference

[4] SDXL-Lightning: Progressive Adversarial Diffusion Distillation

[5] Progressive distillation for fast sampling of diffusion models

[6] One-step Diffusion with Distribution Matching Distillation

[7] Adversarial Diffusion Distillation

Edited 31d ago

1 0 0 View Post & Replies See Original

30d

#blog 大家好，方便看的博客版本来了，贴完感觉这次确实写得不够浅显易懂，因为这个更多是我的笔记整理出来的而不是专门为了写科普而写，请见谅！

《从DeepSeek R1到APT：知识蒸馏和扩散模型的推理加速》
https://blog.konata.vip/?p=14308

0 0 1 View Post & Replies See Original