先出一个毛坯房,然后不断精装修,反复迭代,不到最后一刻,那个地方都能改。//@刘群MT-to-Death:这个优势是存在的,扩散语言模型可以更充分地利用已有的训练数据,也就是以不同的掩码方式反复训练,相当于同样的训练数据以不同的顺序训练很多遍。

@爱可可-爱生活

扩散语言模型(DLM)在有限唯一数据条件下,训练更多轮次,表现持续优于自回归模型(AR)。具体来看,规模为17亿参数的DLM,在约1.5万亿token计算预算和100亿唯一Python token数据上,超越了同等条件下训练的AR模型。更惊人的是,规模仅10亿参数的DLM,使用1亿token数据,无需任何特殊技巧,便能在HellaSwag和MMLU两项复杂任务中分别达到56%和33%以上的准确率。

这一发现颠覆了我们对模型训练数据效率的传统认知,显示出DLM在“少而精”的数据利用上具备显著优势。研究团队不仅发布了相关论文和代码,还公开了所有训练日志和模型检查点,助力社区深入探讨DLM潜力。

有专家指出,扩散模型和自回归模型实质上都可视为在隐含的能量场中通过梯度引导的采样过程,两者在结构上同构,都是信息密度提升的不同表达形式。这种跨模型的思维方式,助力我们理解模型性能差异的本质。

业内反响热烈:有人形象比喻扩散模型如“反复温习教材的学霸”,在数据有限时能学得更透彻;有人称其为未来更优的技术方向。整体来看,DLM的表现标志着AI训练范式可能的重大转变,尤其在数据稀缺环境下更具竞争力。

这不仅是技术进步,更带来了对如何高效利用数据、设计训练策略的新思考。未来,结合扩散预训练和创新采样方法,DLM有望在多领域实现突破。

原文:x.com/iScienceLuvr/status/1986382687268167708

Reply to this note

Please Login to reply.

Discussion

No replies yet.