之前微博还有网友抨击,我想来想去还是再回应一下。DeepSeek 在V3.1版本之前,训练过程是FP16和FP8混合精度训练的,现在都改成FP8训练,这不是压缩参数在锻炼过程中的显存空间占用,是什么呢?FP8 UE8M0 标准没有小数,数值是离散的指数值,比如 1, 2, 4, 8, 16 … 一直到 2^255 (2 的幂次方)。因为没有小数部分,所以在硬件里实现乘法运算时确实可以大大简化,乘法/除法运算就会退化成移位运算,例如:1.5*4 = 1.5 左移2位(1.5是压缩参数,4是缩放因子)。但加法、减法 在这种格式下依然是非平凡的。我们知道参数在前馈神经网络都是乘法的消耗为主,每个隐层节点和每条边权重相乘最后加和。这个不是对芯片要求的降低这个是什么呢?
给股民讲解这个,就说FP8降低显存要求,UE8M0 降低芯片设计难度,提高计算效率,这又有什么问题呢?一定要把所有技术细节讲完,股民才能彻底理解吗?不讲完全部技术细节就是水平不高?我要那么高干什么呢,又不能当领导。。关键那些真是对什么人都把技术讲明白的,反而当不了领导,永远被印度人领导吧[允悲]
https://postimg.cc/gallery/LX5Rq3Q

