彩云科技发布全新通用模型结构DCFormer
36氪获悉,彩云科技发布了全新通用模型结构DCFormer,其相关论文《Improving Transformers with Dynamically Composable Multi-Head Attention 》将在第41届国际机器学习大会ICML 2024正式发表。在论文中,彩云科技实验证明了在三千亿级训练数据和70亿级模型参数量下,DCFormer效率是Transformer的两倍。
彩云科技发布全新通用模型结构DCFormer
36氪获悉,彩云科技发布了全新通用模型结构DCFormer,其相关论文《Improving Transformers with Dynamically Composable Multi-Head Attention 》将在第41届国际机器学习大会ICML 2024正式发表。在论文中,彩云科技实验证明了在三千亿级训练数据和70亿级模型参数量下,DCFormer效率是Transformer的两倍。
No replies yet.