彩云科技发布全新通用模型结构DCFormer

36氪获悉,彩云科技发布了全新通用模型结构DCFormer,其相关论文《Improving Transformers with Dynamically Composable Multi-Head Attention 》将在第41届国际机器学习大会ICML 2024正式发表。在论文中,彩云科技实验证明了在三千亿级训练数据和70亿级模型参数量下,DCFormer效率是Transformer的两倍。

https://36kr.com/newsflashes/2786859856085889?f=rss

Reply to this note

Please Login to reply.

Discussion

No replies yet.