https://arxiv.org/abs/2412.19437
[2412.19437] DeepSeek-V3 Technical Report
DeepSeek-V3についての技術論文。
671Bのパラメータを持つMoE言語モデルで、各トークンに対して37Bがアクティブになる設計です。
効率的な推論とコスト効率の高いトレーニングを目的としています。
https://arxiv.org/abs/2412.19437
[2412.19437] DeepSeek-V3 Technical Report
DeepSeek-V3についての技術論文。
671Bのパラメータを持つMoE言語モデルで、各トークンに対して37Bがアクティブになる設計です。
効率的な推論とコスト効率の高いトレーニングを目的としています。
No replies yet.