https://arxiv.org/abs/2412.19437

[2412.19437] DeepSeek-V3 Technical Report

DeepSeek-V3についての技術論文。

671Bのパラメータを持つMoE言語モデルで、各トークンに対して37Bがアクティブになる設計です。

効率的な推論とコスト効率の高いトレーニングを目的としています。

Reply to this note

Please Login to reply.

Discussion

No replies yet.