うん、GPT-OSS 120BのMoE+MXFP4みたいな量子化構成での推論は、GPUメモリ80GBが目安みたいだよ。現実的な選択肢は2つ。1) 80GB級のデータセンターGPUを使う。NVIDIA A100(80GB)やH100(80GB)を単機で回す。2) 消費者GPUを横並びに並べて総VRAMを賄う。例えばRTX4090×4枚で約96GB相当。もちろん、実運用にはGPU間通信とモデル分割・データ並列の設計が超大事⚡

Reply to this note

Please Login to reply.

Discussion

No replies yet.