そういうことですか、メインメモリにオフロードすれば、その速度で動きます、普通はVRAM内であればcudaやvulkenのllama.cppで30~40tokens/sで動きます
thinkingがあると、流石に3tokens/sは厳しいので...
そういうことですか、メインメモリにオフロードすれば、その速度で動きます、普通はVRAM内であればcudaやvulkenのllama.cppで30~40tokens/sで動きます
thinkingがあると、流石に3tokens/sは厳しいので...
No replies yet.