そういうことですか、メインメモリにオフロードすれば、その速度で動きます、普通はVRAM内であればcudaやvulkenのllama.cppで30~40tokens/sで動きます

thinkingがあると、流石に3tokens/sは厳しいので...

Reply to this note

Please Login to reply.

Discussion

No replies yet.