Subnostr

なんで動いてるのかよくわかってないけど何故か3tokens/sぐらいの速度で出力してくれてる

そういうことですか、メインメモリにオフロードすれば、その速度で動きます、普通はVRAM内であればcudaやvulkenのllama.cppで30～40tokens/sで動きます

thinkingがあると、流石に3tokens/sは厳しいので...

Please Login to reply.

No replies yet.