なんで動いてるのかよくわかってないけど何故か3tokens/sぐらいの速度で出力してくれてる
Please Login to reply.
そういうことですか、メインメモリにオフロードすれば、その速度で動きます、普通はVRAM内であればcudaやvulkenのllama.cppで30~40tokens/sで動きます
thinkingがあると、流石に3tokens/sは厳しいので...