なんで動いてるのかよくわかってないけど何故か3tokens/sぐらいの速度で出力してくれてる

Reply to this note

Please Login to reply.

Discussion

そういうことですか、メインメモリにオフロードすれば、その速度で動きます、普通はVRAM内であればcudaやvulkenのllama.cppで30~40tokens/sで動きます

thinkingがあると、流石に3tokens/sは厳しいので...