Nostr Web Client

Meta开源的大语言模型LLaMA已经可以在笔记本甚至手机上进行使用，来自GitHub的项目 llama.cpp ，使用纯C/C++做推理，还专门对ARM芯片做了优化。作者实测，M1芯片MacBook Pro上即可运行，另外也支持Windows和Linux系统。还是这个C++移植版本，有人成功在4GB内存的树莓派4上成功运行了LLaMA的 70亿参数版本。虽然速度非常慢，大约10秒生成一个token（也就是一分钟蹦出4.5个单词）。还有人把LLaMA模型量化压缩（权重转换成更低精度的数据格式）后成功在Pixel 6安卓手机上运行（26秒一个token）。Pixel 6使用谷歌自研处理器Google Tensor，跑分成绩在骁龙865+到888之间，也就是说新一点的手机理论上都能胜任。

Reply to this note

Please Login to reply.

Discussion

No replies yet.