Meta开源的大语言模型LLaMA已经可以在笔记本甚至手机上进行使用,来自GitHub的项目 llama.cpp ,使用纯C/C++做推理,还专门对ARM芯片做了优化。作者实测,M1芯片MacBook Pro上即可运行,另外也支持Windows和Linux系统。还是这个C++移植版本,有人成功在4GB内存的树莓派4上成功运行了LLaMA的 70亿参数版本。虽然速度非常慢,大约10秒生成一个token(也就是一分钟蹦出4.5个单词)。还有人把LLaMA模型量化压缩(权重转换成更低精度的数据格式)后成功在Pixel 6安卓手机上运行(26秒一个token)。Pixel 6使用谷歌自研处理器Google Tensor,跑分成绩在骁龙865+到888之间,也就是说新一点的手机理论上都能胜任。
Discussion
No replies yet.