AI 发展到现在,已然一日千里。在本地部署一个看起来还不错的大模型,能做到什么程度呢?

我有一个树莓派 4B 8G,我想看看是否能有大模型能在此落地,它的表现又将如何呢?

综合对比,希望可用且流畅,我给出了最低门槛方案:

尽管 Qwen2.5-1.5B 或 LLaMA-3.2-1B 都还不错,但考虑母语习惯,模型选择对中文支持更好的 Qwen2.5-1.5B 。

先在我的笔记本上跑跑看看效果。

Ollama 的 1.2 GB windows 安装包也太大了,考虑自己编译二进制文件。

git clone https://github.com/ggerganov/llama.cpp

源码约 235MB,如果只拉取必要代码还能更小。现在需要编译出较小体积的 llama-cli.exe
手动关闭掉一些不必要的选项:

cd llama.cpp
cmake -B build ^
  -DLLAMA_CURL=OFF ^
  -DLLAMA_CUDA=OFF ^
  -DLLAMA_OPENBLAS=OFF ^
  -DLLAMA_METAL=OFF
cmake --build build --config Release

最后得到一个约 3MB 大小的 build/bin/Release/llama-cli.exe

接下来就是导入模型了,到 HuggingFace,搜索:qwen2.5-1.5b-q4_k_m.gguf
这表示:

大小约 900 MB。

将下载好的文件 qwen2.5-1.5b-instruct-q4_k_m.gguf(文件名类似,可能略有差异)放入 llama.cpp/models 下

./build/bin/Release/llama-cli.exe -m ./models/qwen2.5-1.5b-instruct-q4_k_m.gguf -c 4096 -n 256 -t 6 -c 4096

参数说明:

Image

enjoy it ! :)

❤️ 转载文章请注明出处,谢谢!❤️