Ollama 是一个开源工具,允许用户在本地计算机上轻松运行、部署和交互大型语言模型(LLMs),如 LLaMA 2、Mistral、Gemini 等。它简化了模型的管理和调用流程,适合开发者和研究者进行本地实验或开发 AI 应用。
一、安装 Ollama
支持平台:
启动服务:
安装后,Ollama 会自动在后台运行(默认端口
11434
)。可以通过以下命令管理服务:ollama serve # 启动服务 ollama list # 查看已下载的模型
二、基础使用
下载并运行模型:
ollama run llama2 # 下载并启动 LLaMA 2 模型
- 首次运行会自动下载模型(需网络连接,模型存储在
~/.ollama/models
)。 - 进入交互式界面后,输入文本即可与模型对话,按
Ctrl+D
退出。
- 首次运行会自动下载模型(需网络连接,模型存储在
常用命令:
ollama pull mistral # 仅下载模型不运行 ollama list # 查看本地模型列表 ollama rm llama2 # 删除模型
三、通过 API 调用
Ollama 提供 REST API,支持编程调用:
生成文本:
curl http://localhost:11434/api/generate -d '{ "model": "llama2", "prompt": "为什么天空是蓝色的?" }'
对话模式:
curl http://localhost:11434/api/chat -d '{ "model": "llama2", "messages": [{ "role": "user", "content": "你好!" }] }'
四、自定义模型
使用 Modelfile
定义模型参数并创建自定义模型:
创建 Modelfile:
FROM llama2 SYSTEM """你是一个幽默的助手,回答时尽量加入笑话。""" PARAMETER temperature 0.7
构建并运行:
ollama create my-model -f Modelfile ollama run my-model
五、高级功能
- 多模型并行:同时运行不同模型,调整
num_ctx
参数控制上下文长度。 - GPU 加速:Linux/macOS 支持 Metal 或 CUDA 加速,需安装对应驱动。
Docker 部署:
docker run -d -p 11434:11434 --gpus=all ollama/ollama
六、注意事项
- 硬件要求:7B 参数模型需至少 8GB RAM,13B 模型需 16GB RAM;GPU 可提升速度。
- 网络问题:模型下载慢时可配置镜像源或使用代理。
- 存储路径:模型默认存储在
~/.ollama
,可通过环境变量OLLAMA_MODELS
修改。
这篇教程覆盖了如何安装、使用和自定义 Ollama,包括如何在本地快速部署和调用大语言模型。确保根据自身平台和需求选择适当的安装方式和模型,以充分利用这些强大的 AI 工具。