Ollama 是一个开源工具,允许用户在本地计算机上轻松运行、部署和交互大型语言模型(LLMs),如 LLaMA 2、Mistral、Gemini 等。它简化了模型的管理和调用流程,适合开发者和研究者进行本地实验或开发 AI 应用。


一、安装 Ollama

  1. 支持平台

    • macOS:直接下载安装包或通过 Homebrew 安装:

      brew install ollama
    • Linux:使用一键安装脚本

      curl -fsSL https://ollama.ai/install.sh | sh
    • Windows(预览版):需从官网下载安装程序。
  2. 启动服务

    • 安装后,Ollama 会自动在后台运行(默认端口 11434)。可以通过以下命令管理服务:

      ollama serve  # 启动服务
      ollama list   # 查看已下载的模型

二、基础使用

  1. 下载并运行模型

    ollama run llama2  # 下载并启动 LLaMA 2 模型
    • 首次运行会自动下载模型(需网络连接,模型存储在 ~/.ollama/models)。
    • 进入交互式界面后,输入文本即可与模型对话,按 Ctrl+D 退出。
  2. 常用命令

    ollama pull mistral  # 仅下载模型不运行
    ollama list          # 查看本地模型列表
    ollama rm llama2     # 删除模型

三、通过 API 调用

Ollama 提供 REST API,支持编程调用:

  1. 生成文本

    curl http://localhost:11434/api/generate -d '{
      "model": "llama2",
      "prompt": "为什么天空是蓝色的?"
    }'
  2. 对话模式

    curl http://localhost:11434/api/chat -d '{
      "model": "llama2",
      "messages": [{ "role": "user", "content": "你好!" }]
    }'

四、自定义模型

使用 Modelfile 定义模型参数并创建自定义模型:

  1. 创建 Modelfile

    FROM llama2
    SYSTEM """你是一个幽默的助手,回答时尽量加入笑话。"""
    PARAMETER temperature 0.7
  2. 构建并运行

    ollama create my-model -f Modelfile
    ollama run my-model

五、高级功能

  • 多模型并行:同时运行不同模型,调整 num_ctx 参数控制上下文长度。
  • GPU 加速Linux/macOS 支持 Metal 或 CUDA 加速,需安装对应驱动。
  • Docker 部署

    docker run -d -p 11434:11434 --gpus=all ollama/ollama

六、注意事项

  • 硬件要求:7B 参数模型需至少 8GB RAM,13B 模型需 16GB RAM;GPU 可提升速度。
  • 网络问题模型下载慢时可配置镜像源或使用代理
  • 存储路径:模型默认存储在 ~/.ollama,可通过环境变量 OLLAMA_MODELS 修改。

这篇教程覆盖了如何安装、使用和自定义 Ollama,包括如何在本地快速部署和调用大语言模型。确保根据自身平台和需求选择适当的安装方式和模型,以充分利用这些强大的 AI 工具。

END
本文作者:
文章标题: 本地化AI助手:使用Ollama轻松部署大型语言模型的完整指南
本文地址: https://www.haovps.top/archives/378.html
版权说明:若无注明,本文皆 高性能VPS推荐与IT技术博客 | Haovps.Top 原创,转载请保留文章出处。
cc
最后修改:2025 年 02 月 14 日
如果觉得我的文章对你有用,请随意赞赏