Ollama：轻松一键加载本地大模型推理平台，支持多硬件环境和自定义配置

2024 年 11 月 06 日

196 次浏览

1801字数

Ollama 是一个建立在开源推理引擎 llama.cpp 基础上的高效大模型推理工具框架。它支持在多种硬件环境（CPU、GPU等）下运行不同精度的 GGUF 格式模型，让本地设备也能便捷地处理大模型推理。借助简单的命令行操作，开发者只需几步即可启动 LLM 模型服务。如今，Ollama 已集成 ModelScope 平台，用户可以直接加载该平台上托管的数千个 GGUF 模型，实现本地模型推理的流畅体验。

快速入门：一键运行

简单两步启动模型

启用 Ollama 服务
```
ollama serve
```

运行任意 ModelScope GGUF 模型

ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUF

在已安装 Ollama 的环境中（建议使用 >=0.3.12 版本），只需上面的简单命令，即可启动 Qwen2.5-3B-Instruct-GGUF 模型。在命令行中，指定模型 ID 格式为 modelscope.cn/{username}/{model}，例如：

ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUF
ollama run modelscope.cn/second-state/gemma-2-2b-it-GGUF
ollama run modelscope.cn/Shanghai_AI_Laboratory/internlm2_5-7b-chat-gguf

详细安装步骤可以参考 Ollama 官方文档或 ModelScope Notebook 示例：Ollama 安装指南。

灵活配置精度版本

Ollama 支持加载多种精度的 GGUF 模型，通常一个 GGUF 模型库会包含多种精度版本，例如 Q3\_K\_M、Q4\_K\_M、Q5\_K 等。默认情况下，Ollama 优先使用 Q4\_K\_M 版本，以在推理速度、精度和资源消耗之间取得平衡。如果该版本不存在，系统会自动选择合适的其他版本。

开发者也可以指定使用的精度版本，例如：

ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUF:Q3_K_M

这里的:Q3_K_M标识了所选用的模型精度，不区分大小写。您也可以直接指定模型文件的全称：

ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUF:qwen2.5-3b-instruct-q3_k_m.gguf

高级自定义选项

Ollama 支持通过自定义 Modelfile 配置文件，调整推理参数。与 ModelScope 对接后，Ollama 会根据 GGUF 模型的相关信息，自动生成每个模型所需的参数配置，包括推理模版和模型参数等。后续将支持模型贡献者在模型库中自定义专属配置文件，敬请期待。

通过 Ollama，我们可以更好地利用 ModelScope 社区的优质模型，快速进行大模型推理，为开发者和数据科学家提供了高效、灵活的本地模型解决方案。

Ollama：轻松一键加载本地大模型推理平台，支持多硬件环境和自定义配置

Kevin Zhang • 2024 年 11 月 06 日

Ollama：轻松一键加载本地大模型推理平台，支持多硬件环境和自定义配置

快速入门：一键运行

简单两步启动模型

灵活配置精度版本

高级自定义选项

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

OpenWrt 固件上安装 SSRplus、Passwall 和 Hello World 插件的详细教程

通过Ollama和RagFlow构建高效的本地知识库：从部署到应用的全流程指南

使用 Docker 安装 Ollama 部署本地大模型并接入 One-API

OpenWrt 安装与配置 AdGuard Home 实现全局广告拦截的详细教程

2025年最新OpenClash安装与配置指南

如何在 Windows、macOS 和 Linux 系统上创建并运行 Telegram 机器人以发布多频道公告

深入了解 smolGPT：从零训练自己的 GPT 模型

2025年最新OpenClash安装与配置指南

免费调用互联网上本地部署的 DeepSeek-R1 模型：FOFA 检索与 Ollama 服务的实操与安全防护

如何将 DeepSeek 接入 VS Code 实现自动化脚本开发