Ollama 是一个建立在开源推理引擎 llama.cpp 基础上的高效大模型推理工具框架。它支持在多种硬件环境(CPU、GPU等)下运行不同精度的 GGUF 格式模型,让本地设备也能便捷地处理大模型推理。借助简单的命令行操作,开发者只需几步即可启动 LLM 模型服务。如今,Ollama 已集成 ModelScope 平台,用户可以直接加载该平台上托管的数千个 GGUF 模型,实现本地模型推理的流畅体验。
快速入门:一键运行
简单两步启动模型
启用 Ollama 服务
ollama serve
运行任意 ModelScope GGUF 模型
ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUF
在已安装 Ollama 的环境中(建议使用 >=0.3.12 版本),只需上面的简单命令,即可启动 Qwen2.5-3B-Instruct-GGUF 模型。在命令行中,指定模型 ID 格式为 modelscope.cn/{username}/{model}
,例如:
ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUF
ollama run modelscope.cn/second-state/gemma-2-2b-it-GGUF
ollama run modelscope.cn/Shanghai_AI_Laboratory/internlm2_5-7b-chat-gguf
详细安装步骤可以参考 Ollama 官方文档 或 ModelScope Notebook 示例:Ollama 安装指南。
灵活配置精度版本
Ollama 支持加载多种精度的 GGUF 模型,通常一个 GGUF 模型库会包含多种精度版本,例如 Q3\_K\_M、Q4\_K\_M、Q5\_K 等。默认情况下,Ollama 优先使用 Q4\_K\_M 版本,以在推理速度、精度和资源消耗之间取得平衡。如果该版本不存在,系统会自动选择合适的其他版本。
开发者也可以指定使用的精度版本,例如:
ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUF:Q3_K_M
这里的:Q3_K_M
标识了所选用的模型精度,不区分大小写。您也可以直接指定模型文件的全称:
ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUF:qwen2.5-3b-instruct-q3_k_m.gguf
高级自定义选项
Ollama 支持通过自定义 Modelfile 配置文件,调整推理参数。与 ModelScope 对接后,Ollama 会根据 GGUF 模型的相关信息,自动生成每个模型所需的参数配置,包括推理模版和模型参数等。后续将支持模型贡献者在模型库中自定义专属配置文件,敬请期待。
通过 Ollama,我们可以更好地利用 ModelScope 社区的优质模型,快速进行大模型推理,为开发者和数据科学家提供了高效、灵活的本地模型解决方案。