Ollama 是一个建立在开源推理引擎 llama.cpp 基础上的高效大模型推理工具框架。它支持在多种硬件环境(CPU、GPU等)下运行不同精度的 GGUF 格式模型,让本地设备也能便捷地处理大模型推理。借助简单的命令行操作,开发者只需几步即可启动 LLM 模型服务。如今,Ollama 已集成 ModelScope 平台,用户可以直接加载该平台上托管的数千个 GGUF 模型,实现本地模型推理的流畅体验。


快速入门:一键运行

简单两步启动模型

  1. 启用 Ollama 服务

    ollama serve
  2. 运行任意 ModelScope GGUF 模型

    ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUF

在已安装 Ollama 的环境中(建议使用 >=0.3.12 版本),只需上面的简单命令,即可启动 Qwen2.5-3B-Instruct-GGUF 模型。在命令行中,指定模型 ID 格式为 modelscope.cn/{username}/{model},例如:

ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUF
ollama run modelscope.cn/second-state/gemma-2-2b-it-GGUF
ollama run modelscope.cn/Shanghai_AI_Laboratory/internlm2_5-7b-chat-gguf

详细安装步骤可以参考 Ollama 官方文档 或 ModelScope Notebook 示例:Ollama 安装指南


灵活配置精度版本

Ollama 支持加载多种精度的 GGUF 模型,通常一个 GGUF 模型库会包含多种精度版本,例如 Q3\_K\_M、Q4\_K\_M、Q5\_K 等。默认情况下,Ollama 优先使用 Q4\_K\_M 版本,以在推理速度、精度和资源消耗之间取得平衡。如果该版本不存在,系统会自动选择合适的其他版本。

开发者也可以指定使用的精度版本,例如:

ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUF:Q3_K_M

这里的:Q3_K_M标识了所选用的模型精度,不区分大小写。您也可以直接指定模型文件的全称:

ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUF:qwen2.5-3b-instruct-q3_k_m.gguf


高级自定义选项

Ollama 支持通过自定义 Modelfile 配置文件,调整推理参数。与 ModelScope 对接后,Ollama 会根据 GGUF 模型的相关信息,自动生成每个模型所需的参数配置,包括推理模版和模型参数等。后续将支持模型贡献者在模型库中自定义专属配置文件,敬请期待。


通过 Ollama,我们可以更好地利用 ModelScope 社区的优质模型,快速进行大模型推理,为开发者和数据科学家提供了高效、灵活的本地模型解决方案。

END
cc
最后修改:2024 年 11 月 06 日
如果觉得我的文章对你有用,请随意赞赏