前段时间,百度创始人李彦宏断言开源大模型会逐渐落后,闭源模型将持续领先。然而,Meta用实际行动向他展示了顶级开源大模型的强大实力。

Meta发布模型

Meta的顶级开源大模型

美国当地时间4月18日,Meta在官网发布了两款开源大模型,参数分别为80亿(8B)和700亿(70B)。这些模型在同类开源模型中表现最佳,逼近了顶级商业模型如GPT-4和Claude3。

开源模型性能

与此同时,Meta还计划发布一个参数达4000亿(400B)的超大模型,预计将彻底超越闭源模型的性能。

部署Llama3中文微调版

短短几天内,Huggingface上已经涌现出许多Llama3中文微调版。以下是一些量化模型的性能损失情况:

  1. 8bit量化:无性能损失。
  2. AWQ 4bit量化:8B模型损失2%,70B模型损失0.05%。
  3. AWQ 3bit量化:70B模型损失2.7%。

综合来看,如果追求无性能损失,8B模型用8bit量化,70B模型用4bit量化。如果能接受2-3%的性能损失,8B模型用4bit量化,70B模型用3bit量化。

模型量化

最佳中文微调版

目前效果最佳的中文微调版是HuggingFace社区的zhouzr/Llama3-8B-Chinese-Chat-GGUF模型,该模型使用firefly-train-1.1M、moss-003-sft-data、school\_math\_0.25M等数据集,能够用中文回答用户提问。

快速部署Llama3中文版

  1. 打开以下链接:Llama3中文版部署
  2. 点击右上角的「去 Sealos 部署」。
如果是第一次使用Sealos,需要注册并登录Sealos公有云账号,登录后会跳转到模板的部署页面。
  1. 点击右上角的「部署应用」,部署完成后,点击应用的「详情」进入详情页面。

部署应用

  1. 等待实例状态变为running,Llama3中文版模型就部署完成了,默认提供一个与OpenAI官方接口对齐的API。可以在终端通过API进行测试。

API接口

部署WebUI

为了更直观地使用,可以再部署一个WebUI,以Lobe Chat为例:

  1. 打开以下链接:Lobe Chat部署
  2. 填写三个变量:

    • OPENAI_PROXY_URL:内网API接口地址,末尾加上/v1
    • OPENAI_MODEL_LIST+Llama3-8B-Chinese-Chat.q4_k_m.GGUF
    • OPENAI_API_KEY:随便填一个值。
  3. 点击右上角的「部署应用」,部署完成后,点击应用的「详情」进入详情页面。

WebUI部署

  1. 等待实例状态变为running,点击外网地址打开Lobe Chat的可视化界面。

Lobe Chat界面

在界面中切换到Llama3-8B-Chinese-Chat.q4_k_m.GGUF模型,现在可以与模型进行对话了。

模型切换

总结

尽管当前的Llama3中文模型在CPU上运行效果不如GPU,但对于没有GPU的用户来说,已经是一种极大的便利。有条件的用户可以使用GPU部署70B模型,以获得更好的性能。


END
本文作者:
文章标题: Meta发布顶级开源大模型:Llama3中文部署快速指南
本文地址: https://www.haovps.top/archives/146.html
版权说明:若无注明,本文皆 高性能VPS推荐与IT技术博客 | Haovps.Top 原创,转载请保留文章出处。
cc
最后修改:2024 年 07 月 13 日
如果觉得我的文章对你有用,请随意赞赏