前段时间,百度创始人李彦宏断言开源大模型会逐渐落后,闭源模型将持续领先。然而,Meta用实际行动向他展示了顶级开源大模型的强大实力。
Meta的顶级开源大模型
美国当地时间4月18日,Meta在官网发布了两款开源大模型,参数分别为80亿(8B)和700亿(70B)。这些模型在同类开源模型中表现最佳,逼近了顶级商业模型如GPT-4和Claude3。
与此同时,Meta还计划发布一个参数达4000亿(400B)的超大模型,预计将彻底超越闭源模型的性能。
部署Llama3中文微调版
短短几天内,Huggingface上已经涌现出许多Llama3中文微调版。以下是一些量化模型的性能损失情况:
- 8bit量化:无性能损失。
- AWQ 4bit量化:8B模型损失2%,70B模型损失0.05%。
- AWQ 3bit量化:70B模型损失2.7%。
综合来看,如果追求无性能损失,8B模型用8bit量化,70B模型用4bit量化。如果能接受2-3%的性能损失,8B模型用4bit量化,70B模型用3bit量化。
最佳中文微调版
目前效果最佳的中文微调版是HuggingFace社区的zhouzr/Llama3-8B-Chinese-Chat-GGUF模型,该模型使用firefly-train-1.1M、moss-003-sft-data、school\_math\_0.25M等数据集,能够用中文回答用户提问。
快速部署Llama3中文版
- 打开以下链接:Llama3中文版部署
- 点击右上角的「去 Sealos 部署」。
如果是第一次使用Sealos,需要注册并登录Sealos公有云账号,登录后会跳转到模板的部署页面。
- 点击右上角的「部署应用」,部署完成后,点击应用的「详情」进入详情页面。
- 等待实例状态变为running,Llama3中文版模型就部署完成了,默认提供一个与OpenAI官方接口对齐的API。可以在终端通过API进行测试。
部署WebUI
为了更直观地使用,可以再部署一个WebUI,以Lobe Chat为例:
- 打开以下链接:Lobe Chat部署
填写三个变量:
OPENAI_PROXY_URL
:内网API接口地址,末尾加上/v1
。OPENAI_MODEL_LIST
:+Llama3-8B-Chinese-Chat.q4_k_m.GGUF
。OPENAI_API_KEY
:随便填一个值。
- 点击右上角的「部署应用」,部署完成后,点击应用的「详情」进入详情页面。
- 等待实例状态变为running,点击外网地址打开Lobe Chat的可视化界面。
在界面中切换到Llama3-8B-Chinese-Chat.q4_k_m.GGUF模型,现在可以与模型进行对话了。
总结
尽管当前的Llama3中文模型在CPU上运行效果不如GPU,但对于没有GPU的用户来说,已经是一种极大的便利。有条件的用户可以使用GPU部署70B模型,以获得更好的性能。