在图像生成技术日新月异的今天,北京智源人工智能研究院(BAAI)推出了一款强大的统一图像生成模型——OmniGen。与现有的模型不同,OmniGen不仅能够实现常规的“文本生成图像”,还支持角色一致性、图像编辑、图像多融合等多种功能,几乎囊括了现有图像生成领域的主要技术能力,因此被称为“万能图像生成模型”。
OmniGen 模型简介
智源推出 OmniGen 的目标是统一图像生成的各种任务。不同于当前图像生成模型依赖 ControlNet、IP Adapter 等辅助模块,OmniGen 单靠自身就能处理多种图像生成任务。其核心设计不仅简洁且高效,极大简化了生成过程的复杂性。
OmniGen 核心功能解析
OmniGen 具备以下功能,全面覆盖目前图像生成的核心应用场景:
1. 文本生成图像(Text-to-Image)
OmniGen 支持通过文本描述生成图像,并能够处理复杂的视觉效果。通过测试,OmniGen 在生成细腻图像方面表现优异,符合大部分用户的需求。
2. 图像编辑(Image Editing)
OmniGen 支持通过文本描述编辑图像中的元素和场景。这一功能在定制化修改图像时非常实用,不需额外模块即可直接调整图像内容。
3. 角色一致性生成
OmniGen 可以针对输入的特定人物或对象生成一致性图像,类似于 InstandID 和 Pulid 模型,尤其适用于生成同一角色的多种场景图像。此外,OmniGen 还能在多人物场景中指定角色。
4. 指代表达生成
OmniGen 的一个亮点在于可以在多对象图像中识别用户指定的目标并生成相关图像。无需复杂的指令,OmniGen 能识别并重新生成用户关注的对象。
5. 图像条件生成(Conditioned Image Generation)
OmniGen 支持基于骨架、深度图等条件生成图像。与传统模型相比,OmniGen 不需要外部工具生成骨架或深度图,只需原图和文本提示词即可生成符合条件的图像。
6. 开发中功能
智源团队表示 OmniGen 的未来版本将引入更多 ControlNet 类似的功能和经典计算机视觉任务(如图像去噪、姿态估计),甚至支持上下文学习能力(In-context Learning),为用户带来更广泛的功能选择。
OmniGen 技术原理
OmniGen 的设计理念以“简洁和高效”为核心。其基本架构包括一个 Transformer 模型和一个 VAE 模块,模型拥有 38 亿参数。与传统模型不同,OmniGen 基于 Phi3-mini 模型的 Transformer,应用双向注意力机制进行图像生成。此外,智源团队还构建了专用的 X2I 数据集,涵盖 1 亿张图像,支持多样化的生成需求。
OmniGen 的使用与本地部署
OmniGen 提供了多种使用方式,便于不同需求的用户体验和部署:
在线使用:用户可以直接访问官网,输入提示词即可生成图像。
官网地址:aiomnigen.com
ComfyUI 自定义节点:安装 OmniGen 的自定义节点,可在 ComfyUI 平台上实现上述所有功能,且不受 NSFW 限制。
项目地址:github.com/AIFSH/OmniGen-ComfyUI
本地部署:OmniGen 提供一键整合包,通过简单配置即可在本地运行,要求显存最低 8GB。
整合包下载:刘悦整合包下载
项目及资源链接
- GitHub 项目地址:github.com/VectorSpaceLab/OmniGen
- 在线体验:aiomnigen.com
OmniGen 通过统一化的架构设计和独特的技术路线,给图像生成模型带来了全新体验。无论是个人图像创作,还是设计师需求,OmniGen 都展现出独特的应用前景。