RPG-DiffusionMaster是一个全新的无需训练的文本到图像生成/编辑框架，利用多模态LLM的链式推理能力增强文本到图像扩散模型的组合性

13:35 · Jan 23, 2024 · Tue

RPG-DiffusionMaster是一个全新的无需训练的文本到图像生成/编辑框架，利用多模态LLM的链式推理能力增强文本到图像扩散模型的组合性。

该框架采用MLLM作为全局规划器，将复杂图像生成过程分解为多个子区域内的简单生成任务。同时提出了互补的区域扩散以实现区域化的组合生成。此外，在提出的RPG框架中闭环地集成了文本引导的图像生成和编辑，从而增强了泛化能力。

大量实验证明，RPG-DiffusionMaster在多类别对象组合和文本-图像语义对齐方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。特别地，RPG框架与各种MLLM架构（例如MiniGPT-4）和扩散骨干（例如ControlNet）兼容性广泛。
需求人群：

"RPG-DiffusionMaster可用于文本到图像生成和编辑，特别擅长处理复杂的文本提示和多对象多属性关系。"

使用场景示例：

使用RPG-DiffusionMaster生成包含多个对象的图像
利用RPG-DiffusionMaster编辑图像以实现文本语义对齐
采用RPG-DiffusionMaster进行文本到图像生成的实验

产品特色：

利用多模态LLM进行全局规划
将复杂图像生成过程分解为简单生成任务
实现区域化的组合生成
闭环集成文本引导的图像生成和编辑
提高泛化能力
优于其他文本到图像扩散模型

RPG-DiffusionMaster | #框架