Regional Prompting FLUX下载 - Regional Prompting FLUX源码下载

Regional Prompting FLUX

其他源码

v1.0.0

下载

扩散变压器的免培训区域提示

陈东^1,2 ·徐建进³ ·郑文兆⁴ ·戴高乐¹ ·王亿达⁵ ·张仁瑞⁶ ·王浩凡² ·张尚航^1*

¹北京大学 · ² InstantX 团队 · ³卡内基梅隆大学 · ⁴加州大学伯克利分校 · ⁵理想汽车公司 · ⁶香港中文大学

扩散变压器的免训练区域提示（Regional-Prompting-FLUX）使扩散变压器（即 FLUX）以免训练的方式具有查找粒度的合成文本到图像的生成能力。根据经验，我们表明我们的方法非常有效并且与 LoRA 和 ControlNet 兼容。

我们的推理速度比基于 RPG 的实现快得多，但占用的GPU 内存更少。

发布

[2024/11/05] 代码已发布，欢迎尝试！
[2024/11/05] 技术报告发布！

演示

自定义区域控制

地区面具	配置	生成结果
红色：鸡尾酒区域（xyxy：[450, 560, 960, 900]）绿色：表格区域（xyxy：[320, 900, 1280, 1280]）蓝色：背景	基本提示： “日落时分，海滩木桌上的热带鸡尾酒。” 后台提示： “一张照片” 区域提示：区域 0： “一杯色彩缤纷的鸡尾酒，盛在玻璃杯中，配有热带水果和纸伞，还有冰块和冷凝水。” 区域 1： “风化的木桌，上面有贝壳和餐巾。” 设置：图像尺寸：1280x1280 种子：124 面膜注射步骤：10 双注射间隔：1 单次进样间隔：2 基础比率：0.1
红色：彩虹区域（xyxy：[0, 0, 1280, 256]）绿色：船舶区域（xyxy：[0, 256, 1280, 520]）黄色：鱼区域（xyxy：[0, 520, 640, 768]）蓝色：宝藏区域（xyxy：[640, 520, 1280, 768]）	基本提示： “一艘雄伟的船在彩虹下航行，充满活力的海洋生物在下面水晶般的海水中滑行，体现了大自然的奇迹，而一个古老的、生锈的宝箱则隐藏在海底。” 区域提示：区域 0： “一道巨大的、光芒四射的彩虹拱过广阔的天空，发出鲜艳的色彩，与轻轻飘动的飘逸云彩融为一体，在整个场景中投射出神奇的光芒，营造出一种超现实、梦幻般的氛围。” 区域 1： “雄伟的船，巨大的风帆在水晶蓝色的海水中翻腾，鸟儿在头顶翱翔。它的船体和风帆反映了大海生动的色调，在这片迷人的海域中航行时，体现出一种冒险和神秘的感觉。世界。” 区域2： “波光粼粼的水面下，成群结队的色彩缤纷的鱼儿嬉戏地游来游去，它们的鳞片闪烁着黄色、蓝色和橙色的色调。微小的海马漂流而过，温柔的海龟在水中嬉戏，营造出活泼迷人的水下场景。” 区域 3： “海底有一个古老的、生锈的宝箱，上面布满了藤壶和海藻。箱子里腐蚀的金属和风化的木材暗示着在水下度过了几个世纪。它的盖子微微半开，露出里面微弱的光芒，就像小东西一样。”鱼儿在周围游来游去，给这个被遗忘的遗迹增添了一丝神秘的气息。” 设置：图像尺寸：1280x768 种子：124 面膜注射步骤：10 双注射间隔：1 单次进样间隔：1 基础比率：0.2
红色：有火炬区域的女人（xyxy：[128, 128, 640, 768]）绿色：背景	基本提示： “一位古老的妇女手持熊熊的火炬，庄严地站着，背景是一场激烈的战斗，捕捉到了历史战争场景中的力量和悲剧。” 后台提示： “一张照片。” 区域提示：区域 0： “前景中站着一位身着古袍的端庄女子，她的脸被高举的火炬照亮。她的表情充满决心和悲伤，她的服装和外表反映了那个历史时期。火炬在她身上投下戏剧性的阴影。特征，它的火焰在黑暗中充满活力地舞动。” 设置：图像尺寸：1280x768 种子：124 面膜注射步骤：10 双注射间隔：1 单次进样间隔：1 基础比率：0.3
红色：狗区域 (assets/demo_custom_0_mask_0.png) 绿色：猫区域 (assets/demo_custom_0_mask_1.png) 蓝色：背景	基本提示： “狗和猫坐在郁郁葱葱的绿草上，在阳光明媚的户外环境中。” 后台提示： “一张照片” 区域提示：区域 0： “一只友好的金毛猎犬，有着奢华的金色皮毛、松软的耳朵和温暖的表情，坐在生机勃勃的绿色草地上。” 区域1： “一只金色的英国短毛猫，圆脸，毛绒毛，铜色的眼睛坐着，威风凛凛” 设置：图像尺寸：1280x768 种子：124 面膜注射步骤：10 双注射间隔：1 单次进样间隔：2 基础比率：0.1	注意：使用分割掩模生成是一个实验函数，生成的图像并不完全受区域约束，我们假设这是因为掩模在下采样过程中遭受退化。

LoRA兼容性

地区面具	配置	生成结果
红色：恐龙区域 (xyxy: [0, 0, 640, 1280])蓝色：城市区域 (xyxy: [640, 0, 1280, 1280])	基本提示： “素描风格：一只可爱的恐龙在卡通城市上空顽皮地吹着小火，呈现出欢快的场景。” 区域提示：区域0： “素描风格，圆眼睛、调皮微笑的恐龙，在城市上空喷出小火焰。” 区域1： “素描风格，城市里有色彩缤纷的建筑，上面轻轻飘浮着细小的火焰，增添了一丝俏皮感。” 设置：图像尺寸：1280x1280 种子：1298 面膜注射步骤：10 双注射间隔：1 单次进样间隔：1 基础比率：0.1 洛拉：路径：Shakker-Labs/FLUX.1-dev-LoRA-Children-Simple-Sketch 规模：1.5 触发词：“素描风格”
红色：UFO 区域（xyxy：[320, 320, 640, 640]）	基本提示： “一个可爱的卡通风格的UFO漂浮在阳光明媚的城市街道上，艺术风格融合了现实和插画元素” 后台提示： “一张照片” 区域提示： 0区： “卡通风格的银色UFO，灯光闪烁，悬停在空中，艺术风格融合现实与插画元素” 设置：图像尺寸：1280x1280 种子：1298 面膜注射步骤：10 双注射间隔：1 单次进样间隔：2 基础比率：0.2 洛拉：路径：Shakker-Labs/FLUX.1-dev-LoRA-Vector-Journey 规模：1.0

地区面具

配置

生成结果

红色：恐龙区域 (xyxy: [0, 0, 640, 1280])蓝色：城市区域 (xyxy: [640, 0, 1280, 1280])

基本提示：
“素描风格：一只可爱的恐龙在卡通城市上空顽皮地吹着小火，呈现出欢快的场景。”

区域提示：

区域0： “素描风格，圆眼睛、调皮微笑的恐龙，在城市上空喷出小火焰。”
区域1： “素描风格，城市里有色彩缤纷的建筑，上面轻轻飘浮着细小的火焰，增添了一丝俏皮感。”

设置：

图像尺寸：1280x1280
种子：1298
面膜注射步骤：10
双注射间隔：1
单次进样间隔：1
基础比率：0.1

洛拉：

路径：Shakker-Labs/FLUX.1-dev-LoRA-Children-Simple-Sketch
规模：1.5
触发词：“素描风格”

红色：UFO 区域（xyxy：[320, 320, 640, 640]）

基本提示：
“一个可爱的卡通风格的UFO漂浮在阳光明媚的城市街道上，艺术风格融合了现实和插画元素”

后台提示：
“一张照片”

区域提示：

0区： “卡通风格的银色UFO，灯光闪烁，悬停在空中，艺术风格融合现实与插画元素”

设置：

图像尺寸：1280x1280
种子：1298
面膜注射步骤：10
双注射间隔：1
单次进样间隔：2
基础比率：0.2

洛拉：

路径：Shakker-Labs/FLUX.1-dev-LoRA-Vector-Journey
规模：1.0

控制网络兼容性

地区面具	配置	生成结果
红色：第一辆车区域（xyxy：[0, 0, 426, 968]）绿色：第二辆车区域（xyxy：[426, 0, 853, 968]）蓝色：第三辆车区域（xyxy：[853, 0, 1280, 968]）	基本提示： “红、蓝、黄三辆高性能跑车，在城市街道上并肩竞速” 区域提示：区域 0： “一辆时尚的红色跑车处于领先地位，具有激进的空气动力学造型和闪闪发光的油漆，可以捕捉光线。汽车似乎在高速行驶，具有运动模糊效果。” 区域1： “中间位置一辆强劲的蓝色跑车，与竞争对手并驾齐驱，金属漆闪闪发光，速度线清晰可见，动作动感十足。” 区域 2： “第三位是一辆引人注目的黄色跑车，其大胆的颜色在街道上脱颖而出。该车的侵略性姿态和空气动力学轮廓强调了其赛车性能。” 设置：图像尺寸：1280x968 种子：124 面膜注射步骤：10 双注射块间隔：1 单次注入块间隔：2 基础比率：0.2 控制网：控制模式：2 ControlNet 调节等级：0.7
红色：女性区域（xyxy：[0, 0, 640, 968]）绿色：海滩区域（xyxy：[640, 0, 1280, 968]）	基本提示： “一个女人沿着美丽的海滩散步，欣赏美丽的海岸景色。” 区域提示：区域0： “一位穿着飘逸的粉色和蓝色花朵图案夏季连衣裙的女子赤脚走在沙滩上。她的花朵图案连衣裙在海风中优雅地飘扬，她悠闲地沿着海岸线漫步，脸上带着平静的表情脸和头发被风轻轻地吹乱。” 区域 1： “令人惊叹的海岸景观，清澈碧绿的海水与地平线交汇。有节奏的海浪带着白色的泡沫波峰翻滚而来，当它们撞击海岸时创造出迷人的图案。海浪的大小各不相同，有的轻轻地拍打着沙滩，有的则轻轻地拍打着沙滩。”白色的沙滩绵延至远方，温柔的波浪在潮湿的沙滩上留下错综复杂的图案，零星的棕榈树在微风中摇曳。” 设置：图像尺寸：1280x968 种子：124 面膜注射步骤：10 双注射块间隔：1 单次注入块间隔：2 基础比率：0.2 控制网：控制模式：4 ControlNet 调节等级：0.7

地区面具

配置

生成结果

红色：第一辆车区域（xyxy：[0, 0, 426, 968]）
绿色：第二辆车区域（xyxy：[426, 0, 853, 968]）
蓝色：第三辆车区域（xyxy：[853, 0, 1280, 968]）

基本提示：
“红、蓝、黄三辆高性能跑车，在城市街道上并肩竞速”

区域提示：

区域 0： “一辆时尚的红色跑车处于领先地位，具有激进的空气动力学造型和闪闪发光的油漆，可以捕捉光线。汽车似乎在高速行驶，具有运动模糊效果。”
区域1： “中间位置一辆强劲的蓝色跑车，与竞争对手并驾齐驱，金属漆闪闪发光，速度线清晰可见，动作动感十足。”
区域 2： “第三位是一辆引人注目的黄色跑车，其大胆的颜色在街道上脱颖而出。该车的侵略性姿态和空气动力学轮廓强调了其赛车性能。”

设置：

图像尺寸：1280x968
种子：124
面膜注射步骤：10
双注射块间隔：1
单次注入块间隔：2
基础比率：0.2

控制网：

控制模式：2
ControlNet 调节等级：0.7

红色：女性区域（xyxy：[0, 0, 640, 968]）
绿色：海滩区域（xyxy：[640, 0, 1280, 968]）

基本提示：
“一个女人沿着美丽的海滩散步，欣赏美丽的海岸景色。”

区域提示：

区域0： “一位穿着飘逸的粉色和蓝色花朵图案夏季连衣裙的女子赤脚走在沙滩上。她的花朵图案连衣裙在海风中优雅地飘扬，她悠闲地沿着海岸线漫步，脸上带着平静的表情脸和头发被风轻轻地吹乱。”
区域 1： “令人惊叹的海岸景观，清澈碧绿的海水与地平线交汇。有节奏的海浪带着白色的泡沫波峰翻滚而来，当它们撞击海岸时创造出迷人的图案。海浪的大小各不相同，有的轻轻地拍打着沙滩，有的则轻轻地拍打着沙滩。”白色的沙滩绵延至远方，温柔的波浪在潮湿的沙滩上留下错综复杂的图案，零星的棕榈树在微风中摇曳。”

设置：

图像尺寸：1280x968
种子：124
面膜注射步骤：10
双注射块间隔：1
单次注入块间隔：2
基础比率：0.2

控制网：

控制模式：4
ControlNet 调节等级：0.7

安装

我们使用扩散器存储库之前的提交来确保可重复性，因为我们发现新的扩散器版本可能会遇到不同的结果。

# install diffusers locally
git clone https://github.com/huggingface/diffusers.git
cd diffusers

# reset diffusers version to 0.31.dev, where we developed Regional-Prompting-FLUX on, different version may experience different results
git reset --hard d13b0d63c0208f2c4c078c4261caf8bf587beb3b
pip install -e ".[torch]"
cd ..

# install other dependencies
pip install -U transformers sentencepiece protobuf PEFT

# clone this repo
git clone https://github.com/antonioo-c/Regional-Prompting-FLUX.git

# replace file in diffusers
cd Regional-Prompting-FLUX
cp transformer_flux.py ../diffusers/src/diffusers/models/transformers/transformer_flux.py

快速入门

请参阅 infer_flux_regional.py 中的详细示例（包括 LoRA 和 ControlNet）。下面是一个快速入门示例。

 import torchfrom pipeline_flux_regional import RegionalFluxPipeline, RegionalFluxAttnProcessor2_0pipeline = RegionalFluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16).to("cuda")attn_procs = {}用于 pipeline.transformer 中的名称。 attn_processors.keys():如果name 和 name.endswith("attn.processor"):attn_procs[name] = RegionalFluxAttnProcessor2_0()else:attn_procs[name] = pipeline.transformer.attn_processors[name]pipeline.transformer.set_attn_processor(attn_procs)##常规设置image_width = 1280image_height = 768num_inference_steps = 24seed = 124base_prompt = "一位古老的妇女庄严地站着，手持熊熊的火把，背景是一场激烈的战斗，捕捉历史战争场景中的力量和悲剧。"background_prompt = "a photo" # 默认设置，但如果想丰富背景，可以设置为更具描述性的提示regional_prompt_mask_pairs = {"0": {"description": "一位身着古袍的端庄女子站在前景中，她的脸被高举的火炬照亮。她的表情充满决心和悲伤，她的服装和外表反映了那个历史时期。火把在她的脸上投射出戏剧性的阴影，火焰在黑暗中充满活力地舞动。","mask": [128, 128, 640, 768]
    }
}## 区域控制因子设置 mask_inject_steps = 10 # 越大表示控制越强，建议在 5-10 之间 double_inject_blocks_interval = 1 # 1 表示最强控制 single_inject_blocks_interval = 1 # 1 表示最强 controlbase_ratio = 0.2 # 较小表示更强 controlregional_prompts = []regional_masks = []background_mask = torch.ones((image_height, image_width))对于region_idx，regional_prompt_mask_pairs.items()中的区域：description = 区域['description']mask = 区域['mask']x1, y1, x2, y2 = maskmask = torch.zeros ((image_height, image_width))mask[y1:y2, x1:x2] = 1.0background_mask -= maskregional_prompts.append(description)regional_masks.append(mask)# 如果区域蒙版没有覆盖整个图像，则附加背景提示和蒙版if background_mask.sum() > 0:regional_prompts.append(background_prompt)regional_masks.append(background_mask)image =管道（提示=基本提示，宽度=图像宽度， height=image_height,mask_inject_steps=mask_inject_steps,num_inference_steps=num_inference_steps,generator=torch.Generator("cuda").manual_seed(seed),joint_attention_kwargs={"regional_prompts":regional_prompts,"regional_masks": Regional_masks，“double_inject_blocks_interval”：double_inject_blocks_interval，“single_inject_blocks_interval”：single_inject_blocks_interval，“base_ratio”：base_ratio}，
  ).images[0]image.save(f"output.jpg")

？致谢

我们的工作由 HuggingFace 和 fal.ai 赞助。谢谢！

引用

如果您发现 Regional-Prompting-FLUX 对您的研究和应用有用，请使用此 BibTeX 引用我们：

 @article{chen2024training, title={免训练区域提示扩散变压器},author={Chen, Anthony and Xu,jianjin and Cheng, Wenzhao and Dai, Gaule and Wang, Yida and Zhang, Renrui and Wang, Hafan and Zhang , 上航}, 期刊={arXiv预印本arXiv:2411.02395}, 年={2024}}

如有任何疑问，请随时通过[email protected]联系我们。

展开

附加信息