News Hacker|极客洞察

21 1 天前 huggingface.co
🧩Qwen-Image-Layered:开源支持RGBA透明与图层的扩散模型,PNG序列输出与显存/推理讨论
生成五层图片,是要我掏出几张 A100 吗?

🎯 讨论背景

Qwen-Image-Layered 是 QwenLM 团队在其 Qwen-Image 基础上发布的新模型,研究论文先行发布(约 16 小时前),随后开源代码与权重在 Hugging Face/GitHub 发布(约 5 小时后)。模型的亮点是在推理端支持 alpha 通道(RGBA)和图层感知,论文提出 Multi-stage Training 策略并给出从 Photoshop 的 .PSD 文件抽取图层数据的流水线。讨论主要围绕实际如何输出图层(仓库示例为 PNG 序列,但有人误传为 PowerPoint)、如何在工具链(如 ComfyUI)中整合、多层生成对 VRAM 的影响,以及量化(GGUF)与云端加速(Cloudflare/Replicate)等部署细节。

📌 讨论焦点

开源与研究贡献

Qwen-Image-Layered 由 QwenLM 团队发布,模型为 open-weight 并采用 Apache 2.0 许可,这在许多闭源图像模型中较为少见。作者强调两项推理端能力:理解 alpha 通道(RGBA)以生成透明感知位图,以及理解并输出图层(layers),更贴近 Photoshop/Figma 的创作流程。论文提出了 Multi-stage Training(多阶段训练)策略,用于把预训练图像生成模型改造为多层图像分解器,并给出从 .PSD(Photoshop 文件)抽取训练数据的流水线;模型与论文已在 Hugging Face 和 GitHub 上发布,方便研究与复现。

[来源1] [来源2]

输出格式与工作流疑问

社区对模型实际如何交付“图层”有大量疑问:有人误传模型会输出 PowerPoint,但仓库示例代码实际上把每个层保存为单独的 PNG(0.png, 1.png … n.png)。用户还在问流中是否需要在 prompt 里明确指定每层内容,或模型会自动拆分出前景/背景等,以及如何在 ComfyUI(一个常用的可视化工作流界面)中组合这些输出。评论里有人期待未来可能输出 SVG 或更结构化的矢量结果,同时对示例代码、博客暂时 404 与文档不一致提出批评,说明当前示例与用户期望存在落差。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

推理资源与性能(显存、加速与量化)

实务讨论集中在显存(VRAM)与推理速度:有人提出若请求 N 层,是否意味着峰值显存会近似 N 倍(例如 1MP×5 层 等同 5MP 的显存占用),或是否可以分步生成以降低峰值内存。有人实测称在高功耗的 RTX 6000 上运行会“把显卡拖到跪”,耗时约一分钟;另有公司(Pruna AI)声称用 Cloudflare/Replicate 把推理缩短到 8 秒,但未明确是否依赖 A100/H100/H200 等数据中心 GPU 或专有优化。为应对资源问题,社区已提供量化模型(GGUF)与量化页面,但用户关心这些加速/量化方案在消费级硬件上的效果与开源可得性。

[来源1] [来源2] [来源3] [来源4]

📚 术语解释

alpha channel(RGBA): 图像的透明度通道:RGBA 表示红/绿/蓝 + alpha(透明度),使模型能生成带透明背景或半透明元素的位图,区别于仅处理 RGB 的模型。

图层(layers): 图形编辑软件(如 Photoshop 或 Figma)中的分层结构,前景/背景等独立元素可叠加成单个文件;该模型能分解/生成多层并分别输出,便于后续编辑与合成。

Multi-stage Training(多阶段训练): 论文提出的一种训练策略,用以将已预训练的图像生成模型改造为多层图像分解器,通常包含阶段性微调与使用从 .PSD 抽取的带层标注数据。

PSD(.PSD,Photoshop 文件): Adobe Photoshop 的专用文件格式,支持图层、蒙版与透明度;论文提到用 PSD 文件抽取训练数据以学习图层结构与透明度信息。

GGUF(量化模型格式): 一种用于存储量化神经网络权重的格式,目的是减小模型尺寸并加速推理;评论中提到已有 GGUF 量化模型页面以供更低成本部署。

VRAM(GPU 显存): GPU 的视频内存,会决定一次性处理多少像素或多少并行图层;多层输出可能带来峰值 VRAM 成本,影响是否能在消费级显卡上运行。