🧩 Qwen-Image-Layered：开源支持RGBA透明与图层的扩散模型，PNG序列输出与显存/推理讨论

21 46 天前 huggingface.co

🧩Qwen-Image-Layered：开源支持RGBA透明与图层的扩散模型，PNG序列输出与显存/推理讨论

生成五层图片，是要我掏出几张 A100 吗？

🎯 讨论背景

Qwen-Image-Layered 是 QwenLM 团队在其 Qwen-Image 基础上发布的新模型，研究论文先行发布（约 16 小时前），随后开源代码与权重在 Hugging Face/GitHub 发布（约 5 小时后）。模型的亮点是在推理端支持 alpha 通道（RGBA）和图层感知，论文提出 Multi-stage Training 策略并给出从 Photoshop 的 .PSD 文件抽取图层数据的流水线。讨论主要围绕实际如何输出图层（仓库示例为 PNG 序列，但有人误传为 PowerPoint）、如何在工具链（如 ComfyUI）中整合、多层生成对 VRAM 的影响，以及量化（GGUF）与云端加速（Cloudflare/Replicate）等部署细节。

📌 讨论焦点

开源与研究贡献

Qwen-Image-Layered 由 QwenLM 团队发布，模型为 open-weight 并采用 Apache 2.0 许可，这在许多闭源图像模型中较为少见。作者强调两项推理端能力：理解 alpha 通道（RGBA）以生成透明感知位图，以及理解并输出图层（layers），更贴近 Photoshop/Figma 的创作流程。论文提出了 Multi-stage Training（多阶段训练）策略，用于把预训练图像生成模型改造为多层图像分解器，并给出从 .PSD（Photoshop 文件）抽取训练数据的流水线；模型与论文已在 Hugging Face 和 GitHub 上发布，方便研究与复现。

[来源1] [来源2]

输出格式与工作流疑问

社区对模型实际如何交付“图层”有大量疑问：有人误传模型会输出 PowerPoint，但仓库示例代码实际上把每个层保存为单独的 PNG（0.png, 1.png … n.png）。用户还在问流中是否需要在 prompt 里明确指定每层内容，或模型会自动拆分出前景/背景等，以及如何在 ComfyUI（一个常用的可视化工作流界面）中组合这些输出。评论里有人期待未来可能输出 SVG 或更结构化的矢量结果，同时对示例代码、博客暂时 404 与文档不一致提出批评，说明当前示例与用户期望存在落差。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

推理资源与性能（显存、加速与量化）

实务讨论集中在显存（VRAM）与推理速度：有人提出若请求 N 层，是否意味着峰值显存会近似 N 倍（例如 1MP×5 层等同 5MP 的显存占用），或是否可以分步生成以降低峰值内存。有人实测称在高功耗的 RTX 6000 上运行会“把显卡拖到跪”，耗时约一分钟；另有公司（Pruna AI）声称用 Cloudflare/Replicate 把推理缩短到 8 秒，但未明确是否依赖 A100/H100/H200 等数据中心 GPU 或专有优化。为应对资源问题，社区已提供量化模型（GGUF）与量化页面，但用户关心这些加速/量化方案在消费级硬件上的效果与开源可得性。

[来源1] [来源2] [来源3] [来源4]

📚 术语解释

alpha channel（RGBA）: 图像的透明度通道：RGBA 表示红/绿/蓝 + alpha（透明度），使模型能生成带透明背景或半透明元素的位图，区别于仅处理 RGB 的模型。

图层（layers）: 图形编辑软件（如 Photoshop 或 Figma）中的分层结构，前景/背景等独立元素可叠加成单个文件；该模型能分解/生成多层并分别输出，便于后续编辑与合成。

Multi-stage Training（多阶段训练）: 论文提出的一种训练策略，用以将已预训练的图像生成模型改造为多层图像分解器，通常包含阶段性微调与使用从 .PSD 抽取的带层标注数据。

PSD（.PSD，Photoshop 文件）: Adobe Photoshop 的专用文件格式，支持图层、蒙版与透明度；论文提到用 PSD 文件抽取训练数据以学习图层结构与透明度信息。

GGUF（量化模型格式）: 一种用于存储量化神经网络权重的格式，目的是减小模型尺寸并加速推理；评论中提到已有 GGUF 量化模型页面以供更低成本部署。

VRAM（GPU 显存）: GPU 的视频内存，会决定一次性处理多少像素或多少并行图层；多层输出可能带来峰值 VRAM 成本，影响是否能在消费级显卡上运行。

原文链接 Hacker News 讨论

AI Qwen-Image-Layered QwenLM diffusion model layers transparency alpha channel PSD Hugging Face GitHub

News Hacker｜极客洞察