AI 软件
https://pixart-alpha.github.io/
PIXART-α,来自华为诺亚方舟实验室等研究机构的研究者联合提出了开创性的文本到图像(T2I)模型 PixArt-α, 一种基于 Transformer 的文本到图像(T2I)扩散模型,其图像生成质量可与最先进的图像生成器(如 Imagen、SDXL 和 Midjourney)相媲美,接近商业应用标准。此外,它支持高达 1024px 的高分辨率图像合成,且训练成本较低。
PixArt-α 采用 Meta 之前提出的 DiT 架构,模型参数只有 0.6B,它的训练时长只有SD 1.5的10.8%,而且只使用了25M数据进行训练,与更大的 SOTA 模型 RAPHAEL 相比,PixArt-α 的训练成本仅为 1%。虽然是低成本训练的文生图模型,但是从论文展示的生成示例图来看,效果却是非常惊艳:下图展示了PixArt-α和一些流行的文生图模型的训练成本对比:
为了实现低成本训练,华为采用了三阶段的训练策略:
第一个阶段是学习像素依赖关系,简单来说是先学习生成真实的图像,这里是用ImageNet数据集训练一个基于类别的条件扩散模型;
然后是学习文本和图像的对齐,即学习文本作为条件下的图像生成,这里的一个关键是采用LVLM (Large Vision-Language Model) 来给图像生成更详细的文本描述;
最后一个阶段是高质量微调,即采用高分辨率和高美学图像对模型进行微调。总结来看,这是一种任务分解的训练策略。大量实验证明,PIXART-α 在图像质量、艺术性和语义控制方面表现优异。
2