AI 软件

PIXART-α:效果惊艳,媲美 Midjourney 的低成本文生图模型。

文 :管理员 来源 :原创 阅读 :417 10月前

PIXART

https://pixart-alpha.github.io/


PIXART-α来自华为诺亚方舟实验室等研究机构的研究者联合提出了开创性的文本到图像(T2I)模型 PixArt-α, 一种基于 Transformer 的文本到图像(T2I)扩散模型,其图像生成质量可与最先进的图像生成器(如 Imagen、SDXL 和 Midjourney)相媲美,接近商业应用标准。此外,它支持高达 1024px 的高分辨率图像合成,且训练成本较低。


PIXART-α:媲美 Midjourney 的低成本文生图模型。


PixArt-α  采用 Meta 之前提出的 DiT 架构,模型参数只有 0.6B,它的训练时长只有SD 1.5的10.8%,而且只使用了25M数据进行训练,与更大的 SOTA 模型 RAPHAEL 相比,PixArt-α 的训练成本仅为 1%虽然是低成本训练的文生图模型,但是从论文展示的生成示例图来看,效果却是非常惊艳:下图展示了PixArt-α和一些流行的文生图模型的训练成本对比:

PIXART-α:媲美 Midjourney 的低成本文生图模型。

为了实现低成本训练,华为采用了三阶段的训练策略

第一个阶段是学习像素依赖关系,简单来说是先学习生成真实的图像,这里是用ImageNet数据集训练一个基于类别的条件扩散模型;


PIXART-α:媲美 Midjourney 的低成本文生图模型。


然后是学习文本和图像的对齐,即学习文本作为条件下的图像生成,这里的一个关键是采用LVLM (Large Vision-Language Model) 来给图像生成更详细的文本描述; 


QQ截图20240223112333 (1).png


最后一个阶段是高质量微调,即采用高分辨率和高美学图像对模型进行微调。总结来看,这是一种任务分解的训练策略大量实验证明,PIXART-α 在图像质量、艺术性和语义控制方面表现优异。

点赞

2

免责声明
  • 本站提供的所有内容仅供学习、分享、交流,如有侵犯您的合法权益,请联系我们处理。本站所有留言、评论属于内容发布者,与本站观点及立场无关!

随机推荐

免费的AI编程助手:CodeGeeX
« 上一篇 08-01
ChatTTS 最强文本转语音!效果逼真如真人,完全免费开源!
下一篇 » 06-06

评论

共0条评论
  • 这篇文章评论空空如也,赶紧来抢沙发吧~


© 2021-2027 Powered By YzmCMS
蜀ICP备 2021015236 号
相关侵权、投诉及建议等,请发E-mail:1476705828@qq.com

友情链接: YzmCMS官方网站 YzmCMS博客