DALLE2-文本图像生成

2024-07-19 1617阅读

文章目录

  • 摘要
  • 算法
    • 解码器
    • prior
    • 图像处理
      • 变体
      • 插值
      • 文本差异
      • 限制

        论文: 《Hierarchical Text-Conditional Image Generation with CLIP Latents》

        github: https://github.com/lucidrains/DALLE2-pytorch

        https://github.com/LAION-AI/dalle2-laion

        摘要

        CLIP已经被证明可以学习语义或风格表征,作者提出二阶段模型,给出文本描述,利用先验模型生成CLIP图像嵌入,解码器利用图像嵌入生成图像;解码器作者使用扩散模型;prior作者使用自回归及扩散模型,发现后者计算高效,生成样本质量高。

        算法

        ( x , y ) (x,y) (x,y)表示图像及对应caption, z i 、 z t z_i、z_t zi​、zt​为CLIP提取图像特征及文本特征;

        DALLE2生成过程使用两个组件:

        1、prior P ( z i ∣ y ) P(z_i|y) P(zi​∣y)基于caption y y y生成图像编码 z i z_i zi​;

        2、decoder P ( x ∣ z i , y ) P(x|z_i, y) P(x∣zi​,y)基于CLIP提取图像编码 z i z_i zi​生成图像x,可选择使用caption y;

        DALLE2-文本图像生成

        DALLE2文本图像生成过程如图2:

        1、CLIP将文本进行编码,通过自回归或扩散模型(prior)生成图像编码先验,

        2、图像编码通过扩散模型解码器(decoder)生成最终图像

        解码器

        作者使用扩散模型基于CLIP所生成的图像embedding生成图像,具体使用改进GLIDE,将CLIP embedding添加进timestep embedding中,映射CLIP embedding为4个额外token,与GLIDE文本编码器输出进行concat;

        prior

        解码器可将CLIP图像embedding z i z_i zi​生成图像x,先验器将caption y生成图像embedding z i z_i zi​;有两种方案:

        1、AR(自回归先验):使用CLIP将图像embedding z i z_i zi​转换为离散序列,基于caption y进行自回归预测;

        2、扩散先验;基于caption y使用高斯扩散模型对连续向量 z i z_i zi​进行直接建模;

        DALLE2中扩散先验,作者训练仅包含解码器的Transformer,其使用包括因果关系的mask在序列上进行:文本编码、CLIP文本embedding、扩散模型timestep embedding、噪声CLIP image embedding、最终Transformer输出embedding.

        图像处理

        变体

        对于表征$(z_i,x_T)通过超参控制采样,η=0,则为重构原图,η越大引入更大随机性,如图3;

        DALLE2-文本图像生成

        插值

        如图4,对于两张图片x1,x2,通过CLIP进行编码 z i 1 , z i 2 z_{i1},z_{i2} zi1​,zi2​,两者进行插值;

        DALLE2-文本图像生成

        文本差异

        对于两文本输入通过CLIP进行编码 z t , z t 0 z_t,z_{t0} zt​,zt0​,计算向量差异zd,对 z i 、 z d z_i、z_d zi​、zd​进行插值得到CLIP表征;

        DALLE2-文本图像生成

        限制

        1、DALLE2相对于GLIDE容易忽视两目标各自属性;

        DALLE2-文本图像生成

        2、 解码器容易混合目标属性

        DALLE2-文本图像生成

        3、难以生成连续文本

        DALLE2-文本图像生成

VPS购买请点击我

免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度,360,搜狗等多加搜索引擎自动关键词搜索配图,如有侵权的图片,请第一时间联系我们,邮箱:ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

目录[+]