DALLE2-文本图像生成

2024-07-19 1617阅读

文章目录

摘要
算法
- 解码器
- prior
- 图像处理
- - 变体
  - 插值
  - 文本差异
  - 限制
    论文：《Hierarchical Text-Conditional Image Generation with CLIP Latents》
    github： https://github.com/lucidrains/DALLE2-pytorch
    https://github.com/LAION-AI/dalle2-laion
    摘要
    
    CLIP已经被证明可以学习语义或风格表征，作者提出二阶段模型，给出文本描述，利用先验模型生成CLIP图像嵌入，解码器利用图像嵌入生成图像；解码器作者使用扩散模型；prior作者使用自回归及扩散模型，发现后者计算高效，生成样本质量高。
    
    算法
    
    ( x , y ) (x,y) (x,y)表示图像及对应caption， z i 、 z t z_i、z_t zi、zt为CLIP提取图像特征及文本特征；
    DALLE2生成过程使用两个组件：
    1、prior P ( z i ∣ y ） P(z_i|y） P(zi∣y）基于caption y y y生成图像编码 z i z_i zi；
    2、decoder P ( x ∣ z i , y ) P(x|z_i, y) P(x∣zi,y)基于CLIP提取图像编码 z i z_i zi生成图像x，可选择使用caption y;
    DALLE2文本图像生成过程如图2：
    1、CLIP将文本进行编码，通过自回归或扩散模型（prior）生成图像编码先验，
    2、图像编码通过扩散模型解码器（decoder）生成最终图像
    
    解码器
    
    作者使用扩散模型基于CLIP所生成的图像embedding生成图像，具体使用改进GLIDE，将CLIP embedding添加进timestep embedding中，映射CLIP embedding为4个额外token，与GLIDE文本编码器输出进行concat；
    
    prior
    
    解码器可将CLIP图像embedding z i z_i zi生成图像x，先验器将caption y生成图像embedding z i z_i zi；有两种方案：
    1、AR（自回归先验）：使用CLIP将图像embedding z i z_i zi转换为离散序列，基于caption y进行自回归预测；
    2、扩散先验；基于caption y使用高斯扩散模型对连续向量 z i z_i zi进行直接建模；
    DALLE2中扩散先验，作者训练仅包含解码器的Transformer，其使用包括因果关系的mask在序列上进行：文本编码、CLIP文本embedding、扩散模型timestep embedding、噪声CLIP image embedding、最终Transformer输出embedding.
    
    图像处理
    
    变体
    
    对于表征$(z_i，x_T)通过超参控制采样，η=0，则为重构原图，η越大引入更大随机性，如图3；
    
    插值
    
    如图4，对于两张图片x1，x2，通过CLIP进行编码 z i 1 ， z i 2 z_{i1}，z_{i2} zi1，zi2，两者进行插值；
    
    文本差异
    
    对于两文本输入通过CLIP进行编码 z t ， z t 0 z_t，z_{t0} zt，zt0，计算向量差异zd，对 z i 、 z d z_i、z_d zi、zd进行插值得到CLIP表征；
    
    限制
    
    1、DALLE2相对于GLIDE容易忽视两目标各自属性；
    2、解码器容易混合目标属性
    
    3、难以生成连续文本

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们，邮箱：ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

DALLE2-文本图像生成

文章目录

摘要

算法

解码器

prior

图像处理

变体

插值

文本差异

限制

相关阅读

怎么把织梦的模板替换?

dedecms怎么调用特定的栏目文档?

怎么抓包一个网页?

wap怎么封装app?

目录[+]