Transformer依旧嘎嘎发文！+GAN天作之合拿下CV顶会，抓紧复现！-EW帮帮网

最近发现了一篇效果很好的ICCV新论文，讲的是一种基于GAN的Transformer模型ActFormer，该模型不仅实现了SOTA性能，也拥有较强的适应性，在单人动作生成任务中达到了99.9%的动作识别准确率。

这类模型采用了Transformer+GAN的组合策略，利用了Transformer的序列建模能力来增强GAN的生成能力，可以给我们提供更加高质量、多样化的数据样本，实现更高的计算效率以及更好的解释性。

也正因这些优势，这种强大的技术组合如今已经被广泛应用于多种场景，比如图像生成、文本生成、语音合成等。本文整理了10种Transformer结合GAN的创新方案供各位参考，开源代码基本都有，方便大家复现。

论文原文+开源代码需要的同学看文末

方法：论文提出了一种基于GAN的Transformer框架——Act-Former，用于生成单人和多人互动的动作。方法结合了Transformer的时空表示能力、GAN的生成建模优势以及高斯过程潜在先验的时间相关性。多个基准数据集上的实验证明Act-Former在动作生成任务中表现优异。

创新点：

方法：作者设计了一个名为FA-GAN的深度架构，它结合了视觉Transformer和闪存注意力机制，用于唇语到语音生成。该方法通过引入Swin Transformer提升图像表示质量，使用分层迭代生成器优化语音合成过程，并通过闪存注意力机制减少计算负担。

创新点：

方法：文章提出了一种基于Transformer的生成对抗网络（GAN），名为TOR-GAN，用于重建OFDM（正交频分复用）信号，通过将IQ序列视为二维图像进行处理，采用概率稀疏注意力机制替代多头注意力，优化生成器和判别器的参数及时间复杂度。

创新点：

方法：论文提出了一种基于纯Transformer编码器的生成对抗网络（GAN），名为TenGAN，用于从头开始生成具有所需化学属性的新分子。此外，作者还介绍了TenGAN的增强版本Ten(W)GAN，它结合了小批量歧视和Wasserstein GAN来提高生成分子的能力。

创新点：

首次将Transformer编码器与GAN结合用于分子生成，提出了TenGAN和Ten(W)GAN模型。
通过引入变体SMILES和小批量歧视，有效提高生成器学习语义和句法特征的能力。此外，WGAN的使用解决了生成器和判别器之间的训练不平衡问题，显著缓解了训练不稳定性。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“GAN创新”获取全部论文+开源代码

码字不易，欢迎大家点赞评论收藏

Transformer依旧嘎嘎发文！+GAN天作之合拿下CV顶会，抓紧复现！