跳转到主要内容

发现生成对抗性网络和transformer之间的差异,以及这两种技术在未来如何结合,为用户提供更好的结果。

生成对抗性网络在生成图像、声音以及药物分子等媒体方面具有相当大的前景。在几年前变形金刚问世之前,它们也是最流行的生成人工智能技术之一。


transformer是支撑大型语言模型许多进步的基础技术,例如生成预训练transformer(GPT)。他们现在正在扩展到多模式人工智能应用,能够比GANs等技术更有效地将文本、图像、音频和机器人指令等多种内容关联到多种媒体类型。

让我们来探索每种技术的起源、它们的用例,以及研究人员现在如何将这两种技术组合成各种transformerGAN组合。

GAN架构说明

GANs由Ian Goodfellow及其同事于2014年推出,用于生成逼真的数字和人脸。它们结合了以下两种神经网络:

  • 生成器,通常是基于文本或图像提示创建内容的卷积神经网络(CNN)。
  • 鉴别器,通常是一个反进化神经网络,用于识别真实图像和伪造图像。

人工智能增强民主研究所的创始人Adrian Zidaritz说,在GANs之前,计算机视觉主要是用CNN来捕捉图像的较低层次特征,如边缘和颜色,以及代表整个物体的较高层次特征。GAN架构的新颖性源于它的对抗性方法,其中一个神经网络提出生成的图像,而另一个则否决它们,如果它们不能接近给定数据集中的真实图像。

GAN

Diagram of a generative adversarial network

如今,研究人员正在探索使用其他神经网络模型的方法,包括transformer。

transformer架构说明

2017年,谷歌的一个研究团队推出了transformer,他们希望打造一个更高效的翻译器。在一篇题为《注意力就是你所需要的一切》的论文中,研究人员提出了一种新的技术,根据单词在短语、句子和文章中对其他单词的描述来辨别单词的含义。

先前解释文本的工具经常使用一个神经网络使用先前构建的字典将单词翻译成向量,而另一个神经网则处理文本序列,例如递归神经网络(RNN)。相反,transformer本质上是通过处理大量未标记的文本来直接理解单词的含义。同样的方法也可以用于识别其他类型数据中的模式,如蛋白质序列、化学结构、计算机代码和物联网数据流。这使得研究人员能够扩展大型语言模型,从而推动该领域的最新进展和宣传。transformer还可以找到相距甚远的单词之间的关系,这在RNN中是不切实际的。

Diagram showing the architecture of a transformer model.

Zidaritz说,图像的小片段也可以由它们出现的整个图像的上下文来定义。自然语言处理中的自注意思想在计算机视觉中变成了自相似。

https://youtu.be/-8se4mWn058

GAN与transformer:每种模型的最佳用例

数据安全平台Fortanix负责机密计算的副总裁Richard Searle表示,GANs在其潜在的应用范围内更加灵活。在不平衡的数据(例如与阴性病例数量相比,阳性病例数量较少)可能导致大量假阳性分类的情况下,它们也很有用。因此,对抗性学习在歧视任务的训练数据有限的用例中,或者在欺诈检测中,与更常见的交易相比,只有少量交易可能代表欺诈,都显示出了希望。例如,在欺诈场景中,黑客不断引入新的输入来欺骗欺诈检测算法。GANs往往更善于适应和抵御这些技术。

Searle说,transformer通常用于必须推导顺序输入输出关系的地方,并且可能的特征组合的数量需要集中注意力来提供局部上下文。出于这个原因,transformer在NLP应用程序中已经确立了卓越地位,因为它们可以处理任何长度的内容,例如短语或整个文档。变形金刚还善于在游戏等应用中提出下一步行动,在游戏中,必须根据输入的条件序列来评估一组潜在的响应。

还积极研究将GANs和transformer组合成所谓的GANsformers。这个想法是使用transformer来提供注意力参考,这样生成器就可以增加上下文的使用来增强内容。

Searle解释道:“GANsformers背后的直觉是,除了潜在的全球特征外,人类的注意力还基于感兴趣对象的特定局部特征。”。由此产生的改进的表示更有可能模拟人类在真实样本中可能感知到的全局和局部特征,例如真实的人脸或与人声的音调和节奏一致的计算机生成的音频。

基于transformer的网络是否比GANs更强?

由于transformer在ChatGPT等流行工具中的作用以及对多模式人工智能的支持,transformer的知名度正在提高。但transformer不一定会取代所有应用程序的GANs。

Searle希望看到更多的集成,以创建具有增强真实感的文本、语音和图像数据。他说:“这可能是可取的,因为在人机交互或数字内容中提高上下文真实性或流畅性会增强用户体验。”。例如,当面对人类用户和训练有素的机器评估者时,GANsformers可能能够生成合成数据来通过图灵测试。在文本响应的情况下,例如GPT系统提供的文本响应,包含特殊错误或风格特征可能会掩盖人工智能衍生输出的真实来源。

相反,用于发动网络攻击、损害品牌或传播假新闻的deepfakes可能会提高真实感。在这些情况下,GANsformers可以提供更好的过滤器来检测深度伪造。

Searle说:“对抗性训练和上下文评估的使用可以产生人工智能系统,该系统能够使用生成僵尸网络提供增强的安全性、改进的内容过滤和防御错误信息攻击。”。

但Zidaritz认为,transformer在许多用例中都有可能淘汰Gan,因为它们可以更容易地应用于文本和图像。他说:“新的GAN将继续开发,但其应用将比GPT更有限。”。“我们也可能会看到更多类似GAN的transformer和类似transformer的GAN,其中具有自我关注或自我相似机制的transformer将是核心。”

 

本文地址

知识星球

微信公众号

视频号