【生成型人工智能】生成型人工智能:一个创造性的新世界
视频号
微信公众号
知识星球
一类强大的新型大型语言模型使机器能够编写、编码、绘制和创建可信的、有时甚至是超人的结果。
人类善于分析事物。机器甚至更好。机器可以分析一组数据,并在其中找到多种用例的模式,无论是欺诈还是垃圾邮件检测,预测你的交付预计到达时间,还是预测下一步要向你展示哪个TikTok视频。他们在这些任务上越来越聪明。这被称为“分析人工智能”或传统人工智能。
但人类不仅善于分析我们也善于创造的东西。我们写诗、设计产品、制作游戏和编写代码。直到最近,机器还没有机会在创造性工作中与人类竞争——它们被降级为分析和死记硬背的认知劳动。但机器才刚刚开始擅长创造感性和美丽的东西。这个新类别被称为“生成人工智能”,这意味着机器正在生成新的东西,而不是分析已经存在的东西。
生成式人工智能正在变得不仅更快、更便宜,而且在某些情况下比人类手工创造的更好。每一个需要人类创造原创作品的行业,从社交媒体到游戏,从广告到建筑,从编码到平面设计,从产品设计到法律,从营销到销售,都需要重新创造。某些功能可能会被生成型人工智能完全取代,而其他功能则更有可能在人和机器之间的紧密迭代创造周期中蓬勃发展,但生成型人工智慧应该能在广泛的终端市场上解锁更好、更快、更便宜的创造。我们的梦想是,生成性人工智能将创造和知识工作的边际成本降至零,创造巨大的劳动生产率和经济价值,并创造相应的市值。
生成人工智能处理知识工作和创造性工作的领域包括数十亿工人。生成人工智能可以使这些工人的效率和/或创造力提高至少10%:他们不仅变得更快、更高效,而且比以前更有能力。因此,Generative AI有潜力创造数万亿美元的经济价值。
为什么是现在?
生成型人工智能与更广泛的人工智能具有相同的“为什么现在”:更好的模型、更多的数据、更多的计算。这一类别的变化速度比我们所能捕捉到的要快,但值得粗略地讲述最近的历史,以将当前时刻放在上下文中。
第1波:小模型占主导地位(2015年前)
5多年前,小模型被认为是理解语言的“最先进”。这些小模型擅长分析任务,并可用于从交付时间预测到欺诈分类的工作。然而,对于通用生成任务来说,它们的表达能力不够。生成人类级别的写作或代码仍然是一个白日梦。
果不其然,随着模型越来越大,它们开始提供人类水平的结果,然后是超人的结果。
第二波:规模竞争(2015年至今)
谷歌研究公司的一篇里程碑式论文(注意力就是你所需要的一切)描述了一种新的用于自然语言理解的神经网络架构,称为transformer,它可以生成高质量的语言模型,同时更具并行性,训练时间也大大减少。这些模型是少数镜头学习器,可以相对容易地针对特定领域进行定制。
随着人工智能模型越来越大,它们已经开始超越主要的人类性能基准。来源:©《经济学人》报业有限公司,伦敦,2022年6月11日。保留所有权利;SCIENCE.ORG/CONTENT/ARTICLE/COMPUTERS-ACE-IQ-TESTS-STILL-MAKE-DUMB-mistocks-CAN-DIFFERENT-TESTS-HELP科学网站
果不其然,随着模型越来越大,它们开始提供人类水平的结果,然后是超人的结果。2015年至2020年间,用于训练这些模型的计算量增加了6个数量级,其结果在手写、语音和图像识别、阅读理解和语言理解方面超过了人类表现基准。OpenAI的GPT-3脱颖而出:该模型的性能比GPT-2有了巨大的飞跃,并在推特上提供了从代码生成到尖刻笑话写作的诱人演示。
正如移动通过GPS、摄像头和移动连接等新功能释放出新类型的应用程序一样,我们预计这些大型模型将激发新一波生成性人工智能应用程序。
尽管取得了所有的基础研究进展,但这些模型并不普遍。它们很大,很难运行(需要GPU协调),不可广泛访问(不可用或仅限封闭测试版),并且用作云服务的成本很高。尽管存在这些限制,但最早的一代人工智能应用程序开始加入竞争。
第三波:更好、更快、更便宜(2022年+)
计算越来越便宜。新技术,如扩散模型,降低了训练和运行推理所需的成本。研究界继续开发更好的算法和更大的模型。开发人员访问权限从封闭测试扩展到开放测试,或者在某些情况下扩展到开源。
对于那些缺乏LLM访问权限的开发人员来说,现在为探索和应用程序开发打开了闸门。应用程序开始大量涌现。
MIDJOURNEY生成的插图
第4波:杀手级应用程序出现(现在)
随着平台层的固化,模型不断变得更好/更快/更便宜,模型访问趋于免费和开源,应用层的创造力爆发已经成熟。
正如移动通过GPS、摄像头和移动连接等新功能释放出新类型的应用程序一样,我们预计这些大型模型将激发新一波生成性人工智能应用程序。正如十年前移动技术的拐点为少数杀手级应用程序创造了市场机会一样,我们预计Generative AI将出现杀手级应用。竞争正在进行。
市场前景
下面是一个示意图,描述了将为每个类别提供动力的平台层以及将在其上构建的潜在应用程序类型。
模型
- 文本是最高级的领域。然而,自然语言很难正确,质量很重要。如今,这些模型在通用的中/短格式写作方面相当出色(但即便如此,它们通常用于迭代或初稿)。随着时间的推移,随着模型的改进,我们应该期待看到更高质量的输出、更长的形式内容和更好的垂直特定调整。
- GitHub CoPilot显示,代码生成可能在短期内对开发人员的生产力产生重大影响。它还将使非开发人员更容易创造性地使用代码。
- 图片是最近才出现的现象,但它们已经在网上疯传:在推特上分享生成的图片比分享文本有趣得多!我们看到了具有不同美学风格的图像模型的出现,以及编辑和修改生成图像的不同技术。
- 语音合成已经存在了一段时间(你好Siri!),但消费者和企业应用程序才刚刚好起来。对于电影和播客等高端应用程序来说,对于听起来不机械的一次性人类质量语音来说,门槛相当高。但就像图像一样,今天的模型为实用应用程序的进一步细化或最终输出提供了一个起点。
- 视频和3D模型正在迅速崛起。人们对这些模式开启电影、游戏、VR、建筑和实体产品设计等大型创意市场的潜力感到兴奋。就在我们讲话的时候,研究机构正在发布基础的3D和视频模型。
- 其他领域:从音频和音乐到生物学和化学(生成蛋白质和分子,有人吗?),许多领域都在进行基础模型研发。
下图说明了我们如何期望看到基本模型的进展以及相关的应用程序成为可能的时间表。2025年及以后只是一个猜测。
应用
以下是我们感到兴奋的一些应用程序。我们在这个页面上捕捉到的远不止这些,创始人和开发人员正在梦想的创造性应用程序让我们着迷。
- 文案:对个性化网络和电子邮件内容的需求不断增长,以推动销售和营销策略以及客户支持,这是语言模型的完美应用。措辞的简短和风格化,再加上这些团队面临的时间和成本压力,应该会推动对自动化和增强解决方案的需求。
- 纵向写作助理:如今大多数写作助理都是横向的;我们相信有机会为特定的终端市场构建更好的生成应用程序,从法律合同写作到编剧。这里的产品差异在于针对特定工作流程对模型和用户体验模式进行微调。
- 代码生成:当前的应用程序为开发人员提供了动力,使他们更有效率:GitHub Copilot现在在安装它的项目中生成了近40%的代码。但更大的机会可能是为消费者开放编码。学习提示可能成为终极的高级编程语言。
- 艺术一代:艺术史和流行文化的整个世界现在都被编码在这些大型模型中,让任何人都可以随意探索以前需要一生才能掌握的主题和风格。
- 游戏:梦想是使用自然语言来创建复杂的场景或模型;这种最终状态可能还有很长的路要走,但有更直接的选择在短期内更可行,比如生成纹理和skybox艺术。
- 媒体/广告:想象一下为消费者实现代理工作自动化、优化广告文案和创意的潜力。这里提供了多模式生成的绝佳机会,将销售信息与互补的视觉效果配对。
- 设计:数字和物理产品的原型制作是一个劳动密集型的迭代过程。粗略草图和提示的高保真度渲染已经成为现实。随着三维模型的出现,生成设计过程将从制造和生产文本延伸到对象。你的下一个iPhone应用程序或运动鞋可能是由机器设计的。
- 社交媒体和数字社区:有没有使用生成工具表达自己的新方式?随着消费者学会在公共场合创造新的社交体验,像Midtravel这样的新应用程序正在创造新的社会体验。
ILLUSTRATION GENERATED WITH MIDJOURNEY
最好的Generative AI公司可以通过在用户参与度/数据和模型性能之间坚持不懈地执行,从而产生可持续的竞争优势。
一个生成型人工智能应用程序的剖析
生成型人工智能应用程序会是什么样子?以下是一些预测。
- 智能和模型微调
生成型人工智能应用程序建立在GPT-3或稳定扩散等大型模型之上。随着这些应用程序获得更多的用户数据,它们可以对模型进行微调,以:1)提高特定问题空间的模型质量/性能;2) 降低模型尺寸/成本。
我们可以将Generative AI应用程序视为UI层和“小大脑”,它位于大型通用模型“大大脑”之上。
- 外形尺寸
如今,Generative AI应用程序在很大程度上以插件的形式存在于现有的软件生态系统中。代码完成发生在IDE中;图像生成发生在Figma或Photoshop中;即使是Discord机器人也是将生成性人工智能注入数字/社交社区的容器。
还有少量独立的Generative AI网络应用程序,如用于文案的Jasper和Copy.AI,用于视频编辑的Runway,以及用于笔记的Mem。
插件可能是引导您自己的应用程序的一个有效楔子,它可能是克服用户数据和模型质量的鸡和蛋问题的一种精明方法(您需要分发以获得足够的使用量来改进您的模型;您需要好的模型来吸引用户)。我们已经看到这种分销策略在其他市场类别中得到了回报,比如消费者/社交。
- 互动的范式
如今,大多数Generative AI演示都是“一次性完成”的:你提供一个输入,机器吐出一个输出,你可以保留它,也可以扔掉它,然后再试一次。越来越多的模型变得越来越迭代,在那里你可以使用输出来修改、精细化、加倍和生成变化。
如今,Generative AI输出被用作原型或初稿。应用程序非常善于提出多种不同的想法来推动创作过程(例如,徽标或建筑设计的不同选项),并且非常善于建议用户需要精心处理才能达到最终状态的初稿(例如博客文章或代码自动完成)。随着模型变得越来越智能,部分脱离了用户数据,我们应该期待这些草案变得越来越好,直到它们足够好,可以用作最终产品。
- 持续的类别领导地位
最好的Generative AI公司可以通过在用户参与度/数据和模型性能之间坚持不懈地执行,从而产生可持续的竞争优势。要想获胜,团队必须拥有出色的用户参与度→ 2) 将更多的用户参与转化为更好的模型性能(及时改进、模型微调、用户选择作为标记的训练数据)→ 3) 使用出色的模型性能来推动更多的用户增长和参与。他们可能会进入特定的问题空间(例如,代码、设计、游戏),而不是试图成为每个人的一切。他们可能会首先深入集成到应用程序中以进行杠杆作用和分发,然后尝试用人工智能原生工作流取代现有应用程序。以正确的方式构建这些应用程序以积累用户和数据需要时间,但我们相信最好的应用程序将是持久的,并有机会变得庞大。
生成人工智能还很早。平台层刚刚变得不错,而应用程序空间几乎没有发展起来。
障碍和风险
尽管Generative AI具有潜力,但在商业模式和技术方面仍有很多问题需要解决。版权、信任和安全以及成本等重要问题远未解决。
睁大眼睛
生成人工智能还很早。平台层刚刚变得不错,而应用程序空间几乎没有发展起来。
需要明确的是,我们不需要大型语言模型来写托尔斯泰的小说,就可以很好地利用Generative AI。这些模型今天已经足够好了,可以写博客文章的初稿,生成徽标和产品界面的原型。在近中期内,将会有大量的价值创造。
第一波Generative AI应用程序类似于iPhone首次推出时的移动应用程序格局,有些噱头和单薄,竞争差异化和商业模式不明确。然而,其中一些应用程序为未来的发展提供了一个有趣的一瞥。一旦你看到一台机器产生复杂的功能代码或精彩的图像,你就很难想象未来机器不会在我们的工作和创造中发挥根本作用。
如果我们允许自己梦想几十年,那么很容易想象一个未来,在这个未来,世代人工智能深深植根于我们的工作、创造和游戏方式:自己写的备忘录;3D打印任何你能想象到的东西;从文字到皮克斯电影;像Roblox一样的游戏体验,我们可以尽可能快地创造出丰富的世界。虽然这些经历在今天看起来像科幻小说,但进展速度之快令人难以置信——我们在几年内从狭隘的语言模型发展到代码自动完成——如果我们继续保持这种变化速度,遵循“大模型摩尔定律”,那么这些牵强的场景可能会进入可能的领域。
呼吁创业
我们正处于技术平台转变的开端。我们已经在这一领域进行了大量投资,并被在这一空间建设的雄心勃勃的创始人所激励。
- 87 次浏览