【生成型人工智能】Generative AI有什么大不了的?是未来还是现在?
视频号
微信公众号
知识星球
“生成人工智能……还不够?”的第一部分
如今,人们几乎不可能忽视人工智能的惊人进步。从新一代生成聊天机器人,到可以(几乎)生成任何图片(或很快生成视频)的模型,人工智能领域的发展速度堪称惊人。在生成人工智能领域尤其如此,我们看到越来越多令人印象深刻的生成模型可以创建图像、文本、视频和音乐。
这些发展吸引了大众的想象力,企业正在努力确定如何在其组织中使用人工智能。企业正急于将人工智能融入他们的产品、服务和流程,希望找到他们的人工智能独角兽。其中一些企业正在努力确定如何使用人工智能,而另一些企业则发现当前的人工智能形势复杂且难以驾驭。
在本系列文章中,我们探讨了这些生成人工智能模型的重要性,并讨论了查看和部署这些模型的有用视角。第一篇文章介绍了生成人工智能的现状,并概述了我们应该如何处理它。在下一篇文章中,我们绘制了人工智能技术和价值堆栈的地图,以更好地了解生成人工智能在哪里适用。最后,我们讨论了如何更好地利用它的力量来创建新一代智能系统。
上面的摘要(使用Cohere的文本生成模型创建,并经过一些人工编辑)是对这一系列文章的一个很好的介绍,这些文章详细介绍了我们在过去几年中学到的关于Generative AI的很多知识,以及如何思考其模型、产品和行业。
让我们直接跳进去!
Generative AI有什么大不了的?是未来还是现在?
在本系列的第一篇文章中,我们介绍了四点:
- 1-人工智能的最新发展令人敬畏,有望改变世界。但什么时候?
- 2-区分令人印象深刻🍒 精心挑选的演示,以及为市场准备的可靠用例
- 3-将模型视为智能系统的组成部分,而不是思维
- 4-仅生成人工智能只是冰山一角
现在让我们更详细地看一下每一个。
1-人工智能的最新发展令人敬畏,有望改变世界。但什么时候?
文本生成:生成连贯的人类语言的软件
文本生成模型是Generative AI的核心支柱。
语言模型产生连贯文本的能力感觉像是人类技术的一个转折点。同样令人印象深刻的是,这些模型能够捕捉文本(如文章、消息、文档)的含义和上下文,使软件更智能地处理文本。
我们甚至在不知情的情况下,每天都会体验到大型语言模型的威力。想想谷歌翻译、谷歌搜索和文本生成模型。您最喜欢的产品中有成千上万的应用程序和功能使用大型语言模型来更好地操纵语言,而且它们每天都在变得更快、更高效、更准确。
这些型号不仅提供了新的功能和产品。事实上,整个新的公司部门都是以这些模式为基础的。一个明显的例子是,越来越多的公司正在开发人工智能写作助理。这包括HyperWrite、Jasper、Writer、copy.ai等公司。另一个例子是,公司将模型世代编织成互动体验,如Latitude、Character AI和Hidden Door。
图像生成:说出一件事的名字,然后看到它在你眼前显现
人工智能图像生成是Generative人工智能领域的另一个令人兴奋的领域。在这个领域,DALL-E、MidJourney和Stable Diffusion等模型席卷了世界。
图像生成模型是2022年人工智能的一些亮点
人工智能图像生成对场景来说并不是什么新鲜事。像GANs(生成对抗性网络)这样的模型能够生成人物、艺术甚至家庭的图像已经有九年了。但这些模型中的每一个都是专门针对其生成的对象类型进行训练的,生成图像需要很长时间。
当前一批人工智能图像生成模型允许单个模型生成大量图像类型。它们还让用户能够通过文本描述来控制他们生成的内容。
图像生成模型在文本提示的引导下创建(通常令人震惊)图像。
当这些工具超出了你对软件只需简单文本提示就能产生的效果的预期时,通常很难缓和你的兴奋情绪。在我的情况下,以及我怀疑的其他情况下,这些模型唤起了一种深刻的感觉,即有些事情已经改变了。正如我们所知,世界已经发生了一些变化,预计将对产品、行业和经济产生持久影响。潜力似乎很明显。
这种潜力正是需要谨慎的原因。
用心缓和兴奋
随着社交媒体上充斥着声称“我让模特X完成了不可能完成的任务Y”的帖子🤯”, 重要的是要用敏锐的眼光来过滤这些说法。要问的一个关键问题是,所展示的能力是否是🍒 一个精心挑选的例子是,一个模型产生了40%的时间,或者它指向了稳健和可靠的模型行为。
可靠性是人工智能能力成为面向客户产品一部分的关键。
以过去几年中大型GPT模型所具有的许多功能为例。一个例子是,一个模型能够仅从2020年一些演示中出现的文本提示中生成代码来构建网站。现在已经三年过去了,这样的能力并不是我们建立网站的方式。
2020年模型的一些功能令人震惊,但根据使用情况,将其转化为可靠的产品可能需要数月到数年的时间。
使用语言模型生成代码几乎肯定会改变软件的编写方式(询问f Replit, Tabnine, and copilot)。然而,时间线还不太确定。上面推文中的“差不多”可以是两年到五年。
比尔·盖茨有一句话可以用在这里,“大多数人高估了他们一年内能取得的成就,低估了他们十年内能实现的成就”。人们对一些新技术的期望也是如此。
我们往往高估了一项新技术在一年内能做什么,而低估了它在十年内能做到什么
上一次科技行业被深度学习引发的狂热席卷时,我们得到了到2020年自动驾驶汽车的承诺。
他们仍然不在这里。
《商业内幕》2016年的时间线图显示了业界普遍预期的自动驾驶汽车将于2020年上路。
这里的一个关键要点是:
2-区分令人印象深刻🍒 精心挑选的演示,以及为市场准备的可靠用例
大型文本生成模型能够正确回答许多问题。但他们能可靠地做到这一点吗?
Stack Overflow并不这么认为。
软件开发人员提问的热门论坛禁止在网站上发布机器生成的答案,“因为从ChatGPT获得正确答案的平均比率太低”。这是一个用例的例子,一些人希望模型能够可靠地为一组复杂的问题生成准确的正确生成。
现在可靠的人工智能用例
然而,在其他用例(和工作流)中,这些模型能够获得更可靠的结果。其中的关键是神经搜索(详见下文第4点)、文本自动分类(分类)、文案建议和生成模型的头脑风暴工作流(在本系列的第三部分中更详细地讨论)。
令人惊叹的演示将不断推出。它们是社区发现过程的一部分,旨在了解这些模型的局限性和新的可能性(第二部分将详细介绍社区发现模型的生成空间及其产品/经济价值)。然而,继续提出挑剔的问题,认识到不太确定的时间表,并投资于人工智能系统和模型的稳健性和可靠性,是值得的。
3-将模型视为智能系统的组成部分,而不是思维
避免将语言模型视为具有个人个性的思维。
语言模型生成连贯文本的能力只会不断提高。第一次有人认为语言模型是有感知能力的已经成为过去。
一个更有用的框架是将语言模型视为软件系统的语言理解和语言生成组件。它们使它变得更加智能,能够做出超出软件传统能力的行为,尤其是在语言和视觉方面。
在这样的背景下,语言理解一词并不是指人类层面的理解和推理。但这些模型能够从文本中提取更多的信息及其背后的含义,从而提高软件的实用性。
当我们认为语言理解和生成是不同的能力时,我们开始更清楚地思考如何构建未来的智能软件系统。
一旦我们将模型视为一个组件,我们就可以开始构建使用多个步骤或模型的更高级的系统(本系列的第三部分完全致力于此主题)。
4-生成人工智能仅是冰山一角
从技术角度来看,文本和图像生成模型还不够独特,不值得拥有自己的“人工智能”类型或子领域。相同的模型可以用于各种其他用例,几乎不需要调整。对世代划定任意界限的担忧是,有些人可能会错过其他更成熟的人工智能功能,这些功能正在为行业中越来越多的系统提供可靠的动力。
语言理解为软件系统的许多改进(和新)功能打开了大门。其中最主要的是摘要、神经搜索和文本分类。
生成人工智能之所以可能,是因为在大规模数据集上训练的更大、更好的模型使人工智能模型能够更好地对文本和图像进行数字表示。对于构建者来说,重要的是要知道,除了生成之外,这些表示还可以实现各种各样的可能性。其中一个关键的可能性是神经搜索。
神经或语义搜索系统利用ML开发来结合上下文和意义,并超越关键字搜索。
神经搜索是一种新的搜索系统,它使用语言模型来改进简单的关键词搜索。
它们能够通过意义进行搜索。
Cohere的ML/嵌入主管、广受欢迎的句子转换器开源库的创建者Nils Reimers在本视频中了解神经搜索。
神经搜索与文本分类一起适用于人工智能为许多行业用例(一些具有挑战性的领域包括讽刺分类)产生可靠结果的用例。
接下来
在本系列即将发表的文章中,我们将更深入地研究Generative AI的技术和价值堆栈。我们还将讨论使用这些模型作为构建下一代智能系统的构建块的应用程序的一些设计模式。
- 7 次浏览