人工智能基础

Chinese, Simplified
SEO Title
AI foundation

【人工智能】cohere: 人工智能正在吞噬世界

QQ群

视频号

微信

微信公众号

知识星球

Chinese, Simplified

十多年前,“软件正在吞噬世界”这句话描述了软件是如何迅速成为科技行业以外许多行业的中心的。主要的图书零售商、视频服务提供商、音乐公司、娱乐公司,甚至电影制作公司基本上都是软件公司。

这一趋势仍在持续。

将人工智能视为软件的延伸,赋予它新的和改进的功能,这通常是有用的。从这个意义上说,人工智能的发展可能会加速软件的激增速度。同样显而易见的是,它允许访问以前不可能的新功能。

随着新的软件功能为新产品让路,有理由问:这是如何改变价值游戏的?如果软件的激增使规模从巴诺到亚马逊,从百视达到网飞,那么人工智能在市场上会做什么?模型有价值吗?它在数据中吗?这个新政权的护城河在哪里?

本系列的第一篇文章,Generative AI有什么大不了的?是未来还是现在?(包含第1-4点),讨论了关于生成人工智能的有用观点的要点。在本文中,我们分享了对人工智能技术堆栈价值的观察,并重点讨论了一些技术护城河可能在哪里。

5) 人工智能技术和价值堆栈的地图和景观

到目前为止,不同的分析师和投资者已经发布了许多生成性人工智能景观数据。这些通常有助于了解一个新兴行业的现状以及不同参与者之间的比较。

AI

Generative AI Landscape plots from AntlerSequoia Capital, and NfX that contextualize Generative AI startups and capabilities

就我个人而言,我发现在技术堆栈(例如,应用程序/基础设施)中分解公司比在数据模式(例如,文本/图像)中分解更有价值。这些堆栈图区分了直接向用户销售的公司(应用程序级别)和他们所依赖的平台。因此,一个自然的起点是这三层的人工智能技术堆栈:

The three layers of Application, Models, and Cloud Platform are a reasonable starting point for tech stacks of AI product

The three layers of Application, Models, and Cloud Platform are a reasonable starting point for tech stacks of AI product

应用程序、模型和云平台这三层是人工智能产品技术堆栈的合理起点

通过拆分模型层来区分专有模型和开源模型(考虑到Midtrivel没有开发人员可以用来在其上构建应用程序的API),你可以通过a16z获得生成性AI技术堆栈。

Generative AI Tech stack

《谁拥有Generative AI平台?》中的Generative AI技术堆栈图?提供了不同类型车型以及如何提供这些车型的更多细节

在这个图中再添加几个组件是很有用的。

首先,模型从训练的数据中获得价值。因此,需要将数据和机器学习操作(MLOps)作为支持模型的一层。有关这两个领域及其参与者的详细信息,请参阅此数据和MLOps景观图。

Models layer relies on Data and MLOps technologies

Models layer relies on Data and MLOps technologies

模型层依赖于数据和MLOps技术,这些技术有自己新兴和不断发展的业务模型

这一增加使景观包含了Scale、Surge和Snorkel等公司。数据层也是Shutterstock作为训练DALL-E的数据提供商(并随后成为分发DALL-E创建的图像的应用程序)的地方。

别忘了商业魔咒

虽然我们的数据现在涵盖了主要的软件部分,但重要的是要考虑业务因素,这些因素可以帮助区分或促进产品的采用,而不仅仅是软件组件。一个很好的例子是Lensa AI现有的分销基础(以及吸引人的影响者)如何帮助使用量激增,据报道,2022年12月的收入为800万美元。在文本方面,Jasper的增长引擎成功推动其2022年的收入达到7500万美元。Writer指出,其在风格指南和品牌语调方面的专业知识是与许多人工智能写作助理的区别。

 business factors

在考虑竞争护城河时,我们不应该只考虑技术护城河。商业因素仍然是一个产品可以拥有的巨大杠杆。

6) 企业:不是为一个,而是为你的系统中的数千个人工智能触点做计划

如果你正在为一家公司构建ML战略,那么值得考虑的是“模型”层不局限于一个或几个模型。就像软件如何在公司的所有功能中使用一样(例如,IT、人力资源、销售、营销等),依靠人工智能为使用软件的大多数功能提供价值。

加速采用的一个很好的例子是2018年谷歌演示中的这条曲线。它显示,使用深度学习模型的谷歌内部项目数量不断增加,截至2017年底,已达到约7000个项目。

AI-first company

在人工智能第一的公司,人工智能的使用可以在几年内迅速激增到数千个用例。[来源]

今天这一趋势如何?据彭博社报道,在谷歌的《抓住聊天GPT的计划是将人工智能融入一切》中:“一项新的内部指令要求在几个月内将“生成性人工智能”纳入其所有最大的产品中。”

有几种力量推动这样的期望,例如:

虽然我们倾向于将人工智能视为一个独立的组件,但更有用的观点是将其视为软件的简单扩展,使其能够解决更复杂的问题。因此,无论软件生活在哪里,我们都将继续寻找人工智能可以改进这些系统的领域。

你的第一个模型很少能完全解决问题。总是需要在多个模型之间进行迭代,直到一个模型能够在生产中正确使用。

请注意,这里的人工智能接触点并不一定意味着模型。一个模型可以为多个用例赋能。例如,文本生成模型可以通过更改文本提示来处理不同的用例。例如,文本嵌入模型可以实现神经搜索,以及文本分类和情感分析。

如果一家公司的目标是使用十种型号和一千种型号,那么它的技术组合将完全不同。因此,在价值等式中,我们需要考虑当前推动生成人工智能的深度学习革命的主要组成部分之一:微调的自定义模型。

7) 对基础模型的多个子项和迭代的说明

进入微调模型

如果你要在十年前建立一个文本生成模型,你很可能需要在几个月的时间里从头开始训练它。人工智能的核心发展之一是,我们现在有了预训练的基础模型,这些模型在大量任务(比如语言任务)中表现出色,然后可以在更小的数据集上再训练一点(这一过程被称为微调),使其在一项任务中表现出色。

Foundation/Base Model

“基础/基础模型”和“微调模型”是理解人工智能模型潜在动力学的关键概念

微调对经济价值图很重要,因为它允许企业建立专有的自定义模型,即使原始模型是公开的,甚至是开源的。

如果你在应用层,考虑用微调模型在模型层中下沉你的爪子

如果您在应用程序层中构建产品,那么经过微调的自定义模型可以在模型层中使您的产品与众不同。当使用托管语言模型提供程序时,可以在这里实现快速提升,这使得微调模型就像上传单个文件一样容易。这种设置可以方便地对数十个或数百个自定义模型进行实验。

Models layer

应用层中的产品在模型层中获得某种护城河的一种方法是保留他们自己的微调模型,这些模型使用他们的专有数据在特定任务上进行了高度优化

当你考虑到像Lensa AI这样的产品可能会为每个付费用户微调一个基本的稳定扩散模型时,将因子微调到生成人工智能的价值方程中(推测)。另一个例子是,当使用人工智能编写《星际之门》科幻系列的一集剧本时,需要十二个经过微调的模型来捕捉每个角色的语气和风格。

生成、使用和反馈数据对模型的未来版本很有价值

部署人工智能产品并不是最后一步。相反,这只是一个新的重要过程的第一步:收集新的数据来改进模型和改善用户体验。在名为“让用户给出反馈”的People+AI指南模式中阅读更多关于这方面的信息。在用户界面中,它的一个简单版本可以看起来像Grammarly的反馈选项,附在每个模型建议上。

Grammarly's

Grammarly的写作助理征求您对其建议的反馈意见。这些反馈是改善服务的重要数据。

收集反馈数据将增加专有数据池,从而使您的产品与众不同。

Feedback and product usage

反馈和产品使用数据指出了模型可以改进的地方,使产品/服务更加符合用户的期望

另一种形式的反馈是收集人类偏好数据,以在现在通常被称为RLHF(从人类反馈中强化学习)的过程中优化模型。

在用户和数据注释器的帮助下,您的产品的使用数据可以生成有价值的培训数据。下图描述了一个这样的过程。这是这个模型(和数据)迭代周期的一个版本:

发布原型并研究其用途

  • 1) 将您的应用程序放在用户面前。可选地,应用程序可以由一个自定义模型提供动力,该模型已使用v1专有数据进行了微调。
  • 2) 收集用户与应用程序的交互。
  • 3) 检查用户提示并为这些提示寻找高质量的生成。

data improvement

数据改进周期的三个第一步:发布早期版本,观察使用情况,然后收集和标记可以改进模型的数据

寻找高质量的世代是一个完整的主题。人工贴标机和模型都可以在管道中使用,以提供这些完井。但暂时掩盖这个过程,得到这些数据后会发生什么?

运用所学知识,将其提升到一个新的水平

以下两个步骤是:

  • 4.将这些新提示和生成添加到数据集中,以创建数据集的v2。
  • 5.使用这个新的数据集创建一个新的模型。

proprietary data

在前一步中收集的数据是对专有数据的关键补充,可以用来为您的用例创建更好的模型

部署模型的另一个有用的副产品是收集模型的代,并将其公开以帮助其他用户。

8) 模型使用数据集允许对模型的生成空间进行集体探索

Image Generation

在图像生成中,模型很重要,但展示其他用户在实际提示的同时生成的内容的公共画廊也很重要

虽然这可能不是每个人都在寻找的一条生成性人工智能护城河,但模型前几代的公共画廊正在成为图像生成模型经济价值的重要组成部分。

MidJourney

MidJourney和Lexica.ai提供非常有用的公共世代画廊

中途旅行就是一个很好的例子。免费试用可以让用户有一定数量的世代,对公司来说非常成功。这些用户生成的所有图像都可以在公共Discord聊天室和midtravel.com上查看。但是,即使你为服务付费,基本和标准计划仍然会在网站上公开你生成的图像。只有Pro Plan才允许该公司所谓的隐形模式。

public gallery

在Midtravel上,即使是付费用户也会在公众席上分享他们的世代(Pro Plan除外)

一个庞大而多样的生成图像库通过允许用户快速放大他们想要的结果,极大地改善了这些服务的用户体验。很多时候,它们会让你接触到一些你可能会发现比你脑海中的想法更好的想法,因此它们可以让你通过寻找不同的灵感来源来快速发展某种概念。

另一个将模型生成的公共库用于产品的例子是Lexica.art,它很快成为稳定扩散模型生成的图像和用于创建图像的提示的主要库之一。

 Lexica

Lexica主页展示了他们几代人的Aperture模型

应用层玩家的Moats口袋

现在,让我们把所有这些点放在一起,最后看一看应用层上的玩家可能会有哪些竞争优势。

Different pockets

创业公司可以在不同的领域为其人工智能产品积累竞争优势。

这些口袋对人工智能业务来说是最重要的吗?不一定。商业护城河往往比技术护城河更重要。

你怎么认为?我们很想听听你对这个话题的看法,因为这是一个快速发展的领域

本文地址
https://architect.pub/ai-eating-world
SEO Title
cohere - AI is Eating The World

【人工智能】什么是无代码AI ?

Chinese, Simplified

无代码的兴起使企业能够重新评估他们的技术流程和需求。

近年来,数字文本数据的数量呈指数级增长,并继续以每年55-65%的速度增长(IDC)。从社交媒体帖子到客户交易、在线社区、调查、评论、聊天、电子邮件等等,各行各业的企业都面临着监控各种来源和提取最相关数据的挑战。

人工智能(AI)和机器学习(ML)帮助企业更准确地整理非结构化数据。然而,实现传统的人工智能和ML需要额外的人力和专业知识,可能是耗时和昂贵的。随着新技术的出现和数据的增长,能够快速、大规模地提取信息并创建可操作的见解的企业将在竞争环境中拥有最大的影响力。

 

传统人工智能与自动化

人工智能和自动化这两个术语通常可以互换使用。他们允许企业和团队更有效地运作。然而,两者在两个不同的层面上都极其复杂。自动化是技术、程序、机器人技术或流程的应用,以生产商品或服务,并在最少的人力协助下实现结果。另一方面,人工智能是一种科学和工程过程,它使机器能够从经验中学习,适应新的输入和实时数据,并在人类水平或更高的水平上执行任务。

传统的AI实现需要大量的技术技能和编程。Java, Python, Lisp, Prolog和c++是主要的人工智能编程语言,用于人工智能满足不同的需求,开发和设计不同的业务流程应用程序。对于一个典型的业务终端用户来说,利用构建AI流程所需的技术专长和知识来实现AI是不可能的。无代码运动使人工智能实现的更广泛的发展成为可能。

什么是无代码AI?

无代码运动的兴起使所有行业的企业能够重新评估他们的技术流程和需求。组织可以使用无代码工具轻松地实现敏捷开发策略,同时获得类似的、有时甚至更好的结果,并提高生产力。没有哪个代码工具是最常用的web和应用开发工具,但也可以开发和构建AI和ML模型。No-code允许用户通过快速开发新的解决方案来转换业务流程,以满足客户需求,并吸引了许多金融服务公司在其工作流程中采用No-code AI。

人工智能在金融服务行业中被用于简化和优化流程,包括监控信用风险、构建定量交易算法、管理金融风险、提供更好的客户体验等。在无代码人工智能兴起之前,风险经理、承销商、贷款机构、资产经理和业务分析师依赖他们的数据科学家和IT团队为他们建模自动化流程。然而,由于编写代码、清理数据、分类和构造数据的过程非常耗时,创建和实现单个自动化解决方案可能需要数月甚至数年的时间。

No-code AI为金融服务团队提供了更高效的解决方案,以解决耗时、人工的数据研究、提取和分析过程。人工智能工具现在可以运行在预先开发的后端和灵活的前端用户界面上,这意味着金融公司可以变得更灵活,做出更快、更好的决策,节省时间和金钱,同时实现符合其业务需求的人工智能解决方案。

换句话说,no-code正在推动人工智能的民主化,以便业务分析师和领导者、保险公司、产品和风险经理能够快速有效地创建自己的模型,绕过IT瓶颈。这样,数据科学家就可以自由地在高度复杂的项目上工作,而业务用户则可以更加高效。无代码人工智能从传统方法中提取了复杂的技术和编码技能,使任何人都可以构建人工智能模型。

关于无代码AI需要考虑三件事

虽然商业用户现在熟悉人工智能和机器学习的概念,但他们不是能够编写代码来创建人工智能新用例的技术人员。为了让金融服务获得人工智能在效率和投资回报率方面带来的好处,它们需要让商业用户发挥带头作用。一个无代码的人工智能工作流程使用户能够专注于最大化结果,而不是执行手工流程。

通过简单的命令和易于理解的用户界面,业务用户可以快速获得人工智能和自动化的好处,没有时间延误、人力限制和巨大的学习曲线。无代码人工智能通过提高效率和投资回报率,解放技术团队的时间,改变了金融服务行业的游戏规则。迅速采用这种新方法的公司将获得竞争优势。

不过,并不是所有的公司都适合这项新技术。对无代码解决方案感兴趣的组织必须确定他们的公司是否适合。那些已经有很多手工流程的公司,一个由数据科学家组成的结构化团队,并且希望迅速扩大规模,可能不希望花时间重组来实现无代码人工智能。此外,拥有大型高级技术专家团队的公司可能会觉得迁移到无代码平台并不适合他们的组织,这些专家已经习惯了实际的编码,并希望重新配置和调整代码。

随着人工智能对我们的世界和企业的影响越来越大,让它像今天的其他颠覆性和创新技术一样对企业和用户友好是很重要的。就像电子邮件、Excel电子表格和高速互联网一样,人工智能即将改变世界做生意的方式。有了无代码人工智能,业务终端用户可以在无需编码的情况下创建新的解决方案,从而提高业务效率、生产率、ROI和客户保留率

原文:https://www.techradar.com/news/what-is-no-code-ai-and-why-should-you-care

本文:http://jiagoushi.pro/node/1423

讨论:请加入知识星球【数据和计算以及智能】或者小号【it_strategy】或者QQ群【1033354921】

SEO Title
What is no-code AI and why should you care?

【人工智能】机器学习,数据科学,人工智能,深度学习和统计有何异同

Chinese, Simplified

 

机器学习,数据科学,AI,深度学习和统计学之间的区别

在本文中,我阐述了数据科学家的各种角色,以及数据科学如何与机器学习,深度学习,人工智能,统计学,物联网,运筹学和应用数学等相关领域进行比较和重叠。 由于数据科学是一门广泛的学科,我首先描述在任何商业环境中可能遇到的不同类型的数据科学家:您甚至可能发现自己是一名数据科学家,而不知道它。 与任何科学学科一样,数据科学家可以借用相关学科的技术,尽管我们已经开发了自己的工具库,特别是技术和算法,以自动方式处理非常大的非结构化数据集,即使没有人工交互,也可以实时执行交易 或者做出预测。

 

1.不同类型的数据科学家

要开始并获得一些历史观点,您可以阅读我在2014年发表的关于9种数据科学家的文章,或者我的文章,其中我将数据科学与16个分析学科进行了比较,也发表于2014年。

在同一时期发布的以下文章仍然有用:

  • 数据科学家与数据架构师
  • 数据科学家与数据工程师
  • 数据科学家与统计学家
  • 数据科学家与业务分析师

最近(2016年8月)Ajit Jaokar讨论了Type A(Analytics)与B类(Builder)数据科学家:

A型数据科学家可以很好地编码以处理数据,但不一定是专家。 A型数据科学家可能是实验设计,预测,建模,统计推断或统计部门通常教授的其他事项的专家。一般而言,数据科学家的工作产品不是“p值和置信区间”,因为学术统计有时似乎表明(例如,有时对于在制药行业工作的传统统计学家而言)。在谷歌,A型数据科学家被称为统计学家,定量分析师,决策支持工程分析师或数据科学家,可能还有一些。

B型数据科学家:B代表建筑。 B类数据科学家与A类有一些统计背景,但他们也是非常强大的编码员,可能是训练有素的软件工程师。 B类数据科学家主要关注“在生产中”使用数据。他们构建与用户互动的模型,通常提供推荐(产品,您可能知道的人,广告,电影,搜索结果)。来源:点击这里。

我还写了关于业务流程优化的ABCD,其中D代表数据科学,C代表计算机科学,B代表商业科学,A代表分析科学。数据科学可能涉及也可能不涉及编码或数学实践,您可以在我的关于低级别数据科学与高级数据科学的文章中阅读。在创业公司中,数据科学家通常会戴上几个帽子,如执行,数据挖掘,数据工程师或架构师,研究员,统计学家,建模师(如预测建模)或开发人员。

虽然数据科学家通常被描述为在R,Python,SQL,Hadoop和统计数据方面经验丰富的编码器,但这只是冰山一角,受数据营的欢迎,专注于教授数据科学的某些元素。但就像实验室技术人员可以称自己为物理学家一样,真正的物理学家远不止于此,她的专业领域也各不相同:天文学,数学物理学,核物理学(边缘化学),力学,电气工程,信号处理(也是数据科学的一个子领域)等等。关于数据科学家也可以这样说:生物信息学,信息技术,模拟和质量控制,计算金融,流行病学,工业工程,甚至数论都是各种各样的领域。

就我而言,在过去的十年中,我专注于机器对机器和设备到设备的通信,开发系统来自动处理大型数据集,执行自动交易:例如,购买互联网流量或自动生成内容。它意味着开发适用于非结构化数据的算法,它处于AI(人工智能)IoT(物联网)和数据科学的交叉点。这被称为深度数据科学。它是相对无数学的,它涉及相对较少的编码(主要是API),但它是相当数据密集型(包括构建数据系统)并基于专门为此上下文设计的全新统计技术。

在此之前,我实时进行了信用卡欺诈检测。在我的职业生涯早期(大约1990年),我从事图像遥感技术,除了其他方面,以确定卫星图像中的图案(或形状或特征,例如湖泊)和执行图像分割:当时我的研究被标记为计算统计数据,但人们在我家大学隔壁的计算机科学系做同样的事情,称他们研究人工智能。今天,它被称为数据科学或人工智能,子域是信号处理,计算机视觉或物联网。

此外,数据科学家可以在数据科学项目的生命周期,数据收集阶段或数据探索阶段的任何地方找到,一直到统计建模和维护现有系统。

【国苑】《人工智能》王咏刚 李开复博士解读

¥55

购买

深度学习(智能时代的核心驱动力量)(精)

¥68

购买

2.机器学习与深度学习

在深入研究数据科学与机器学习之间的联系之前,让我们简要讨论机器学习和深度学习。机器学习是一组算法,它们训练数据集以进行预测或采取行动以优化某些系统。例如,基于历史数据,监督分类算法用于根据贷款目的将潜在客户分类为好的或坏的潜在客户。对于给定任务(例如,监督聚类)所涉及的技术是变化的:朴素贝叶斯,SVM,神经网络,集合,关联规则,决策树,逻辑回归或许多的组合。有关算法的详细列表,请单击此处。有关机器学习问题的列表,请单击此处。

所有这些都是数据科学的一个子集。当这些算法自动化时,如自动驾驶或无驾驶汽车,它被称为AI,更具体地说,深度学习。点击此处查看另一篇文章,将机器学习与深度学习进如果收集的数据来自传感器,并且如果它是通过互联网传输的,那么机器学习或数据科学或深度学习应用于物联网。

有些人对深度学习有不同的定义。他们认为深度学习是具有更深层的神经网络(机器学习技术)。最近在Quora上提出了这个问题,下面是一个更详细的解释(来源:Quora)

  • AI(人工智能)是计算机科学的一个子领域,创建于20世纪60年代,它关注的是解决对人类而言容易但对计算机来说很难的任务。特别是,所谓的强人工智能将是一个可以做任何事情的系统(也许没有纯粹的物理事物)。这是非常通用的,包括各种任务,例如计划,在世界各地移动,识别对象和声音,说话,翻译,进行社交或商业交易,创造性工作(制作艺术或诗歌)等。
  • NLP(自然语言处理)只是人工智能的一部分,与语言(通常是书面的)有关。
  • 机器学习关注的一个方面是:给定一些可以用离散术语描述的AI问题(例如,从一组特定的动作中,哪一个是正确的动作),并给出关于世界的大量信息,图什么是“正确”的行动,没有程序员编程。通常需要一些外部过程来判断行动是否正确。在数学术语中,它是一个函数:你输入一些输入,并且你希望它产生正确的输出,所以整个问题只是以某种自动的方式建立这个数学函数的模型。为了区分AI,如果我能编写一个非常聪明的程序,它具有类似人类的行为,它可以是AI,但除非它的参数是从数据中自动学习的,否则它不是机器学习。
  • 深度学习是一种现在非常流行的机器学习。它涉及一种特定类型的数学模型,可以被认为是某种类型的简单块(函数组合)的组合,并且其中一些块可以被调整以更好地预测最终结果。

机器学习和统计学有什么区别?

本文试图回答这个问题。作者写道,统计数据是机器学习,其中包含预测或估计量的置信区间。我倾向于不同意,因为我建立了工程友好的置信区间,不需要任何数学或统计知识。

3.数据科学与机器学习

机器学习和统计是数据科学的一部分。机器学习中的单词学习意味着算法依赖于一些数据,用作训练集,以微调一些模型或算法参数。这包括许多技术,例如回归,朴素贝叶斯或监督聚类。但并非所有技术都适用于此类别。例如,无监督聚类 - 统计和数据科学技术 - 旨在检测聚类和聚类结构,而无需任何先验知识或训练集来帮助分类算法。需要人来标记发现的聚类。一些技术是混合的,例如半监督分类。一些模式检测或密度估计技术适合此类别。

数据科学不仅仅是机器学习。数据科学中的数据可能来自也可能不来自机器或机械过程(调查数据可以手动收集,临床试验涉及特定类型的小数据),它可能与我刚刚讨论过的学习无关。但主要区别在于数据科学涵盖了整个数据处理范围,而不仅仅是算法或统计方面。特别是,数据科学也包括在内

  • 数据集成
  • 分布式架构
  • 自动化机器学习
  • 数据可视化
  • 仪表板和BI
  • 数据工程
  • 在生产模式下部署
  • 自动化,数据驱动的决策

当然,在许多组织中,数据科学家只关注这一过程的一部分

SEO Title
What are the similarities and differences between machine learning, data science, artificial intelligence, deep learning and statistics?