数据红利：推动生成人工智能

语言 Chinese, Simplified

SEO Title

The data dividend: Fueling generative AI

1.让价值成为你的指南

在确定生成人工智能的数据战略时，首席数据官可能会考虑引用约翰·肯尼迪总统的一句话：“不要问你的企业能为生成人工智能做什么；要问生成人工智能能为你的企业做什么。”关注价值是一个长期存在的原则，但首席数据官必须特别依靠它来平衡用生成人工智能“做点什么”的压力。为了提供这种对价值的关注，首席数据官员需要对企业对生成人工智能整体方法的数据含义有一个清晰的认识，这将在三个原型中体现出来：

Taker：通过API等基本接口使用预先存在的服务的业务。在这种情况下，CDO将需要专注于为生成的人工智能模型提供高质量的数据，并随后验证输出。
Shaper：一个访问模型并根据自己的数据对其进行微调的企业。CDO将需要评估业务的数据管理需要如何发展，以及需要对数据架构进行哪些更改才能实现所需的输出。
Maker：建立自己的基础模型的企业。CDO需要制定复杂的数据标签和标记策略，并进行更重大的投资。
CDO在支持Shaper方法方面发挥着最大的作用，因为Maker方法目前仅限于那些愿意进行重大投资的大公司，而Taker方法基本上可以获得商品化的能力。推动Shaper方法的一个关键功能是传达实现特定用例所需的权衡，并强调那些最可行的用例。例如，尽管超个性化是一个很有前途的生成人工智能用例，但它需要干净的客户数据、强大的数据保护护栏以及访问多个数据源的管道。CDO还应优先考虑能够为业务提供最广泛好处的计划，而不是简单地支持单个用例。

由于CDO有助于塑造企业对生成人工智能的方法，因此对价值有一个广泛的看法是很重要的。尽管生成人工智能很有前景，但它只是更广泛的数据组合的一部分（图表1）。企业的大部分潜在价值来自传统的人工智能、商业智能和机器学习（ML）。如果CDO发现自己90%的时间都花在了与生成人工智能相关的举措上，那就是一个危险信号。

2.在数据体系结构中构建特定的功能，以支持最广泛的用例集

在数据方面，最大的变化是，由于生成型人工智能能够处理聊天、视频和代码等非结构化数据，其价值范围变得更大了。这是一个重大转变，因为数据组织传统上只能处理结构化数据，如表中的数据。获取这一价值并不需要重建数据架构，但想要超越基本Taker原型的CDO需要专注于两个明确的优先事项。

首先是修复数据体系结构的基础。虽然这听起来像是旧闻，但企业以前可以摆脱的系统漏洞将成为生成人工智能的大问题。如果没有强大的数据基础，生成人工智能将无法实现许多优势。为了确定数据架构的重点元素，CDO最好通过确定为最广泛的用例提供最大好处的修复来提供服务，例如个人身份信息（PII）的数据处理协议，因为任何特定于客户的生成人工智能用例都需要这种能力。
第二个优先事项是确定需要对数据体系结构进行哪些升级，以满足高价值用例的要求。这里的关键问题是如何经济高效地管理和扩展为生成性人工智能用例提供动力的数据和信息集成。如果管理不当，就有很大的风险，即通过大规模的数据计算活动使系统压力过大，或者团队进行一次性集成，这会增加复杂性和技术债务。这些问题因业务的云配置文件而变得更加复杂，这意味着CDO必须与IT领导层密切合作，以确定计算、网络和服务使用成本。

一般来说，CDO需要优先实施数据架构的五个关键组件，作为企业技术堆栈的一部分（附件2）：

非结构化数据存储：大型语言模型（LLM）主要用于大多数用例中的非结构化数据。数据领导者需要规划出所有非结构化数据源，并建立元数据标记标准，以便模型能够处理数据，团队能够找到他们需要的数据。CDO需要进一步提高数据管道的质量，并建立透明度标准，以便很容易将问题的来源追踪到正确的数据源。
数据预处理：大多数数据都需要进行准备——例如，通过转换文件格式、清理数据质量和处理敏感数据——以便生成人工智能能够使用这些数据。预处理的数据通常用于构建生成人工智能模型的提示。为了提高性能，CDO需要大规模标准化结构化和非结构化数据的处理，例如访问底层系统的方式，并对支持最常见问题和答案的数据进行优先级排序（或“预聚合”）。
矢量数据库：矢量化是一种对内容进行优先排序并创建“嵌入”（文本含义的数字表示）的方式，以简化对上下文的访问，补充信息生成人工智能需要提供准确的答案。矢量数据库允许生成的人工智能模型只访问最相关的信息。例如，矢量数据库只提供最相关的页面，而不是提供千页PDF。在许多情况下，公司不需要构建矢量数据库就可以开始使用生成型人工智能。他们通常可以使用现有的NoSQL数据库来启动。
LLM集成：更复杂的生成人工智能使用需要与多个系统进行交互，这在连接LLM方面带来了重大挑战。一些框架，其中许多是开源的，可以帮助促进这些集成（例如，LangChain或各种超规模产品，如Azure的语义内核、AWS的Bedrock或谷歌云的Vertex AI）。CDO将需要制定选择使用哪些框架的指导方针，定义可以为特定目的轻松定制的提示模板，并为LLM如何与源数据系统接口建立标准化的集成模式。
即时工程：有效的即时工程（以从生成的人工智能模型中获得最佳答案的方式构建问题的过程）依赖于上下文。上下文只能从结构化和非结构化来源的现有数据和信息中确定。为了提高输出，CDO需要管理知识图或数据模型和本体（一个领域中的一组概念，显示它们的属性和它们之间的关系）到提示中的集成。由于CDO在整个业务中不拥有许多数据存储库的所有权，因此他们需要设置标准和资格预审来源，以确保输入模型的数据遵循特定协议（例如，公开知识图API以轻松提供实体和关系）。

3.关注数据生命周期的关键点，确保高质量

数据质量一直是CDO的一个重要问题。但是，生成人工智能模型所依赖的数据的规模和范围使“垃圾输入/垃圾输出”这一真理变得更加重要和昂贵，因为训练一个LLM可能需要数百万美元。3在生成人工智能模式中，确定数据质量问题比在经典ML模型中要困难得多的一个原因是，数据太多，而且大部分是非结构化的，因此很难使用现有的跟踪工具。

CDO需要做两件事来确保数据质量：扩展其用于生成人工智能应用程序的数据可观察性程序4，以更好地发现质量问题，例如为生成人工智能程序中包含的非结构化内容设置最低阈值；并在整个数据生命周期内制定干预措施，以解决团队发现的问题，主要在四个领域：

源数据：扩展数据质量框架，包括与生成人工智能目的相关的措施（如偏见）。确保结构化和非结构化数据的高质量元数据和标签，并规范对敏感数据的访问（例如，基于角色的访问）。
预处理：确保数据的一致性和标准化，并遵循本体和已建立的数据模型。检测异常值并应用归一化。自动化PII数据管理，并制定数据是否应被忽略、保留、编辑、隔离、删除、屏蔽或合成的指导方针。
提示：评估、测量和跟踪提示的质量。在提示中包括结构化和非结构化数据的高质量元数据和沿袭透明度。
LLM的输出：建立必要的治理程序来识别和解决不正确的输出，并使用“循环中的人”来审查和分类输出问题。最终，通过培训员工批判性地评估模型输出并意识到输入数据的质量，提升员工个人的作用。补充了自动监控和警报功能，以识别流氓行为。

4.保护您的敏感数据，并随时准备在法规出现时迅速采取行动

约71%的高级IT领导者认为，生成人工智能技术正在为他们的数据引入新的安全风险。5关于生成人工智能的安全性和风险，已经有很多报道，但CDO需要考虑三个特定领域的数据影响：

识别并优先考虑企业专有数据的安全风险。CDO需要评估与暴露业务数据相关的广泛风险，例如当机密和专有代码与生成的人工智能模型共享时，商业秘密的潜在暴露，并优先考虑最大的威胁。许多现有的数据保护和网络安全治理可以扩展到解决特定的生成人工智能风险——例如，通过在工程师想要与模型共享数据时添加弹出提醒，或者通过运行自动化脚本来确保合规性。
管理对PII数据的访问。CDO需要规范在生成人工智能的背景下如何检测和处理数据。他们需要建立包含保护工具和人工干预的系统，以确保在数据预处理期间和在LLM上使用PII数据之前删除PII数据。使用合成数据（通过数据制作者）和非敏感标识符可能会有所帮助。
密切跟踪法规的预期激增。生成型人工智能推动了各国政府迅速制定新法规，例如欧盟的《人工智能法案》，该法案正在制定一系列新标准，例如让公司发布用于培训LLM的受版权保护数据的摘要。数据领导者必须与业务风险领导者保持密切联系，以了解新法规及其对数据战略的影响，例如需要“解锁”使用受监管数据的模型。

5.培养数据工程人才

随着企业越来越多地采用生成型人工智能，CDO将不得不关注对人才的影响。一些编码任务将由生成性人工智能工具完成——在GitHub上发布的代码中有41%是由人工智能编写的。6这需要对使用生成型人工智能“副驾驶员”进行专门的培训——麦肯锡最近的一项研究表明，高级工程师使用生成型AI副驾驶员的工作效率比初级工程师高。7数据和人工智能学院需要结合针对特定专业水平的生成型AI培训。

首席数据官还需要清楚哪些技能最能实现生成性人工智能。公司需要能够集成数据集（例如编写将模型连接到数据源的API）、序列和链提示、处理大量数据、应用LLM以及处理模型参数的人。这意味着首席数据官应该更多地关注寻找数据工程师、架构师和后端工程师，而不是雇佣数据科学家，因为生成人工智能允许技术能力较差的人在进行基本分析时使用自然语言，数据科学家的技能将越来越不重要。

在短期内，人才供应将持续短缺，我们预计，在不久的将来，人才缺口将进一步扩大，8这将为CDO建立培训计划创造更多激励。

6.使用生成人工智能帮助您管理数据

数据领导者有一个巨大的机会来利用生成人工智能来改善自己的功能。在我们的分析中，在整个数据价值链中出现了八个主要用例，其中生成人工智能既可以加速现有任务，又可以改进任务的执行方式（图表3）。

许多供应商已经在推出产品，要求CDO确定他们可以依赖供应商的能力以及他们应该自己构建的能力。一条经验法则是，对于业务特有的数据治理流程，最好构建自己的工具。请注意，许多工具和功能都是新的，可以在实验环境中很好地工作，但不能大规模工作。

7.严格跟踪，快速干预

今天，在生成型人工智能世界中，未知的比已知的多，公司仍在学习前进的道路。因此，CDO必须建立系统，积极跟踪和管理其生成人工智能计划的进展，并了解数据在支持业务目标方面的表现。

在实践中，有效的指标由一组核心KPI和运营KPI（驱动KPI的基本活动）组成，这些KPI有助于领导者跟踪进度并确定问题的根本原因。

一组核心KPI应包括以下内容：

额外组件的成本，如矢量数据库和LLM作为服务的消耗
通过将特定数据源与生成的人工智能应用程序工作流集成实现的额外收入
开发需要访问内部数据的生成人工智能应用程序的上市时间
最终用户对数据如何提高应用程序的性能和质量的满意度

运营KPI应包括跟踪哪些数据使用最多、模型执行情况如何、哪里的数据质量较差、针对给定数据集提出了多少请求，以及哪些用例产生了最多的活动和价值。

这些信息对于为领导层提供事实基础至关重要，领导层不仅可以跟踪进展，还可以根据CDO更广泛的投资组合中的其他举措做出快速调整和权衡决策。例如，通过了解哪些数据源最用于高价值模型，CDO可以优先考虑投资，以提高这些数据源的数据质量。

有效的投资、预算和重新分配将取决于CDO开发类似FinOps的能力，以管理围绕生成性人工智能增长的整个新成本结构。CDO需要跟踪一系列新的成本，包括生成性人工模型请求的数量、供应商的API消费费用（呼叫的数量和规模）以及云提供商的计算和存储费用。有了这些信息，CDO可以确定如何最好地优化成本，例如按优先级路由请求或将某些数据移动到云中以降低网络成本。

这些指标的价值只取决于CDO对其采取行动的程度。CDO将需要建立可以近实时审查的数据性能指标和协议，以做出快速决策。有效的数据治理计划应保持不变，但应扩展到包含生成性人工智能相关决策。

数据不能成为生成性人工智能的事后想法。相反，它是推动企业从生成性人工智慧中获取价值的核心燃料。但想要获得价值的企业负担不起仅仅管理数据的CDO；他们需要了解如何使用数据来领导业务的CDO。

本文地址

https://architect.pub/data-dividend-fueling-generative-ai