category
人工智能的出现迫使数据和人工智能领导者重新审视他们的数据平台。现在搬家的公司可以为数据驱动的未来做好准备。
一年多来,ata和人工智能领导者一直在狂热地研究生成式人工智能(gen-AI)用例。他们的经验让我们看到了第二代人工智能的巨大价值,但也暴露了在扩大规模方面的各种挑战。管理数据仍然是人工智能创造价值的主要障碍之一。事实上,麦肯锡最近的一项调查显示,70%的顶尖企业表示,他们在将数据整合到人工智能模型中时遇到了困难,包括数据质量问题、定义数据治理流程以及拥有足够的培训数据。1
根据我们的经验,组织一直受到对如何发展数据能力以大规模支持人工智能案例以及如何使用人工智能改进数据实践的理解的阻碍。本文将介绍数据和人工智能领导者可以考虑的三个行动,以帮助他们从人工智能试点转向扩展数据解决方案。第一个重点是组织如何加强其数据的质量和准备,以适应人工智能用例。第二部分着眼于组织如何利用人工智能技术,利用现代化的数据平台构建更好的数据产品。第三部分探讨了实现重用和加速数据解决方案开发的关键数据管理考虑因素。
它从源头开始:改善你的数据
虽然数据质量长期以来一直是数据和人工智能领导者的重要关注点,但将糟糕的数据输入人工智能模型的风险和成本不容小觑,从糟糕的结果、昂贵的修复、网络漏洞到用户对输出失去信任。事实上,上面引用的2024年麦肯锡调查发现,63%的受访者(比2023年的调查高出7个百分点)表示,输出不准确是他们在组织使用人工智能时看到的最大风险。2
确保数据质量的传统方法是不够的;领导者应该考虑以下改进和扩展源数据的方法。
从复杂数据类型中获取更好、更准确的源数据
组织正在努力处理非结构化数据集日益复杂的问题。例如,银行可能希望查看结构化财务信息,如交易历史,以及财务报表和市场分析,以确定企业客户的信誉。但是,处理结构化和非结构化数据的组合通常会增加出错的可能性,因为尽管内部团队和主题专家拥有相关知识,但他们通常很难将这些知识编码,以便数据管道流程可以轻松复制。
工具已经发展到处理不同类型和数据源之间的关系。例如,知识图可以帮助捕捉实体之间的复杂关系,为大型语言模型(LLM)及其下游数据集提供有意义的上下文。这些功能使准确地将数据点从非结构化数据映射到结构化数据变得更加容易。
即使数据工程师了解数据集之间的关系,他们仍然需要根据属性(如数据格式(例如PDF、PowerPoint、Word或图像文件))分配不同的方法来解释数据。随着公司将格式集成到越来越复杂的系统中,这是一个挑战。多模态模型现在已经足够复杂,可以解析具有不同数据格式的更复杂类型的文档,例如从非结构化文档中提取表格数据。
虽然这些模型变得越来越容易使用,但它们仍然会出错(在某些情况下,成本很高)。准确性问题需要不断审查,这通常仍然是手动审查。例如,一些数据工程师花费大量时间检查集成开发环境的两个屏幕,以观察输出之间的差异。随着并发用例的增加,这种手动方法很快就会达到极限。数据领导者需要将资源集中在实施自动化评估方法、管理版本控制的机制和数据相关性评分上,以提高多模态模型输出的准确性和一致性。
一家投资公司知道,它需要改进数据访问和使用,以实现虚拟助理。为了使用来自结构化和非结构化数据源的产品信息,它必须构建数据管道来解析和处理非结构化数据,识别每个文档的最新版本,并为移动用户调整文章的长度。该公司的数据工程师使用多模态模型功能将文档中的表格数据解析为结构化数据,并构建奖章架构(一种支持模块化管道开发的组织数据的流行设计模式)。此外,他们引入了版本控制和相关性评分,以提高输出准确性。因此,该公司能够在两周内利用生产级的gen AI环境快速开始用例工作,如尽职调查活动。
在数据不可用时创建数据
一些人工智能用例很难实现,因为所需的数据难以获取和处理,这在医疗保健、生命科学或其他具有严格数据安全法规的行业中往往是一个问题。为了克服这些挑战,在某些情况下,数据工程师可以手动生成一个文件来测试用例的有效性。但这个过程可能既费时又低效。
相反,数据和人工智能领导者正在投资于人工智能工具,以生成合成数据作为测试数据,或完全基于表的列描述和上下文生成新值,使他们能够创建新的数据集或对现有数据集进行修订。一些公司已经使用合成数据生成器来创建统计上相似的数据集。
使用gen AI加速可重用数据产品的构建
数据产品,如个人客户的360度视图,是公司如何利用数据为业务大规模创造价值的基石。3但开发此类数据产品可能很困难,也很耗时。然而,有了更好的数据和新一代人工智能工具,公司发现他们可以加速开发并提高产出。例如,一家酒店公司将客户领域数据模型的创建速度提高了60%,同时将功能工程的生产率提高了50%。它能够通过专注于在PySpark中自动生成端到端的数据转换管道和所有发生的复杂转换的健壮文档来达到这些目标。
转向端到端创建数据产品
直到最近,现有技术还将数据管道(如奖章架构)的创建限制为一种费力的循序渐进的方法。虽然使用gen AI执行任务,例如从自然语言生成单个表,可能会使数据工程师更高效,但工程师仍然必须完成一系列其他上游和下游步骤,例如组合所有表。
相反,数据和人工智能领导者开始采取端到端的方法来构建数据管道,通过自动化所有步骤,在某些情况下可以节省80%到90%的时间,并增强特定用例的可扩展性。
编写数据管道代码以生成数据产品传统上一直是数据工程师最耗时的任务之一。我们现在看到了用SQL或Python等语言编写的数据管道的自动创建,以创建可以同时解决多个用例的完整模型。与其着眼于适度的工作范围,例如从自然语言提示符生成单个表,不如将生成数十个表作为一个能够为多个用例提供解决方案的有凝聚力的目标数据模型。
然而,在组织开始生成这些类型的能力之前,它需要确保它拥有值得信赖、易于理解和可用的数据。对于那些多年来一直在构建数据资产的公司来说,这一过程的一个重要因素是了解他们的遗留代码库和现有数据。然而,由于数据沿袭或编目不佳,许多公司都在苦苦挣扎,导致对其数据生成方式的理解有限。作为回应,一些公司正在多个LLM中使用各种代理(人工智能应用程序)来分析遗留代码库并生成自然语言文本描述。这种方法不仅提高了组织对其代码库的理解,而且促进了数据目录功能的创建,简化了冗余代码段的识别和删除。
通过更好的编排和数据管理增强一致性
开发人工智能应用程序需要一定程度的编排和模块化,以便轻松重用特定功能。传统的持续集成/持续交付(CI/CD)方法往往无法胜任这项任务,因为由于引入了特定于人工智能的活动,如即时工程,它们无法在人工智能程序之间保持必要的一致性。
作为回应,一些数据和人工智能领导者正在使用基于代理的框架,这种结构有助于多代人工智能代理之间的协作和协调。这些框架协调了gen AI代理以及扩展其使用(和重用)所涉及的复杂性。基于代理的框架配备了推理、代码执行、工具使用和规划能力,以及增强的工作流管理。它们可以帮助解决与LLM相关的限制,例如流程管理挑战、交叉验证错误和端到端工作流设计约束。通过将这些代理整合到一代人工智能架构中,组织可以更好地管理复杂的任务,提高整体性能、可靠性、价值和用户满意度。一些公司正在面向消费者的聊天机器人或企业知识检索系统中采用基于代理的框架。
为了更好地管理他们的数据产品,许多公司正在转向一系列工具。一些人正在使用现成的工具,尽管这些工具在复杂的场景中经常遇到问题,例如从非结构化数据中自动生成见解。使用人工智能增强数据目录的组织可以促进实时元数据标记,包括从结构化和非结构化内容自动生成元数据以及创建智能标记。这有助于改善数据发现,并协助为人工智能模型选择合适的结构化和非结构化数据。
迁移数据产品并使其现代化
在开始使用人工智能功能(如代码翻译)将数据产品及其底层管道从一个平台迁移到另一个平台之前,公司需要首先确定适合该工作的LLM。虽然许多组织使用其云服务提供商提供的LLM,但某些LLM在一组编码语言上的培训可能比在其他语言上更熟练。例如,一个LLM可能更适合为管道编写PySpark代码,而另一个LLM在Terraform上更适合将基础设施作为代码开发。组织可以使用这些LLM来促进更平滑地迁移到使用PySpark或SQL的平台,尽管在某些情况下,根据编码语言或框架,可能仍然需要微调模型。
通过了解哪些LLM用于给定的编码语言,以及如何跨语言自动化代码翻译,公司可以更好地将管道从云中的大型机和传统托管服务迁移到更现代的云资源。然而,确定合适的LLM可能需要额外的测试时间,数据和人工智能领导者应该在他们的项目路线图中考虑到这一点。
利用安全和编码标准扩展人工智能
数据和人工智能领导者在管理和治理非结构化数据的快速扩展使用方面面临着巨大挑战。人工智能模型和应用程序的激增不仅带来了风险,而且阻碍了规模的扩大,因为团队最终经常使用不同的(有时是相互冲突的)工具和方法。
通过在开发过程的每个阶段保护数据并自动化编码最佳实践的集成,公司可以降低风险,并执行标准来扩展其新一代人工智能解决方案。
在每一步保护数据
PDF、视频和音频文件等非结构化数据为人工智能模型提供了丰富的信息,但它们会产生重大的安全问题,需要强有力的数据保护控制。然而,传统的访问控制可能还不够。例如,非结构化数据必须转换为gen AI应用程序可以分析的格式,以了解上下文,然后生成元数据,帮助确定对数据的访问权限。
为了降低安全风险,一些数据和人工智能领导者正在设计能够自动保护数据的模块化管道。例如,提取一个包含跨PDF多页注释的收入表将需要实现传统的基于角色的访问控制,包括在文本中隐藏相关句子。由于人工智能的输出仍然经常不一致,数据和人工智能领导者应该在数据管道中的每个检查点仔细构建一致、安全的访问控制和护栏,从摄入到矢量化,再到检索增强生成(RAG),再到人工智能模型的消费。
将编码最佳实践整合到gen AI输出中
规模的一个关键特征是确保在工程数据时始终遵守批准的标准和最佳实践。当使用直接来自LLM的代码时,这可能是一个问题,因为质量可能不符合预期,例如,代码缺乏组织背景或不符合组织使用的标准框架。为了帮助克服这些问题并提高数据质量,一些组织正在将编码最佳实践整合到所有由人工智能生成的代码中。
另一种方法是使用gen AI分析列值,根据现有规则确定适当的数据质量规则,然后将它们无缝集成到流水线生成过程中。公司通常对数据产品有一套通用的数据质量规则,在不同的用例中通常只有轻微的变化。定义这些规则的组织——具有针对不同情况进行调整的正确参数——可以开发出新一代人工智能解决方案,使他们能够自动将规则添加到他们的管道中。
Gen AI工具可用于加速数据产品和数据平台的开发并提高其性能。但为了有效地使用它们,公司将不得不应对广泛的技术挑战。专注于编排能力、自动化数据开发程序和提高可用性将使数据和人工智能领导者能够帮助他们的组织从人工智能试点转向推动真正价值的扩展解决方案。
- 登录 发表评论
- 6 次浏览
最新内容
- 2 days 6 hours ago
- 3 days ago
- 6 days 7 hours ago
- 1 week ago
- 1 week 1 day ago
- 1 week 1 day ago
- 1 week 1 day ago
- 1 week 1 day ago
- 1 week 2 days ago
- 2 weeks 1 day ago