【GenAIOps】GenAIOps：MLOps框架的演变

视频号

微信公众号

知识星球

语言 Chinese, Simplified

生成型人工智能需要新的部署和监控功能

早在2019年，我就在LinkedIn上发表了一篇博客，题为《为什么你需要ML Ops才能成功创新》。快进到今天，对许多组织来说，操作分析、机器学习和人工智能模型（或者更确切地说，系统）仍然是一个挑战。但是，话虽如此，技术已经发展，新公司已经诞生，以帮助解决在生产环境中部署、监控和更新模型的挑战。然而，随着最近使用大型语言模型（LLM）的生成型人工智能的发展，如OpenAI的GPT-4、谷歌的PaLM 2 Meta的LLaMA和GitHub Copilot，各组织竞相了解LLM的价值、成本、实施时间表和风险。公司应该谨慎行事，因为我们才刚刚开始这一旅程，我想说，大多数组织还没有做好微调、部署、监控和维护LLM的准备。

什么是MLOps？

机器学习操作（也称为MLOps）可以定义为：

ML Ops是一个跨功能、协作、连续的过程，通过可重复的部署过程，将统计、数据科学和机器学习模型管理为可重复使用、高度可用的软件工件，专注于操作数据科学。它包含了独特的管理方面，涵盖了模型推理、可扩展性、维护、审计和治理，以及对生产中的模型的持续监控，以确保它们在基本条件发生变化时仍能提供积极的业务价值。

现在我们已经对MLOps有了明确的定义，让我们讨论一下为什么它对组织很重要。

为什么MLOps很重要？

在当今算法驱动的商业环境中，MLOps的重要性怎么强调都不为过。随着组织越来越依赖复杂的ML模型来推动日常决策和运营效率，部署、管理、监控和更新这些模型的强健、可扩展和高效系统的需求变得至关重要。MLOps为开发模型的数据科学家和计算机科学家以及部署、管理和维护模型的IT运营团队之间的合作提供了一个框架和一组流程，确保模型可靠、最新并提供业务价值。

MLOps的关键能力

广义上讲，MLOps在功能上包括自动机器学习工作流、模型版本控制、模型监控和模型治理。

●自动化的工作流程简化了模型的培训、验证和部署过程；减少了手动操作并提高了速度。

● 模型版本控制允许跟踪更改并维护模型迭代的注册表。

● 模型监控对于确保模型在生产系统中按预期运行至关重要。

● 模型治理提供了对法规和组织策略的遵从性。

这些能力共同使组织能够大规模操作ML和AI，为其组织带来商业价值和竞争优势。

MLOps：指标和KPI

为了确保模型在生产系统中按预期运行并提供最佳预测，有几种类型的指标和关键性能指标（KPI）用于跟踪其功效。与数据科学家交谈，他们会经常强调‌以下指标：

● 模型性能指标：这些指标衡量模型的预测性能。它们可以包括准确性、精密度、召回率、F1分数、ROC曲线下面积（AUC-ROC）、平均绝对误差（MAE）、均方误差（MSE）等。指标的选择取决于问题的类型（分类、回归等）和业务环境。

● 数据漂移：这衡量生产工作流程中的输入数据与模型训练数据的偏差程度。显著的数据漂移可能表明，随着时间的推移，模型的预测可能会变得不那么可靠。我们在被称为新冠肺炎的小“光点”中看到了一个很好的例子。消费者习惯和商业规范一夜之间发生了变化，导致每个人的模式都被打破了！

● 模型漂移：与数据漂移类似，它测量模型的性能随时间的变化（通常是退化），而不是测量数据分布如何偏离规范。如果基础数据分布发生变化，导致模型的假设变得不那么准确，就会发生这种情况。

● 预测分布：跟踪模型预测的分布可以帮助检测异常。例如，如果一个二元分类模型突然开始预测比平时多得多的积极因素，这可能表明存在问题。这些指标通常与业务指标最为一致。

● 资源使用情况：IT资源使用情况包括CPU使用情况、内存使用情况和延迟等指标。这些度量对于确保模型在系统的基础设施和体系结构约束内高效运行非常重要。

● 业务指标：在所有指标中最重要的是，这些指标衡量模型对业务结果的影响。它们可能包括收入、客户流失率、转化率和响应率等指标。这些指标有助于评估模型是否提供了预期的业务价值。

那么，现在我们对MLOps有了高水平的理解，为什么它很重要，关键能力和指标，这与生成人工智能有何关系？

生成型人工智能：主要跨功能用例

在生成型人工智能成为主流之前，组织主要实现了基于结构化和半结构化数据的人工智能系统。这些系统主要基于数字进行训练，并生成数字输出——预测、概率和分组分配（想想分割和聚类）。换言之，我们将根据历史数字数据（如交易、行为、人口统计、技术制图、公司制图、地理空间和机器生成的数据）来训练我们的人工智能模型，并输出对报价进行篡改、响应或交互的可能性。这并不是说我们没有使用文本、音频或视频数据——我们使用了；情绪分析、设备维护日志等；但这些用例远没有基于数字的方法那么普遍。Generative AI拥有一套新的功能，使组织能够利用这些年来基本上被忽视的数据——文本、音频和视频数据。

用途和应用有很多，但我总结了生成人工智能的关键跨功能用例（迄今为止）。

内容生成

生成型人工智能可以从音频、视频/图像和文本中生成类似人类的内容。

● 音频内容生成：生成型人工智能可以制作适合YouTube等社交媒体平台的音轨，或者在您的书面内容中添加人工智能语音，增强多媒体体验。事实上，我的前两本TinyTechGuides在Google Play上都有完全由人工智能生成的画外音。我可以为人工智能讲述的书籍选择口音、性别、年龄和节奏以及其他一些关键属性。点击此处查看人工智能解说有声读物。

● 文本内容生成：这可能是目前最流行的生成人工智能形式，从撰写博客文章、社交媒体更新、产品描述、电子邮件草稿、客户信函到RFP提案，生成人工智能可以毫不费力地生成广泛的文本内容，为企业节省大量时间和资源。不过，买家要小心，仅仅因为内容是生成的，听起来很权威，并不意味着它在事实上是准确的。

● 图像和视频生成：我们已经看到这一点在好莱坞慢慢成熟，从《星球大战》系列中人工智能生成的角色到最新的《印第安纳琼斯》电影中的哈里森·福特，人工智能可以创建逼真的图像和电影。生成型人工智能可以通过为广告、演示和博客生成内容来加速创意服务。我们已经看到像Adobe和Canva这样的公司在创意服务方面齐心协力。

● 软件代码生成：Generative AI可以生成软件代码（如Python）和SQL，这些代码可以集成到分析和BI系统以及AI应用程序本身中。事实上，微软正在继续研究使用“教科书”来训练LLM来创建更准确的软件代码。

内容摘要和个性化

除了为公司创造全新的现实内容外，生成人工智能还可以用于总结和个性化内容。除了ChatGPT之外，Writer、Jasper和Grammarly等公司还瞄准了内容摘要和个性化的营销职能和组织。这将使营销组织能够花时间创建一个经过深思熟虑的内容日历和流程，然后可以对这些各种服务进行微调，以创建看似无限多的受制裁内容变体，从而在正确的时间在正确的渠道将其交付给正确的人。

内容发现和问答

生成人工智能正在获得吸引力的第三个领域是‌内容发现和问答。从数据和分析软件的角度来看，各种供应商正在整合生成人工智能功能，以创建更自然的界面（用通俗易懂的语言），促进组织内新数据集的自动发现，以及编写现有数据集的查询和公式。这将允许非专业商业智能（BI）用户提出简单的问题，如“我在东北地区的销售额是多少？”，然后深入研究并提出越来越精细的问题。BI和分析工具根据查询自动生成相关图表和图形。

我们还看到医疗保健行业和法律行业越来越多地使用这种技术。在医疗保健领域，生成型人工智能可以梳理大量数据，帮助总结医生笔记，并通过聊天机器人、电子邮件等个性化与患者的沟通和通信。人们对仅将生成人工智能用于诊断能力保持沉默，但随着人类的参与，我们将看到这种情况的增加。我们还将看到生成人工智能在法律界的使用有所增加。同样，作为一个以文档为中心的行业，生成型人工智能将能够快速找到合同中的关键条款，帮助进行法律研究，总结合同，并为律师创建定制的法律文档。麦肯锡称之为法律副驾驶员。

既然我们了解了与生成人工智能相关的主要用途，让我们来谈谈关键问题。

生成人工智能：主要挑战和考虑因素

生成型人工智能虽然前景广阔，但也有其自身的一系列障碍和潜在陷阱。组织在将生成人工智能技术融入其业务流程之前，必须仔细考虑几个因素。主要挑战包括：

● 准确性问题（幻觉）：LLM通常会产生误导性或完全虚假的信息。这些回应看似可信，但完全是捏造的。企业可以建立哪些保障措施来检测和防止这种错误信息？

● 偏见：组织必须了解模型中偏见的来源，并实施缓解策略来控制它。有什么公司政策或法律要求来解决潜在的系统性偏见？

● 透明度不足：对于许多应用程序，特别是在金融服务、保险和医疗保健等行业，模型透明度通常是一项业务要求。然而，LLM本身并不能解释或预测，从而导致“幻觉”和其他潜在的事故。如果您的业务需要满足审计师或监管机构的要求，您必须问问自己，我们甚至可以使用LLM吗？。

● 知识产权（IP）风险：用于培训许多基础LLM的数据通常包括公开的信息——我们已经看到了因不当使用图像（例如HBR——Generative AI存在知识产权问题）、音乐（The Verge——AI Drake刚刚为谷歌设下了一个不可能的法律陷阱）和书籍（《洛杉矶时报》——Sara Silverman和其他畅销作家Sue MEta和OpenAI侵犯版权）而提起的诉讼。在许多情况下，培训过程不分青红皂白地吸收所有可用数据，导致潜在的知识产权曝光和版权侵权诉讼。这就引出了一个问题，什么数据被用来训练你的基础模型，什么被用来微调它？

● 网络安全和欺诈：随着生成人工智能服务的广泛使用，组织必须为恶意行为者的潜在滥用做好准备。生成型人工智能可以用来制造深度伪造，用于社会工程攻击。您的组织如何确保用于培训的数据未被欺诈者和恶意行为者篡改？

● 环境影响：训练大规模人工智能模型需要大量的计算资源，这反过来又会导致大量的能源消耗。这对环境有影响，因为所使用的能源往往来自不可再生资源，导致碳排放。对于已经制定了环境、社会和治理（ESG）计划的组织，您的计划将如何考虑LLM的使用？

现在，公司还需要考虑许多其他事情，但主要的事情已经被抓住了。这就提出了下一个问题，我们如何操作生成性人工智能模型？

GenAIOps：需要一套新的能力

现在，我们对生成人工智能、关键用途、挑战和考虑有了更好的理解，让我们接下来谈谈MLOps框架必须如何发展——我将其命名为GenAIOps，据我所知，我是第一个创造这个术语的人。

让我们来看看LLM创建的高级流程；该图改编自On the Opportunities and Risks of Foundation Models。

图1.1：培训和部署LLM的流程

Process to Train and Deploy LLMs — Image Courtesy of Author, TinyTechGuides Founder David E Sweenor

在上面的内容中，我们看到数据被创建、收集、策划，然后模型被训练、调整和部署。鉴于此，全面的GenAIOps框架应该考虑哪些因素？

GenAIOps：检查表

最近，斯坦福大学发布了一篇论文《基金会模型提供商遵守欧盟人工智能法案草案吗？》？看完之后，我以此为灵感生成了下面的GenAIOps框架清单。

数据

○ 使用了哪些数据源来训练模型？
○ 用于训练模型的数据是如何生成的？
○ 培训师是否有权在上下文中使用这些数据？
○ 数据是否包含受版权保护的材料？
○ 数据是否包含敏感或机密信息？
○ 数据是否包含个人数据或PII数据？
○ 数据已经中毒了吗？它会中毒吗？
○ 数据是真实的还是包括人工智能生成的内容？

建模：

○ 该模型有哪些限制？
○ 模型是否存在相关风险？
○ 什么是模型性能基准？
○ 如果必须的话，我们能重建模型吗？
○ 模型是透明的吗？
○ 其他哪些基础模型用于创建当前模型？
○ 使用了多少能量和计算资源来训练模型？

部署：

○ 模型将部署在哪里？
○ 目标部署应用程序是否了解他们正在使用生成人工智能？
○ 我们是否有适当的文件来满足审计师和监管机构的要求？

现在我们有了一个起点，让我们仔细看看这些指标

GenAIOps：度量标准和过程注意事项

以MLOps指标和KPI为起点，让我们研究一下这些指标如何应用于生成人工智能指标。我们希望GenAIOps将有助于解决生成人工智能的具体挑战，例如生成虚假、虚假、误导或有偏见的内容。

模型性能指标

在生成人工智能的背景下，组织如何衡量模型的性能？我怀疑大多数组织可能会使用商业上可获得的预先培训的LLM，并使用自己的数据来微调和调整其模型。

现在，肯定有一些技术性能指标与基于文本的LLM相关，如BLEU、ROUGE或METEOR，当然还有其他用于图像、音频和视频的指标，但我‌我更关心虚假（false）、虚假（fake）、误导或有偏见的内容的产生。组织可以采取哪些控制措施来监控、检测和缓解这些事件？

我们过去确实看到了宣传的泛滥，脸书、谷歌和推特等社交媒体巨头未能实施一种始终如一、可靠地防止这种情况发生的工具。如果是这种情况，您的组织将如何衡量生成人工智能模型的性能？你会有事实核查员吗？图像、音频和视频怎么样？你如何衡量这些型号的性能？

数据漂移

考虑到模型需要大量的资源和时间来训练，模型创建者将如何确定世界数据是否在漂移，我们是否需要一个新的模型？一个组织将如何理解他们的数据是否正在发展到需要重新校准模型的地步？这对数字数据来说相对简单，但我认为我们仍在学习如何处理非结构化数据，如文本、图像、音频和视频。

假设我们可以创建一种机制来定期调整我们的模型，那么我们也应该有一个控制机制来检测漂移的数据是由于真实事件还是人工智能生成的内容的扩散？在我关于人工智能熵：人工智能生成内容的邪恶循环的帖子中，我讨论了一个事实，即当你在人工智能上训练人工智能时，它会随着时间的推移而变得更笨。

模型漂移

与您的模型性能和数据漂移问题类似，如果您的模型的性能开始漂移，您的组织将如何检测和理解？您会对输出进行人工监控还是将调查发送给最终用户？也许更直接的方法之一是，不仅要设置控制措施来监控模型的技术性能，而且您的公司应该始终跟踪模型的输出。这是不言而喻的，但您正在使用一个模型来解决特定的业务挑战，并且您需要监控业务指标。您是否看到放弃购物车的人数增加，客户服务电话的增加/减少，或客户满意度的变化？

预测分布

同样，我认为我们有不错的工具和技术来跟踪基于数字的预测。但现在我们正在处理文本、图像、音频和视频，您如何看待监控预测分布？我们是否能够理解部署目标的模型输出是否产生了虚假的相关性？如果是这样，你可以采取什么措施来衡量这种现象？

资源使用情况

从表面上看，这一次似乎相对直截了当。然而，随着公司内部生成性使用的增长，您的组织将需要一个系统ini来跟踪和管理它的使用。生成人工智能领域的定价模型仍在发展，因此我们需要小心。与我们在云数据仓库领域看到的情况类似，我们开始看到成本失控。那么，如果你的公司有基于使用量的定价，你将如何实施财务控制和治理机制，以确保你的成本是可预测的，不会流失？

商业指标

我之前已经说过这一点，但您可以设置的最重要的监视器和控制集与您的业务指标有关。您的公司需要时刻保持警惕，监控您的模型在日常生活中对业务的实际影响？如果您将其用于关键业务流程，您有哪些SLA保证来确保正常运行时间？

偏差是任何人工智能模型的一个大问题，但对于生成型人工智能来说，这可能更为严重。你将如何检测你的模型输出是否有偏差，以及它们是否会使不平等现象长期存在？Tim O'Reilly在这方面写了一篇很棒的博客，题为《我们已经让瓶子里的精灵Ot》（We Have Already Let the Genie Ot of the Bottle ），我鼓励你阅读。

从知识产权的角度来看，您将如何保证专有、敏感或个人信息不会从您的组织中泄露或泄露？考虑到目前正在进行的所有侵犯版权的诉讼，这是您的组织需要解决的一系列重要因素。你是否应该要求供应商保证这些在你的模型中与Adobe的游戏不同（FastCompany——Adobe非常确信其萤火虫生成的人工智能不会侵犯版权，从而为你支付法律费用）？现在，他们将支付您的法律账单，这很好，但这会使您的公司面临什么声誉风险？如果你失去了客户的信任，你可能永远也无法挽回他们。

最后，数据中毒无疑是一个热门话题。当您使用组织的数据来调整和微调模型时，如何保证这些数据是无害的？如何保证用于训练基础模型的数据没有被破坏？

总结

最终，这项工作的目标不是提供如何解决GenAIOps的具体方法和指标，而是提出一系列问题，即组织在实施LLM之前需要考虑什么。与任何事情一样，生成人工智能有很大的潜力帮助您的组织获得竞争优势，但也有一系列挑战和风险需要解决。最终，GenAIOps需要有一套原则和能力，涵盖采用组织和提供LLM的供应商。用蜘蛛侠的话来说，巨大的力量伴随着巨大的责任。

如果你想了解更多关于人工智能的信息，请查看我的书《人工智能：让人工智能为你的企业服务的高管指南》（An Executive Guide to Make AI Work for Your Business on Amazon.）。

本文地址

https://architect.pub/genaiops-evolving-mlops-framework

41 次浏览

SEO Title

GenAIOps: Evolving the MLOps Framework