跳转到主要内容

热门内容

今日:


总体:


最近浏览:


Chinese, Simplified

category

For more information about NVIDIA NeMo, see Develop Custom Enterprise Generative AI with NVIDIA NeMo.

生成人工智能开创了一个新的计算时代,有望彻底改变人机交互。这一技术奇迹的前沿是大型语言模型(LLM),它使企业能够使用大型数据集识别、总结、翻译、预测和生成内容。然而,生成型人工智能对企业的潜力也伴随着相当多的挑战。

由通用LLM提供的云服务提供了一种快速入门生成人工智能技术的方法。然而,这些服务往往专注于一系列广泛的任务,而不是针对特定领域的数据进行培训,这限制了它们对某些企业应用程序的价值。这导致许多组织构建自己的解决方案——这是一项艰巨的任务——因为他们必须将各种开源工具组合在一起,确保兼容性,并提供自己的支持。

NVIDIA NeMo提供了一个端到端平台,旨在简化企业LLM的开发和部署,开创了人工智能能力的变革时代。NeMo为您提供了创建企业级、可供生产的定制LLM的基本工具。NeMo工具套件简化了数据管理、培训和部署的过程,促进了根据每个组织的具体要求快速开发定制的人工智能应用程序。

对于依靠人工智能进行业务运营的企业,NVIDIA AI Enterprise提供了一个安全的端到端软件平台。NVIDIA AI enterprise将NeMo与生成的人工智能参考应用程序和企业支持相结合,简化了采用过程,为人工智能功能的无缝集成铺平了道路。

End-to-end platform for production-ready generative AI

The NeMo framework simplifies the path to building customized, enterprise-grade generative AI models by providing end-to-end capabilities and containerized recipes for various model architectures.

Figure 1. End-to-end platform for production-ready generative AI with NeMo

To aid you in creating LLMs, the NeMo framework provides powerful tools:

  • Data curation
  • Distributed training at scale
  • Pretrained models for customization
  • Accelerated inference
  • Guardrails

Data curation

在人工智能快速发展的环境中,对广泛数据集的需求已成为构建强大LLM的关键因素。

NeMo框架通过NeMo data Curator简化了通常复杂的数据管理过程,解决了在多语言数据集中管理数万亿代币的挑战。通过其可扩展性,该工具使您能够轻松处理数据下载、文本提取、清洁、过滤以及精确或模糊重复数据消除等任务。

通过利用包括消息传递接口(MPI)、Dask和Redis Cluster在内的尖端技术的力量,Data Curator可以在数千个计算核心中扩展数据管理过程,大大减少手动工作量,加快开发工作流程。

Data Curator的主要优势之一在于其重复数据消除功能。通过确保LLM在唯一的文档上进行培训,您可以避免冗余数据,并可能在预培训阶段大幅节省成本。这不仅简化了模型开发过程,还优化了组织的人工智能投资,使人工智能开发更容易实现,更具成本效益。

数据策展人包装在可通过NGC获得的NeMo训练容器中。

Distributed training at scale

从头开始训练十亿参数LLM模型在加速和规模方面提出了独特的挑战。这一过程需要巨大的分布式计算能力、基于加速的硬件和内存集群、可靠且可扩展的机器学习(ML)框架以及容错系统。

NeMo框架的核心在于分布式训练和高级并行性的统一。NeMo熟练地跨节点使用GPU资源和内存,带来了突破性的效率提升。通过划分模型和训练数据,NeMo实现了无缝的多节点和多GPU训练,显著减少了训练时间,提高了整体生产力。

NeMo的一个突出特点是它融合了各种并行技术:

  • 数据并行性
  • 张量平行度
  • 管道平行度
  • 序列并行性
  • 选择性激活重新计算(SAR)

这些技术协同工作以优化训练过程,从而最大限度地提高资源使用率和绩效。

NeMo还提供了一系列精度选项:

  • FP32/TF32
  • BF16
  • FP8

FlashAttention和Rotary Positional Embedding(RoPE)等突破性创新满足了长序列长度的任务。具有线性偏差的注意力(ALiBi)、梯度和部分检查点以及分布式Adam Optimizer进一步提高了模型性能和速度。

Pretrained models for customization

虽然一些生成性人工智能用例需要从头开始训练,但越来越多的组织在构建定制的LLM时,正在使用预先训练的模型来启动他们的工作。

预训练模型最显著的好处之一是节省了时间和资源。通过跳过预训练通用LLM所需的数据收集和清理阶段,您可以专注于根据其特定需求对模型进行微调,从而加快最终解决方案的时间。此外,由于预训练的模型具有预先存在的知识,可以进行定制,因此大大减轻了基础设施设置和模型训练的负担。

GitHub、Hugging Face等中心也提供了数千种开源模型,因此您可以选择从哪种模型开始。准确性是评估预训练模型的更常见的测量方法之一,但也有其他考虑因素:

  • 大小
  • 微调成本
  • 延迟
  • 内存限制
  • 商业许可选项

有了NeMo,您现在可以访问广泛的预训练模型,从NVIDIA和流行的开源存储库,如Falcon AI、Llama-2和MPT 7B。

NeMo模型针对推理进行了优化,使其成为生产用例的理想选择。有了在现实世界应用程序中部署这些模型的能力,您可以推动变革性成果,并为您的组织释放人工智能的全部潜力。

Model customization

ML模型的定制正在迅速发展,以适应企业和行业的独特需求。NeMo框架提供了一系列技术来为专门的用例细化通用的、预先训练的LLM。通过这些多样化的定制选项,NeMo提供了广泛的灵活性,这对于满足不同的业务需求至关重要。

即时工程是一种有效的定制方法,可以在许多下游任务中使用预训练的LLM,而无需调整预训练模型的参数。提示工程的目标是设计和优化足够具体和清晰的提示,以从模型中获得所需的输出。

P-调谐和即时调谐是参数有效微调(PETF)技术,其使用巧妙的优化来选择性地仅更新LLM的少数参数。正如在NeMo中实现的那样,可以将新任务添加到模型中,而不会覆盖或中断模型已经调优的先前任务。

NeMo优化了其p调谐方法,可用于多GPU和多节点环境,从而实现加速训练。NeMo p调谐还支持一种早期停止机制,该机制可以识别模型何时收敛到进一步训练不会大大提高准确性的程度。然后它停止了培训工作。此技术减少了自定义模型所需的时间和资源。


Figure 2. Supervised fine-tuning with labeled datasets

监督微调(SFT)涉及使用标记数据对模型的参数进行微调。也称为指令调整,这种形式的定制通常在预训练后进行。它提供了使用最先进的模型而不需要初始训练的优势,从而降低了计算成本并减少了数据收集要求。

适配器在模型的核心层之间引入了小的前馈层。然后,这些适配器层会针对特定的下游任务进行微调,从而提供针对手头任务需求的独特定制级别。


Figure 3. Aligning LLM behavior with human preferences using reinforcement learning

从人类反馈中强化学习(RLHF)采用三阶段微调过程。该模型根据反馈调整其行为,鼓励更好地与人类价值观和偏好保持一致。这使得RLHF成为创建与人类用户产生共鸣的模型的强大工具。

AliBi使转换器模型能够在推理时处理比训练时更长的序列。这在要处理的信息较长或复杂的情况下特别有用。

NeMo Guardrails有助于确保LLM提供的智能应用程序准确、适当、主题明确且安全。NeMo Guardrails是开源的,包括企业为生成文本的人工智能应用程序添加安全性所需的所有代码、示例和文档。NeMo Guardrails与NeMo以及所有LLM合作,包括OpenAI的ChatGPT。

Accelerated inference

NeMo与NVIDIA Triton推理服务器无缝集成,大大加快了推理过程,提供了卓越的准确性、低延迟和高吞吐量。这种集成有助于从单个GPU到大规模多节点GPU的安全高效部署,同时遵守严格的安全和安保要求。

NVIDIA Triton使NeMo能够简化和标准化生成人工智能推理。这使团队能够在任何基于GPU或CPU的基础设施上从任何框架部署、运行和扩展经过训练的ML或深度学习(DL)模型。这种高度的灵活性使您可以自由选择最适合您的人工智能研究和数据科学项目的框架,而不会影响生产部署的灵活性。

Guardrails

作为NVIDIA AI Enterprise软件套件的一部分,NeMo使组织能够放心地部署生产就绪的生成人工智能。组织可以利用长达三年的长期分支机构支持,确保无缝运营和稳定。定期的常见漏洞和暴露(CVE)扫描、安全通知和及时的补丁增强了安全性,而API的稳定性简化了更新。

购买NVIDIA AI Enterprise软件套件时附带NVIDIA人工智能企业支持服务。我们提供与NVIDIA AI专家的直接联系、定义的服务级别协议,以及通过长期支持选项控制升级和维护时间表。

Powering enterprise-grade generative AI

作为NVIDIA AI Enterprise 4.0的一部分,NeMo提供了跨多个平台的无缝兼容性,包括云、数据中心,以及现在由NVIDIA RTX供电的工作站和PC。这实现了真正的一次性开发和随时随地部署体验,消除了集成的复杂性,并最大限度地提高了运营效率。

NeMo已经在希望构建定制LLM的前瞻性组织中获得了巨大的吸引力。Writer和韩国电信已经接受了NeMo,利用其能力推动他们的人工智能驱动计划。

NeMo提供的无与伦比的灵活性和支持为企业打开了一个充满可能性的世界,使他们能够根据自己的特定需求和行业垂直领域设计、培训和部署复杂的LLM解决方案。通过与NVIDIA AI Enterprise合作并将NeMo集成到其工作流程中,您的组织可以开启新的增长途径,获得有价值的见解,并向客户、客户和员工提供尖端的人工智能应用程序。

Get started with NVIDIA NeMo

NVIDIA NeMo已成为一种改变游戏规则的解决方案,弥合了生成型人工智能的巨大潜力与企业面临的现实之间的差距。作为LLM开发和部署的综合平台,NeMo使企业能够高效、经济地利用人工智能技术。

有了这些强大的能力,企业可以将人工智能集成到其运营中,简化流程,增强决策能力,并开启新的增长和成功途径。

了解更多关于NVIDIA NeMo的信息,以及它如何帮助企业构建适合生产的生成人工智能。

本文地址
最后修改
星期六, June 1, 2024 - 14:36
Article