跳转到主要内容

热门内容

今日:


总体:


最近浏览:


Chinese, Simplified

category

什么是透明度说明?


人工智能系统不仅包括技术,还包括使用它的人、受它影响的人以及部署它的环境。创建一个适合其预期目的的系统需要了解该技术是如何工作的,其功能和局限性是什么,以及如何实现最佳性能。微软的透明笔记旨在帮助您了解我们的人工智能技术是如何工作的,系统所有者可以做出的影响系统性能和行为的选择,以及思考整个系统的重要性,包括技术、人员和环境。您可以在开发或部署自己的系统时使用透明说明,也可以与将使用或受系统影响的人员共享。

微软的透明度说明是微软将我们的人工智能原则付诸实践的更广泛努力的一部分。要了解更多信息,请参阅微软的人工智能原理。

Azure OpenAI模型的基础知识


Azure OpenAI为客户提供完全管理的人工智能服务,让开发人员和数据科学家应用OpenAI强大的模型,包括可以生成自然语言、代码和图像的模型。在Azure OpenAI服务中,OpenAI模型与微软开发的内容过滤和滥用检测模型相集成。在此处了解有关内容过滤和滥用检测的更多信息。

选择选项卡以查看相关模型类型的内容。

介绍


文本、代码和微调模型
 


作为完全管理的Azure OpenAI服务的一部分,GPT-3模型分析和生成自然语言,Codex模型分析和产生代码和纯文本代码注释,GPT-4模型可以理解和生成自然语和代码。这些模型使用自回归架构,这意味着它们使用先前观测的数据来预测最可能的下一个单词。然后通过将新生成的内容附加到原始文本来重复此过程,以生成完整的生成响应。因为响应是以输入文本为条件的,所以只需更改输入文本,这些模型就可以应用于各种任务。

GPT-3系列模型是在大量公开可用的自由文本数据上进行预训练的。这些数据来源于网络爬行(特别是普通爬行的过滤版本,包括来自互联网的广泛文本,占加权预训练数据集的60%)和更高质量的数据集的组合,包括WebText数据集的扩展版本、两个基于互联网的图书语料库和英语维基百科。GPT-4基本模型是使用公开可用的数据(如互联网数据)和OpenAI授权的数据进行训练的。该模型是使用人类反馈强化学习(RLHF)进行微调的。

在OpenAI的GPT-3、GPT-4和Codex研究论文中了解有关训练和建模技术的更多信息。以下指南也借鉴了OpenAI的安全最佳实践。

微调是指使用监督微调来调整基础模型的权重,以根据提供的训练集提供更好的响应。大型语言模型的所有用例和注意事项都适用于微调模型,但也有其他注意事项。

重要的

微调仅适用于文本和代码模型,而不适用于视觉或语音模型。

视觉模型

完全管理的服务通过Vision API为API提供对Azure OpenAI DALL·E 2、DALL·E 3和GPT-4 Turbo的访问。

  • Azure OpenAI DALL·E API能够从应用程序中的文本提示和图像输入生成丰富的图像。这个强大的多模式人工智能模型是由OpenAI开发的,可以生成捕捉文本输入的语义和风格的图像。

您可以在OpenAI DALL·E研究论文中了解更多关于DALL·E的训练和建模技术,并从OpenAI DALL.E3系统卡中了解更多有关DALL.E安全的信息。

  • Azure OpenAI GPT-4 Turbo with Vision可以接受多模式(图像和文本)输入,并生成自然语言和代码响应。此API能够更丰富、更全面地理解图像和视频输入。

您可以在系统卡的OpenAI GPT-4研究论文OpenAI GPT-4研究论文和GPT-4 Turbo with Vision safety中了解更多关于GPT-4 Turbowith Vision的训练和建模技术。

  • Azure OpenAI GPT-4o可以接受多模式(图像和文本)输入,并生成自然语言和代码响应,类似于Azure OpenAI GPT-4 Turbo with Vision。

以下指南来自OpenAI的安全最佳实践以及微软对负责任人工智能的研究见解和最佳实践。

语音模型

Azure OpenAI服务中的Whisper模型允许访问执行强大语音识别和翻译任务的模型。Whisper模型是一种由OpenAI开发的自动语音识别(ASR)模型,能够将语音音频文件转录成所说的语言以及翻译成英语。

您可以在OpenAI Whisper研究论文中了解更多关于Whisper模型的训练和建模技术。Whisper模型也用于Azure人工智能语音服务。了解有关Azure AI语音集成的更多信息,并在此处对其进行评估以供您使用。

关键术语


 

Term Definition
Prompt The text you send to the service in the API call. This text is then input into the model. For example, one might input the following prompt:

Convert the questions to a command:
Q: Ask Constance if we need some bread
A: send-msg 'find constance' Do we need some bread?
Q: Send a message to Greg to figure out if things are ready for Wednesday.
A:
Completion or Generation The text Azure OpenAI outputs in response. For example, the service may respond with the following answer to the above prompt: send-msg 'find greg' figure out if things are ready for Wednesday.
Token Azure OpenAI processes text by breaking it down into tokens. Tokens can be words or just chunks of characters. For example, the word hamburger gets broken up into the tokens ham, bur and ger, while a short and common word like pear is a single token. Many tokens start with a whitespace, for example hello and bye.
Fine tuning Supervised fine-tuning for large language models refers to the process of taking a pre-trained language model, often trained on a massive dataset, and further training it on a more specific task with labeled data. This involves adjusting the weights of the model using this smaller, specific dataset so that the model becomes more specialized in the tasks it can perform, enhancing its performance and accuracy.
Model Weights Model weights are parameters within the model that are learned from the data during the training process. They determine the output of the model for a given input. These weights are adjusted in response to the error the model made in its predictions, with the aim of minimizing this error.
Ungrounded content Content that is generated by the model that is non-factual or inaccurate from what was present in the source materials.



 

能力


文本、代码和微调模型



 

GPT-4、GPT-3和Codex Azure OpenAI服务模型在提示中使用自然语言指令和示例来识别任务。然后,模型通过预测最可能的下一个文本来完成任务。这种技术被称为“在上下文中”学习。在这一步中,这些模型不会重新训练,而是根据提示中包含的上下文进行预测。

情境学习主要有三种方法。这些方法因提供给模型的特定任务数据量而异:

  • 少样本:在这种情况下,用户在提示中包括几个示例,演示预期的答案格式和内容。以下示例显示了几个镜头提示,提供了多个示例:
Convert the questions to a command: 
Q: Ask Constance if we need some bread 
A: send-msg `find constance` Do we need some bread? 
Q: Send a message to Greg to figure out if things areready for Wednesday. 
A: send-msg `find greg` Is everything ready forWednesday? 
Q: Ask Ilya if we're still having our meeting thisevening 
A: send-msg `find ilya` Are we still having a meetingthis evening? 
Q: Contact the ski store and figure out if I can getmy skis fixed before I leave on Thursday 
A: send-msg `find ski store` Would it be possible toget my skis fixed before I leave on Thursday? 
Q: Thank Nicolas for lunch 
A: send-msg `find nicolas` Thank you for lunch! 
Q: Tell Constance that I won't be home before 19:30tonight — unmovable meeting. 
A: send-msg `find constance` I won't be home before19:30 tonight. I have a meeting I can't move. 
Q: Tell John that I need to book an appointment at10:30 
A:  


示例的数量通常在0到100之间,这取决于单个提示的最大输入长度中可以容纳多少个示例。少镜头学习可以大幅减少准确预测所需的特定任务数据量。

  • 一次样本:除了只提供了一个例子外,这种情况与少次射门方法相同。以下示例显示了一个一次性提示:

Convert the questions to a command:
Q: Ask Constance if we need some bread
A: send-msg `find constance` Do we need some bread?
Q: Send a message to Greg to figure out if things are ready for Wednesday.
A:

  • 零样本:在这种情况下,没有向模型提供示例,只提供任务请求。以下示例显示了零样本提示:

Convert the question to a command:
Q: Ask Constance if we need some bread
A:

视觉模型

Azure OpenAI服务中的DALL·E API
 

DALL·E2和DALL·E3 API使用自然语言提示生成新内容。这些模型是在从公开来源和OpenAI授权的其他来源提取的成对图像和相应的字幕上进行训练的。

这些生成性人工智能模型为开发者、艺术家、设计师、教育工作者和其他人提供了无数机会。这些模型可以弥合你所能想象的和你所能创造的之间的差距。它们允许文本提示和图像之间的跨域、一般理解和零样本翻译,通常具有高度的真实性。

Azure OpenAI DALL·E API的主要功能是:

  • 文本到图像:模型接收文本提示以生成图像。
Example text prompt Example generated image
"Watercolor painting of the Seattle skyline" Watercolor painting of the Seattle skyline


 

  • DALL·E 3文本到图像的提示转换:在向Azure OpenAI DALL·E 3模型发送提示以生成图像之前,会对提示应用安全和质量缓解措施。提示变换增强了提示,目的是生成更多样、更高质量的图像。

提示转换应用于每一代Azure OpenAI DALL·E 3。但是,您可以在原始提示的开头包含以下文本:我需要测试该工具如何使用极其简单的提示。不要添加任何细节,只需按原样使用即可。这允许您生成使用与原始提示更相似的提示的图像,即使用最小的提示转换,以便您可以看到提示转换的影响和好处。

在将提示变换应用于原始提示之后,将内容过滤应用为图像生成之前的第二步骤;有关详细信息,请参见内容筛选。

在OpenAI的DALL·E文档中了解有关图像生成提示的更多信息。

Example text prompt Example generated image without prompt transformation Example generated image with prompt transformation
"Watercolor painting of the Seattle skyline" Watercolor painting of the Seattle skyline (simple). Watercolor painting of the Seattle skyline, with more detail and structure.


 

Azure OpenAI服务中带有Vision和GPT-4o的GPT-4 Turbo


GPT-4 Turbo with Vision和GPT-4o使用自然语言和图像提示生成自然语言或代码响应。模型只接受文本、图像以及交错的文本和图像输入。这些模型是GPT家族的一部分,是GPT-4的扩展。

Azure人工智能视觉服务为GPT-4 Turbo提供视频增强功能(预览),它还可以接受视频输入以生成自然语言或代码响应。此功能不适用于最新的GPT-4 Turbo with Vision型号版本。

Example prompt Example completion
"What is this used for?"

Photo of tomatoes.
These are tomatoes. They are commonly used as a food ingredient in various dishes, both raw and cooked. Tomatoes can be used in salads, sandwiches, sauces, soups, juices, and many other culinary applications. They are also known for their rich nutritional content, including vitamins, minerals, and antioxidants.
How can I use
Same photo of tomatoes.
to make this?
Photo of tomato soup.

You can use tomatoes to make tomato soup by following these general steps:
Ingredients:

  • Tomatoes
  • Onion
  • Garlic
  • Olive oil or butter
  • Chicken or vegetable broth
  • Salt
  • Pepper
  • Optional: herbs like basil, oregano, or thyme


Instructions:

  1. Preparation:
    • Wash the tomatoes thoroughly.
    • Cut the tomatoes into halves or quarters.
    • Peel and chop onions and garlic…


 

面部模糊


对于包含人的图像或视频的GPT-4 Turbo with Vision和GPT-4o的输入,系统将首先模糊人脸,然后再进行处理以返回请求的结果。

重要的

仅限GPT-4 Turbo和GPT-4o:对个人的任何识别都不是面部识别的结果,也不是面部模板的生成和比较。识别是训练模型通过图像标记将具有相同名称的个人的图像关联起来的结果,由此模型将该名称与该个人的任何后续图像输入一起返回。该模型还可以获取面部以外的上下文线索,这就是为什么即使面部模糊,该模型仍然可以将图像与个人相关联。例如,如果图像中包含一张受欢迎的运动员穿着球队球衣的照片和他们的具体号码,那么模型仍然可以根据上下文线索来检测个人。

对于任何包含人的图像或视频的输入,系统将在分析图像或视频之前模糊人脸。模糊有助于保护相关个人和团体的隐私。模糊不应该影响完成的质量,但在某些情况下,你可能会看到系统指的是人脸的模糊。

语音模型

Azure OpenAI服务中的Whisper模型支持音频文件的转录和翻译。该模型是根据从互联网上收集的多语言和多任务监督数据进行训练的。这些庞大而多样的数据集提高了对口音、背景噪声和技术语言等属性的鲁棒性,同时实现了多种语言的转录和英语翻译。

Azure OpenAI服务通过两个REST API提供这些功能:

转录提供的音频文件
将提供的音频文件翻译成英语
该服务提供了尽可能快地同步处理单个音频文件的能力。根据音频压缩,这被限制为少于15到30分钟的音频。

该服务提供可读性强的成绩单,通常可以消除不流畅的内容,并提供更准确的句子边界、标点符号和大写字母。您还可以利用提示来提高模型输出的质量,以适合您的场景。有关详细信息,请参阅改进系统信息的最佳实践。


用例


文本、代码和微调模型



语音模型


预期用途


Azure OpenAI服务中的GPT-4、GPT-3和Codex模型可用于多种场景。以下列表并不全面,但它说明了可以通过适当的缓解措施支持的任务的多样性:

  • 聊天和会话交互:用户可以与会话代理进行交互,会话代理会根据可信文档(如公司内部文档或技术支持文档)中的响应进行响应。对话必须仅限于回答范围内的问题。
  • 聊天和会话创建:用户可以创建一个会话代理,该代理使用从可信文档(如公司内部文档或技术支持文档)中提取的响应进行响应。对话必须仅限于回答范围内的问题。
  • 代码生成或转换场景:例如,将一种编程语言转换为另一种,为函数生成文档字符串,将自然语言转换为SQL。
  • 新闻内容:用于创建新的新闻内容或重写用户提交的新闻内容,作为预定义主题的写作辅助。用户不能将该应用程序用作所有主题的常规内容创建工具。
  • 问答:用户可以从可信的源文档(如公司内部文档)中提问并获得答案。该应用程序不会在可信源文档中生成未建立基础的答案。
    结构化和非结构化数据的原因:用户可以使用分类、文本情感分析或实体提取来分析输入。示例包括分析产品反馈情绪、分析支持电话和文字记录,以及使用嵌入改进基于文本的搜索。
  • 搜索:用户可以搜索可信的源文档,如公司内部文档。该应用程序不会生成未在可信源文档中建立基础的结果。
  • 摘要:用户可以提交要针对应用程序中内置的预定义主题进行摘要的内容,并且不能将应用程序用作开放式摘要程序。示例包括公司内部文档、呼叫中心记录、技术报告和产品评论的摘要。
  • 特定主题的写作辅助:用户可以创建新内容或重写用户提交的内容,作为业务内容或预定义主题的写作帮助。用户只能重写或创建用于特定业务目的或预定义主题的内容,不能将应用程序用作所有主题的通用内容创建工具。业务内容的示例包括提案和报告。有关新闻用途,请参阅上面的新闻内容用例。
  • 用于微调的数据生成:用户可以使用Azure OpenAI中的模型生成数据,该数据仅用于微调(i)使用Azure Open人工智能的微调功能的另一个Azure OpenAI模型,和/或(ii)使用Azure人工智能服务的微调功能的另一Azure人工智能自定义模型。生成数据和微调模型仅限于内部用户;微调后的模型只能用于适用的Azure AI服务中的推理,对于Azure OpenAI服务,只能用于客户在此表单下允许的用例。


微调的用例


以下是我们建议用于微调文本和代码模型的其他用例。微调最适用于:

  • 通过所需回复的例子指导回复的风格、形式、语气或质量方面。
  • 确保模型可靠地产生所需的输出,例如以特定格式提供响应,或确保响应以提示中的信息为基础。
  • 具有许多边缘案例的用例无法在提示中的示例中涵盖,例如复杂的自然语言到代码示例。
  • 提高特定技能或任务(如分类、摘要或格式化)的性能——这可能很难在提示中描述。
  • 通过使用更短的提示来降低成本或延迟,或者将较小/更快模型的微调版本替换为更通用的模型(例如,将GPT-3.5-Turbo微调为GPT-4)。

与基本模型一样,Azure OpenAI行为准则中概述的用例禁令也适用于微调模型。

对于那些希望扩展模型以包括域外信息、可解释性或基础很重要或基础数据频繁更新的情况,不建议单独进行微调。

选择用例时的注意事项


我们鼓励客户在其有限访问注册表中批准的创新解决方案或应用程序中使用Azure OpenAI GPT-4、GPT-3和Codex模型。但是,在选择用例时,以下是一些注意事项:

  • 不适用于开放式、无约束的内容生成。用户可以生成任何主题的内容的场景更有可能生成冒犯性或有害的文本。老一辈也是如此。
  • 不适用于最新、事实准确的信息至关重要的场景,除非您有人工审核人员或正在使用模型搜索自己的文档,并已验证是否适合您的场景。该服务没有培训日期后发生的事件的信息,可能对某些主题缺乏了解,并且可能并不总是提供事实准确的消息。
  • 避免使用或滥用该系统可能对个人造成重大身体或心理伤害的情况。例如,诊断患者或开药的情况有可能造成重大伤害。
  • 避免使用或滥用该系统可能对生活机会或法律地位产生重大影响的情况。例如,人工智能系统可能影响个人的法律地位、法律权利,或他们获得信贷、教育、就业、医疗保健、住房、保险、社会福利、服务、机会或提供条件的情况。
  • 避免可能导致伤害的高风险场景。Azure OpenAI服务托管的模型反映了培训数据或提示中提供的示例中存在的某些社会观点、偏见和其他不受欢迎的内容。因此,我们警告不要在高风险的场景中使用这些模型,因为在这些场景中,不公平、不可靠或冒犯性的行为可能代价极高或导致伤害。
  • 仔细考虑高风险领域或行业中的用例:示例包括但不限于医疗保健、医学、金融或法律。
  • 仔细考虑范围广泛的聊天机器人场景。将聊天机器人中的服务使用限制在狭窄的域内,可以降低产生意外或不希望的响应的风险。
  • 仔细考虑所有生成用例。内容生成场景可能更容易产生意外输出,这些场景需要仔细考虑和缓解。
     

视觉模型

 

预期使用案例

Azure OpenAI中的DALL·E
 

Azure OpenAI服务中的DALL·E2和DALL·E3 API可用于各种图像生成场景。以下列表并不全面,但它说明了可以通过适当的缓解措施支持的任务的多样性。

  • 辅助功能:用于生成基于图像的视觉描述。
  • 艺术和设计:用于生成图像,仅用于艺术目的,用于设计、艺术灵感、情绪板或设计布局。
  • 沟通:用于创建与业务相关的沟通、文档、文章、时事通讯、博客、社交媒体或备忘录的图像。
  • 教育:用于为增强型或交互式学习材料创建图像,用于教育机构或专业培训。
  • 娱乐:用于创建图像以增强娱乐内容,如视频游戏、电影、电视、视频、录制的音乐、播客、有声读物或增强现实或虚拟现实。
  • 新闻内容:用于创建图像以增强新闻内容。
  • 营销:用于为产品或服务媒体、产品说明、商业推广或广告创建营销材料。不应用于创建个性化或针对个人的广告。
  • 原型和概念开发:用于生成产品或服务的构思或可视化图像。此用法仅适用于上述场景的上下文。
     
Azure OpenAI中带有Vision和GPT-4o的GPT-4 Turbo
  • 聊天和会话交互:用户可以与会话代理进行交互,会话代理使用从可信文档(如公司内部文档或技术支持文档)中提取的信息进行响应。对话必须仅限于回答范围内的问题。
  • 聊天机器人和会话代理创建:用户可以创建会话代理,这些代理使用从可信文档(如公司内部文档或技术支持文档)中提取的信息进行响应。例如,技术文档中的图表、图表和其他相关图像可以增强理解,并提供更准确的响应。对话必须仅限于回答范围内的问题。
  • 代码生成或转换场景:将一种编程语言转换为另一种,或者使用户能够使用自然语言或视觉输入生成代码。例如,用户可以拍摄手写伪代码的照片或说明编码概念的图表,并使用该应用程序基于该材料生成代码。
    结构化和非结构化数据的原因:用户可以使用分类、文本情感分析或实体提取来分析输入。用户可以在文本查询的同时提供图像以进行分析。
  • 摘要:用户可以提交要针对应用程序中内置的预定义主题进行摘要的内容,并且不能将应用程序用作开放式摘要程序。示例包括公司内部文档、呼叫中心记录、技术报告和产品评论的摘要。
  • 特定主题的写作辅助:用户可以创建新内容或重写用户提交的内容,作为业务内容或预定义主题的写作帮助。用户只能重写或创建用于特定业务目的或预定义主题的内容,不能将应用程序用作所有主题的通用内容创建工具。业务内容的示例包括提案和报告。
  • 图像标记:用户可以检测和标记视觉元素,包括图像中的物体、生物、风景和动作。该服务并非有意提供,也不得用于识别个人或验证个人身份。
  • 图片字幕:用户可以为视觉效果生成描述性的自然语言字幕。除了简单的描述之外,该应用程序还可以识别并提供关于照片中特定主题或地标的文本见解。如果展示埃菲尔铁塔的图像,该系统可能会提供简洁的描述或突出有关纪念碑的有趣事实。该服务不能用于识别或验证个人身份。
  • 物体检测:用于通过提供特定坐标来识别图像中单个或多个物体的位置。例如,在一个有零散苹果的图像中,应用程序可以识别并指示每个苹果的位置。通过该应用程序,用户可以获得关于图像中捕获的对象的空间见解。该服务不能用于识别或验证个人身份。
  • 视觉问答:用户可以询问有关图像的问题,并收到与上下文相关的回答。例如,当显示一只鸟的照片时,用户可能会问:“这是什么类型的鸟?”并收到类似“这是一只欧洲知更鸟”的回答。该应用程序可以识别和解释图像中的上下文,以回答查询。例如,如果出现拥挤的市场图像,用户可以问:“有多少人戴着帽子?”或“小贩在卖什么水果?”应用程序可以提供答案。该系统不应用于回答有关人员的识别问题。
  • 品牌和地标识别:该应用程序可用于从数千个全球标志和地标的预设数据库中识别图像或视频中的商业品牌和流行地标。
     

选择用例时的注意事项


我们鼓励客户在其有限访问注册表中批准的创新解决方案或应用程序中使用Azure OpenAI DALL·E2、DALL·E3、GPT-4 Turbo with Vision和GPT-4o API。但是,在选择用例时,以下是一些注意事项:

  • 请勿用于跟踪或面部识别、识别或验证目的。示例包括使用模型对个人进行监控,以及使用模型验证在两个不同位置拍摄的两个人是同一个人。
  • 不适用于最新、事实准确的信息至关重要的场景,除非您有人工审核人员,或者正在使用模型搜索自己的文档,并验证其是否适合您的场景。该服务没有培训日期后发生的事件的信息,可能对某些主题缺乏了解,并且可能并不总是提供事实准确的消息。
  • 避免使用或滥用该系统可能对生活机会或法律地位产生重大影响的情况。例如,人工智能系统可能会影响个人的法律地位、法律权利,或他们获得信贷、教育、就业、医疗保健、住房、保险、社会福利、服务、机会或这些权利和服务的条件。
  • 避免可能导致伤害的高风险场景。Azure OpenAI服务托管的模型可能反映了培训数据或提示中提供的示例中存在的某些社会观点、偏见和其他不良内容。因此,我们警告不要在高风险的场景中使用这些模型,在这些场景中,不公平、不可靠或冒犯性的行为可能代价极高或导致伤害。
  • 避免使用或滥用该系统可能传播有关敏感话题或人物的虚假叙述。例如,深度伪造合成媒体的创建和分发,关于高度敏感事件的错误信息,以及在反映虚假叙事的情况下生成真实人物的真实图像。
  • 仔细考虑允许生成开放式、无约束的内容的场景。用户可以生成任何主题的内容的场景更有可能生成攻击性、有害或误导性的内容。
  • 仔细考虑以出版作品的知名艺术家的风格生成媒体的场景。例如,在某些情况下,用户可能会以维护原创艺术知识产权的艺术家的风格分发生成的内容。此类情况可能会产生法律后果或对艺术家的机会产生相应影响。考虑为艺术家创建一个流程,以限制在您的产品或服务中创建与其姓名相关的图像。
  • 仔细考虑涉及生成包含真实人物的图像的场景。包括真人图像在内的内容可能会被滥用,对生活机会或法律地位以及公众认知和信任产生负面影响。生成真人、活人、死人或相似人物的图像时要小心。
  • 仔细考虑高风险领域或行业中的所有用例:示例包括但不限于医疗保健、教育、金融和法律。

 

局限性


当涉及到大规模的自然语言模型、视觉模型和语音模型时,需要考虑公平和负责任的人工智能问题。人们用语言和图像来描述世界,表达他们的信仰、假设、态度和价值观。因此,通常用于训练大规模自然语言处理和图像生成模型的公开文本和图像数据包含与种族、性别、宗教、年龄和其他人群有关的社会偏见,以及其他不受欢迎的内容。同样,语音模型可以在不同的人口群体和语言中表现出不同水平的准确性。这些社会偏见反映在单词、短语和句法结构的分布上。

技术限制、操作因素和范围


小心

请注意,本节包含说明性示例,其中包括一些人可能会感到冒犯的术语和语言。

用这些数据训练的大规模自然语言、图像和语音模型可能会以不公平、不可靠或冒犯的方式表现,进而造成伤害。这里列出了一些方法。我们强调,这些类型的伤害并非相互排斥。一个模型可以表现出多种类型的伤害,可能与多个不同的人群有关。例如

  • 分配:这些模型可能会导致资源或机会的不公平分配。例如,如果自动简历筛选系统接受了反映特定行业现有性别失衡的简历数据培训,则可以拒绝某一性别的就业机会。或者,DALL·E模型可以用于以已知艺术家的风格创作图像,这可能会影响艺术家作品的价值或艺术家的生活机会。GPT-4视觉模型可用于识别可能对生活机会产生负面影响的个人行为和模式。
  • 服务质量:Azure OpenAI模型主要针对英文文本和带有英文文本描述的图像进行培训。英语以外的其他语言的表现会更差。在训练数据中表现较少的英语变体可能比标准美式英语表现更差。用于训练DALL·E模型的公开可用图像可能会强化公众偏见和其他不良内容。DALL·E模型此时也无法一致地生成可理解的文本。语音模型可能会引入其他限制,例如,Azure OpenAI中使用Whisper模型的翻译仅限于英语输出。一般来说,对于语音到文本模型,请确保为每个音频输入正确指定语言(或区域设置),以提高转录的准确性。此外,音频输入的音质、非语音噪声、重叠语音、词汇、重音和插入错误也可能影响转录或翻译的质量。
  • 刻板印象:这些模式会强化刻板印象。例如,当将“他是一名护士”和“她是一名医生”翻译成无性别语言(如土耳其语),然后再翻译回英语时,许多机器翻译系统会产生“她是护理人员”和“他是医生”的刻板印象(和不正确的)结果。使用DALL·E,当根据提示“没有父亲的孩子”生成图像时,该模型只能生成黑人儿童的图像,从而强化了公开图像中可能存在的有害刻板印象。GPT-4视觉模型还可能通过依赖图像的组成部分并做出可能并不总是正确的假设,来强化基于输入图像内容的刻板印象。
  • 贬低:Azure OpenAI服务中的自然语言和视觉模型会贬低人们。例如,具有不适当或不充分缓解措施的开放式内容生成系统可能会生成冒犯或贬低特定人群的内容。
  • 代表性过高和代表性过低:Azure OpenAI服务中的自然语言和视觉模型可能会过度或过低地代表人群,甚至完全抹杀他们的代表性。例如,如果包含“同性恋”一词的文本提示被检测为潜在的有害或冒犯,这种识别可能会导致LGBTQIA+社区或其周围合法图像代的代表性不足,甚至被删除。
  • 不恰当或冒犯性内容:Azure OpenAI服务中的自然语言和视觉模型可能会产生其他类型的不恰当或攻击性内容。示例包括生成在文本或图像提示的上下文中不合适的文本的能力;,创建可能包含诸如仇恨符号等有害人工制品的图像的能力;具有非法有害含义的图像;与有争议、有争议或意识形态两极分化的话题有关的图像;操纵性的图像;包含未被性相关内容过滤器捕捉到的带有性色彩的内容的图像;以及与敏感或情绪化话题相关的图像。例如,一个善意的文本提示旨在创建一个纽约天际线的图像,云层和飞机在其上空飞行,可能会无意中生成与9/11事件有关的非法情绪图像。
  • 关于敏感话题的虚假信息和错误信息:因为DALL·E2和DALL·E3是强大的图像生成模型,它们可以用来产生有害的虚假信息。例如,用户可以提示模型生成一个政治领导人参与暴力或性(或简单地不准确)活动的图像,这些活动可能会导致相应的伤害,包括但不限于公众抗议、政治变革或假新闻。GPT-4视觉模型也可以以类似的方式使用。如果提示中包含有关敏感话题的虚假信息或错误信息而没有缓解措施,则该模型可能会强化这些信息。
  • 信息可靠性:语言和视觉模型的响应可能会产生无意义的内容,或者编造听起来合理但相对于外部验证来源不准确的内容。即使在从可信来源信息中获取回复时,回复也可能会歪曲内容。转录或翻译可能会导致文本不准确。
  • 虚假信息:Azure OpenAI不会对客户或用户提供的内容进行事实核查或验证。根据您开发应用程序的方式,它可能会产生虚假信息,除非您内置了缓解措施(请参阅提高系统性能的最佳实践)。
     

微调的风险和局限性


Azure OpenAI上的微调模型可以提高其在特定任务和域上的性能和准确性,但也可能引入客户应该意识到的新风险和限制。其中一些风险和限制是:

  • 数据质量和表示:用于微调的数据的质量和代表性会影响模型的行为和输出。如果数据嘈杂、不完整、过时,或者包含刻板印象等有害内容,则模型可能会继承这些问题,并产生不准确或有害的结果。例如,如果数据中包含性别刻板印象,则该模型可以放大这些刻板印象,并生成性别歧视语言。客户应仔细选择和预处理他们的数据,以确保其与预期任务和领域相关、多样化和平衡。
  • 模型的稳健性和通用性:微调后,模型处理各种复杂输入和场景的能力可能会降低,尤其是在数据过于狭窄或具体的情况下。该模型可能会过度拟合数据,并失去一些一般知识和能力。例如,如果数据只是关于体育的,那么模型可能很难回答问题或生成关于其他主题的文本。客户应评估模型在各种输入和场景中的性能和稳健性,避免将模型用于超出其范围的任务或域。
  • 反流【Regurgitation】:虽然Microsoft或任何第三方客户都无法获得您的培训数据,但微调不当的模型可能会反流或直接重复培训数据。客户有责任从其培训数据中删除任何PII或其他受保护的信息,并应评估其微调模型是否存在过度拟合或其他低质量响应。为了避免反流,我们鼓励客户提供大量多样的数据集。
  • 模型的透明度和可解释性:经过微调后,模型的逻辑和推理可能会变得更加不透明和难以理解,尤其是在数据复杂或抽象的情况下。微调后的模型可能会产生意想不到、不一致或矛盾的输出,客户可能无法解释模型是如何或为什么产生这些输出的。例如,如果数据是关于法律或医学术语的,则模型可能会产生不准确或误导性的输出,客户可能无法验证或证明这些输出的合理性。客户应监控和审计模型的输出和行为,并向模型的最终用户提供清晰准确的信息和指导。

系统性能


在许多人工智能系统中,性能通常与准确性有关——也就是说,人工智能系统提供正确预测或输出的频率。对于大规模的自然语言模型和视觉模型,两个不同的用户可能会看到相同的输出,并对其有用性或相关性有不同的看法,这意味着必须更灵活地定义这些系统的性能。在这里,我们广义地认为性能是指应用程序按照您和用户的期望执行,包括不生成有害的输出。

Azure OpenAI服务可以支持广泛的应用程序,如搜索、分类、代码生成、图像生成和图像理解,每种应用程序都具有不同的性能指标和缓解策略。您可以采取几个步骤来减轻“限制”下列出的一些问题并提高性能。评估和集成Azure OpenAI一节概述了其他重要的缓解技术,供您使用。

提高系统性能的最佳实践

  • 设计提示时显示并告知。使用自然语言模型和语音模型,通过指令、示例或两者的组合,向模型明确您期望的输出类型。如果您希望模型按字母顺序对项目列表进行排序,或按情感对段落进行分类,请显示您想要的模型。
    • 在Azure OpenAI服务中提示Whisper模型可以帮助提高模型输出。以下最佳实践将帮助您创建最适合您的场景和需求的提示。
      考虑包括一个提示,指示模型更正模型在音频中经常识别错误的特定单词或缩写。
      • 为了保留被分割成段的文件的上下文,可以用前一段的转录本提示模型。此提示将使文字记录更加准确,因为模型将使用以前音频中的相关信息。该模型将只考虑提示的最后224个令牌,而忽略之前的任何内容。
      • 模型可能会跳过成绩单中的标点符号。考虑使用一个简单的提示,指示模型包含标点符号。
      • 该模型还可能在音频中省略常见的填充词,例如hmmm、umm等。如果你想在你的成绩单中保留填充词,你可以包括一个包含它们的提示。
      • 有些语言可以用不同的方式书写,例如简体中文或繁体中文。默认情况下,该模型可能并不总是使用用户想要的文字记录的写作风格。考虑使用提示来描述你喜欢的写作风格。
  • 保持你的申请主题正确。仔细构建提示和图像输入,以减少产生不想要的内容的机会,即使用户试图将其用于此目的。例如,你可能会在提示中指出,聊天机器人只参与有关数学的对话,否则会回答“对不起。恐怕我答不上来。”在提示中添加“礼貌”等形容词和你想要的语气的例子也有助于引导输出。对于DALL·E模型,您可能会在提示或图像输入中指示您的应用程序仅生成概念图像。否则,它可能会生成一个弹出通知,解释该应用程序不是用于照片真实感用途或描绘现实。考虑将用户推向可接受的查询和图像输入,可以提前列出这些示例,也可以在收到偏离主题的请求时将其作为建议。考虑训练分类器来确定输入(提示或图像)是主题上的还是主题外的。
  • 提供质量数据。对于文本和代码模型,如果您试图构建分类器或使模型遵循某个模式,请确保有足够的示例。一定要校对你的例子——这个模型通常能够处理基本的拼写错误并给你一个回复,但它也可能认为错误是故意的,这可能会影响回复。提供高质量的数据还包括为您的模型提供可靠的数据,以便从聊天和问答系统中获得回复。
  • 提供可信的数据。在系统中检索或上传不受信任的数据可能会危及系统或应用程序的安全。为了减轻适用应用程序(包括使用助理API的应用程序)中的这些风险,我们建议记录和监控LLM交互(输入/输出),以检测和分析潜在的提示注入,明确界定用户输入以最大限度地减少提示注入的风险,限制LLM访问敏感资源,将其功能限制在所需的最低限度,并将其与关键系统和资源隔离。在大型语言模型的安全指南|Microsoft学习中了解其他缓解方法。
  • 配置参数以提高响应的准确性或基础性。使用从可信来源检索的数据增强提示,例如使用Azure OpenAI“对您的数据”功能,可以减少但不能完全消除生成不准确响应或虚假信息的可能性。您可以采取的进一步提高响应准确性的步骤包括仔细选择受信任的相关数据源,并根据您的用例或场景配置自定义参数,如“严格性”、“限制对数据内容的响应”和“要考虑的检索文档数量”。了解有关在您的数据上为Azure OpenAI配置这些设置的更多信息。
  • 测量模型质量。作为一般模型质量的一部分,除了传统的场景准确性指标外,还应考虑衡量和改进与公平性相关的指标以及与负责任的人工智能相关的其他指标。在衡量系统的公平性时,请考虑使用此清单等资源。这些测量有局限性,您应该承认这些局限性,并与评估结果一起与利益相关者沟通。
  • 限制输入和输出的长度、结构和速率。限制输入和输出的长度或结构可以增加应用程序继续执行任务的可能性,并至少部分缓解任何潜在的不公平、不可靠或冒犯行为。减少滥用风险的其他选择包括:(i)限制输入来源(例如,限制输入到特定域或经过验证的用户,而不是向互联网上的任何人开放)和(ii)实施使用率限制。
  • 鼓励在出版或传播之前对产出进行人为审查。有了生成性人工智能,即使采取了缓解措施,也有可能生成可能具有攻击性或与手头任务无关的内容。为了确保生成的输出满足用户的任务,请考虑建立方法,提醒用户在广泛共享之前审查其输出的质量。这种做法可以减少许多不同的危害,包括攻击性材料、虚假信息等。
  • 实施额外的特定情景缓解措施。请参阅评估和集成Azure OpenAI中概述的缓解措施,以供您使用,包括内容审核策略。这些建议并不代表您的应用程序所需的所有缓解措施。GPT-4o等较新的模型可能会在敏感情况下提供响应,并且更有可能尝试减少响应中潜在的有害输出,而不是完全拒绝响应。在为您的用例评估和集成内容审核时,了解这种行为很重要;根据您的用例,可能需要对筛选严重性进行调整。


微调的最佳实践和建议


为了减轻Azure OpenAI上微调模型的风险和限制,我们建议客户遵循一些最佳实践和指南,例如:

  • 数据选择和预处理:客户应仔细选择并预处理其数据,以确保其与预期任务和领域相关、多样化和平衡。客户还应删除或匿名化数据中的任何敏感或个人信息,如姓名、地址或电子邮件地址,以保护数据主体的隐私和安全。客户还应检查并更正数据中的任何错误或不一致之处,如拼写、语法或格式,以提高数据质量和可读性。
  • 在聊天完成格式模型的训练数据中包括一条系统消息,以引导你的反应,并在使用微调模型进行推理时使用相同的系统消息。将系统消息留空往往会产生低精度的微调模型,并且在推理时忘记包括相同的系统消息可能导致微调模型恢复到基本模型的行为。
  • 模型评估和测试:客户应在各种输入和场景上评估和测试微调模型的性能和稳健性,并将其与原始模型和其他基线进行比较。客户还应使用适当的指标和标准来衡量模型的准确性、可靠性和公平性,并识别模型输出和行为中的任何潜在错误或偏差。
  • 模型文档和沟通:客户应记录和沟通模型的目的、范围、限制和假设,并向模型的最终用户提供清晰准确的信息和指导。
     

评估和集成Azure OpenAI自然语言和视觉模型供您使用


文本、代码和微调模型


有关如何负责任地评估和集成这些模型的更多信息,请参阅RAI概述文件https://learn.microsoft.com/en-us/legal/cognitive-services/openai/overv…】。

视觉模型

有关如何负责任地评估和集成这些模型的更多信息,请参阅RAI概述文件。

语音模型

OpenAI Whisper模型也可在Azure AI语音服务中使用,通过多语言识别和可读性等高级功能增强体验。根据您的场景,您可能会探索Azure语音服务和该服务的其他功能,如日记化、自定义、实时流媒体或处理每个请求的多个音频文件。有关如何负责任地评估和集成Whisper模型的更多信息,请参阅Azure语音服务透明度说明

Learn more about responsible AI

Learn more about Azure OpenAI

本文地址
最后修改
星期四, 七月 4, 2024 - 10:21
Article