出品 | 51CTO技术栈(微信号:blog51cto)
对生成性人工智能(generative AI)的需求正不断增长,而对LLM安全和可靠性的担忧也变得比以往任何时候都更加突出。企业希望能确保为内外部使用而开发的大规模语言模型(LLM)能够提供高质量的输出,而不会偏离到未知领域。
微软认识到这些担忧,长期以来,微软使用OpenAI的模型只能调用API,对黑盒里的秘密缺少掌控的方法。微软近期宣布推出了新的Azure AI工具,用以帮助解决大模型的幻觉问题,同时能够解决安全漏洞问题,如提示注入攻击,即模型被欺骗生成侵犯隐私或其他有害内容——就像微软自己的AI图像创作器生成的泰勒·斯威夫特深度伪造图像一样。
据悉,安全工具将在未来几个月内广泛推出,目前尚未公开具体的时间表。
随着LLM的普及,提示注入攻击问题变得格外突出。本质上,攻击者可以以一种方式改变模型的输入提示(prompt),以绕过模型的正常操作,包括安全控制,并操纵它以显示个人或有害内容,从而危及安全或隐私。这些攻击可以通过两种方式进行:直接攻击,即攻击者直接与LLM交互;或间接攻击,这涉及使用第三方数据源,如恶意网页。
为了解决这两种形式的提示注入,微软正在将提示盾(Prompt Shields)添加到Azure AI。这是一个综合能力,使用先进的机器学习(ML)算法和自然语言处理自动分析提示和第三方数据的恶意意图,并阻止它们到达模型。
它将集成到微软的三个相关产品中:Azure OpenAI服务(编者注:Azure OpenAI 是微软推出的一款基于云的服务产品,它提供了对OpenAI强大语言模型的访问能力。Azure OpenAI 的核心优势在于它结合了OpenAI的先进技术和微软Azure的安全性及企业级承诺)、Azure AI内容安全和Azure AI工作室。
除了努力阻止威胁安全和安全的提示注入攻击外,微软还引入了专注于生成型AI应用程序可靠性的工具。这包括预建的安全中心系统消息模板和一个新的功能,称为“基础性检测”(Groundedness Detection)。
正如微软所解释的,安全中心系统消息模板允许开发人员构建引导模型行为朝着安全、负责和数据基础输出的系统消息。而基础性检测使用一个经过微调的定制语言模型来检测模型产生的文本输出中的幻觉或不准确材料。两者都将在Azure AI工作室和Azure OpenAI产品中提供服务。
值得注意的是,检测基础性的指标还将伴随着自动化评估,以压力测试生成型AI应用程序的风险和安全性。这些指标将衡量应用程序被越狱并产生任何不适当内容的可能性。评估还将包括自然语言解释,以指导开发人员如何构建适当的缓解措施来解决问题。
“今天,许多组织缺乏压力测试其生成型AI应用程序的资源,以便他们可以自信地从原型转向市场应用。首先,构建一个反映新出现风险范围的高质量测试数据集可能是具有挑战性的,例如越狱攻击。即使有高质量的数据,评估也可能是一个复杂且手动的过程,开发团队可能会发现很难解释结果以通知有效的缓解措施,”微软安全AI首席产品官Sarah Bird在博客文章中指出。
Azure AI在实际使用过程中,微软将提供实时监控,帮助开发人员密切关注触发安全功能(如提示盾)的输入和输出。这项功能被集成在Azure OpenAI服务和AI工作室产品中,将生成详细的可视化图表,突出显示被阻止的用户输入/模型输出的数量和比例,以及按严重性/类别的细分。
利用这种可视化的实时监测,开发人员能够了解有害请求趋势随时间的变化,并调整其内容过滤器配置、控制以及更广泛的应用程序设计,以增强安全性。
微软致力于加强其AI产品已经有很长的时间了。此前,微软CEO萨提亚·纳德拉(Satya Nadella)在采访中强调,微软并没有完全依赖于OpenAI,同时也在发展自己的AI项目,以及帮助OpenAI建设其产品:“我对于我们现在的关系感到很满意。我也认为,这样有助于我们掌握各自公司的命运。”
改变了“All in OpenAI”的格局,微软也使用了包括Mistral在内的大模型。最近,微软新成立的团队Microsoft AI动作频频,它甚至聘请了来自Inflection AI的Mustafa Suleyman及其团队。这似乎是一种减少对Sam Altman及OpenAI依赖的方法。
现在,这些新的安全和可靠性工具的加入建立在公司已经完成的工作基础上,为开发人员提供了一个更好、更安全的方式来构建其提供的模型之上的生成型AI应用程序。