亚马逊云科技解读:如何解决大模型“幻觉”导致的安全问题
原标题:亚马逊云科技解读:如何解决大模型“幻觉”导致的安全问题
导读:
直播吧月日讯北京时间今天晚上点利物浦将在英超第轮比赛中主场对阵狼队根据德国转会市场的数据近场对阵狼队的比赛利物浦皆取胜打进球丢球利物浦与狼队近次交手红军战绩胜平负月日消息持续火...
直播吧2月16日讯北京时间今天晚上22点,利物浦将在英超第25轮比赛中主场对阵狼队。根据德国转会市场的数据,近4场对阵狼队的比赛,利物浦皆取胜,打进9球丢2球。利物浦与狼队近14次交手,红军战绩12胜1平1负。
2月19日消息,DeepSeek持续火热,影响范围极广,成为中国的“OpenAI时刻”,当下,各行各业开始抓紧接入和部署DeepSeek的相关模型。但是,在Vectara HHEMAI幻觉 中,DeepSeek-R1显示出14.3%的幻觉率,高于此前V3版本3.9%的表现。
所以,“幻觉”的存在使得大模型部署成为“技术活”。
可以看到,即便是像DeepSeek R1这样的业界领先模型,也无法避免幻觉问题。而幻觉问题只是企业级AI部署和应用当中的一环,此外,还需要考虑潜在的安全风险、保护敏感信息、实施负责任AI和合规等一系列问题。
据亚马逊云科技介绍,面对DeepSeek R1和更多重量级的开源模型部署和应用需求,云科技提供安全防护指南三部曲,涵盖基础的安全防护,有害内容的过滤防护,以及稳健的深度防御策略。
其中,基础的安全防护包含与Amazon Bedrock深度集成的一系列亚马逊云科技安全和身份访问管理服务,从而提供 的安全功能,可以确保开源模型的安全托管和运营,同时维护数据隐私与合规。Amazon Bedrock的Guardrails安全防护栏功能则提供可配置的防护栏策略,可应用于推理过程的输入和输出环节,还可扩展到外部的自定义模型和第三方模型当中,从而轻松过滤敏感信息和不当内容,以及任何你不希望其生成的有害内容。值得一提的是,Amazon Bedrock Guardrails提供了自动化推理功能,它可以轻松检查因模型幻觉而导致的事实性错误。
模型级别的保护只是 安全策略的一个组成部分,亚马逊云科技提供的深度防御策略可以帮助企业级用户更好地应对OWASP(Open Worldwide Applic ion Sec ity Project开放式Web应用程序安全项目)应用十大风险,包括提示词注入、敏感信息泄漏、供应链、数据与模型投毒、不当输出处理等。亚马逊云科技认为“要想借助任何新兴技术成功实现创新成功,就需要从秉持安全优先的理念出发,以安全的基础设施为基础,并尽早运用深度防御的安全策略,思考如何在技术堆栈的各个层面进一步融入安全措施。”
在大家广为关注的有害信息处理层面,亚马逊云科技解读道,针对有害信息处理,Amazon Bedrock推出了Guardrails安全防护栏功能。该功能提供两种使用方式,首先,它可以直接与调用模型式(InvokeModel)或对话式(Converse)API集成,在推理过程中,防护机制会应用于输入提示和模型输出。其次,它可以通过ApplyGuardrail API调用,这是一种更灵活的调用方式,允许在不调用模型的情况下直接对内容进行评估,对于在的各个阶段评估输入或输出很有用,可用于处理自定义模型或第三方模型。
这两种方法都使开发人员能够根据其用例实施定制的安全防护措施,并与负责任AI政策保持一致,确保生成式AI应用程序中的交互安全合规。
具体来看,Amazon Bedrock Guardrails提供的配置防护策略包括内容过滤、主题过滤、词汇过滤、敏感信息过滤,以及上下文基础检查等多个方面,可调节有害内容的过滤强度类别,限制特定主题以防止查询和响应中出现未经授权的主题,屏蔽特定的词汇,阻止个人信息查询等。此外,策略中还包含用于防止幻觉的自动推理检查功能。模型之外,这些策略还支持Amazon Bedrock中的基础模型、微调模型以及通过ApplyGuardrail API扩展的外部自定义模型和第三方模型(如自建或外部的DeepSeek)。
此处特别值得强调的是用于防止幻觉的推理检查功能。自动化推理是AI技术的一个分支,它运用数学逻辑方法来验证内容的正确性。在处理用户需要精确 的问题时,自动化推理表现出色,尤其是在那些主题广泛且复杂、并有一套明确定义的业务规则或知识体系的领域。亚马逊云科技拥有一支由世界一流的自动化推理专家组成的团队,他们过去十年使用这项技术在整个亚马逊云科技改善用户体验,在包括Amazon S3等核心服务中得到广泛应用。Amazon Bedrock Guardrails中的自动化推理检查功能在2024re:Invent大会上首次推出。该功能可让Amazon Bedrock验证事实响应的准确性,生成可审计的输出,并向客户清晰展示模型得出结果的原因。这提升了透明度,确保模型响应符合客户的规则和政策。
用户在设置好相关的亚马逊云科技账户和权限后,即可轻松开启Amazon Bedrock Guardrails以进行有害信息处理,例如,通过Amazon Bedrock自定义模型导入功能导入的DeepSeek-R1蒸馏模型,并为其创建一组包含各种过滤策略的安全护栏。针对由Amazon Bedrock和Amazon SageMaker导入的开放权重的蒸馏模型,亚马逊云科技建议为这些模型设置以下关键过滤器——提示词攻击、内容 、主题限制和敏感信息保护。
针对大模型部署,亚马逊云科技大中华区产品部总经理陈晓建近期表示:“2024年我们看到许多客户从思考阶段进入实践阶段,进行了大量场景试验。但是我觉得2025年肯定会发生一个变化,很多客户将从原型验证阶段转化为生产阶段,这是必经之路。届时客户需求将更加复杂,不仅是选择模型,还需要各种技术支持。我们开发Amazon Bedrock的目的不仅是提供模型市场,更重要的是提供能让模型推理运行时所需的各种生产力工具和生产环境工具,这才是Amazon Bedrock的真正价值所在。”
“事实性错误通过人工不难发现,因为它是明确的对错问题。以前大模型缺乏可证明事实的逻辑,导致出现幻觉时难以纠正。但有了自动推理技术,我们能够通过数学验证方式严密证明事实性错误是否会发生,从而有效改善幻觉问题。”陈晓建如是说。(定西)
本文来自 科技报道,更多资讯和深度内容,关注我们。
- 版权所属:王牌阁
- 本文地址:http://uexe.cn/113973.html
- 版权声明:原创文章,转载时必须以链接形式注明原始出处及本声明。