随着大语言模型全球化落地进程加速,多语言环境下的AI安全评估已成为模型合规出海的核心前提,而当前全球主流AI安全基准多以英文为核心载体,东南亚等新兴市场的小语种本地化安全评估工具长期处于供给空白状态,直接制约了区域AI产业的合规发展。2026年6月30日,NVIDIA(英伟达)正式在HuggingFace平台发布Nemotron-Content-VISafe-v1数据集,这也是业内首个专门面向越南语场景的AI模型安全性、护栏行为评估探针数据集,可广泛应用于AI安全评估、多语言红队测试等领域。
公开信息显示,该数据集共包含3212条经过验证的越南语文本探针,覆盖越狱、毒性、错误信息、提示注入、越南特定政治敏感性、网络犯罪、过度拒绝和隐私共8个核心安全类别,兼顾了国际通用AI安全风险标准与越南本地化特殊风险场景的评估需求。数据集采用混合构建方法保障质量:一部分探针从已建立的国际通用英文安全基准(包括Garak、HarmBench、AdvBench和StrongREJECT)翻译适配而来,另一部分1500个越南语原生探针则通过确定性模板从人工策划的种子提示生成,经过自动化验证和最终人工审查双重校验,保证了探针的语境适配性与风险识别有效性。
数据规范方面,该数据集以JSON Lines格式存储,采用UTF-8编码,每条记录包含越南语提示文本(prompt_vi)以及丰富的元数据,如唯一ID、类别、子类别、风险等级、预期行为(拒绝、允许、中性响应、警告并拒绝)、检测策略(LLM判断、关键词规则、模式匹配)等16个字段,为不同场景的评估需求提供了标准化的判断依据。数据规模分布显示,总记录数为3212条,其中越南语原生探针占46.7%;提示文本字符数从10到6021不等,平均248.2字符,覆盖了从短指令到长文本对抗提示的各类场景;类别分布以越狱(44.0%)和毒性(16.8%)为主,预期行为以拒绝(92.0%)为主,风险等级以高风险(71.0%)为主,充分覆盖了实际应用中的高概率对抗性攻击场景。
从行业应用价值来看,该数据集的落地将为多个领域的越南语AI治理提供核心支撑:一是面向出海越南的大模型厂商,可用于模型安全护栏的效果测试,精准识别模型对越南本地敏感内容、对抗性提示的响应漏洞,降低上线后的合规风险;二是面向AI安全研究团队和红队测试人员,可作为多语言对抗测试的标准探针集,模拟越南语环境下的各类攻击手段,验证模型的鲁棒性;三是面向内容审核系统开发者,可用于优化越南语有害内容的识别策略,提升对本地语境下毒性内容、错误信息、网络犯罪相关内容的检测准确率;四是面向监管和政策研究机构,可作为AI合规评估的标准化工具,支撑越南本地负责任AI政策的落地验证。其目标用户覆盖AI安全研究人员、多语言模型评估团队、护栏和内容审核系统开发者、红队和模型风险评估团队以及政策与负责任AI审查员等全产业链角色。
官方同时提示,该数据集仅用于评估和红队测试目的,不得用于训练通用对话模型或生成实际有害内容,使用者需遵循负责任AI相关指南,注意数据集中包含的对抗性、有害和敏感内容的使用规范。





_1769672084863.jpg)