新加坡政府科技局 本次发布的数据集 LIONGUARD 2, LIONGUARD 2 是一个轻量级、多语言的审查分类器,专为新加坡的多语言环境定制,支持英语、中文、马来语和部分泰米尔语。该数据集由新加坡政府科技局创建,旨在解决当前审查系统在本地化和低资源语言变体方面存在的安全漏洞问题。数据集包含26,207条独特的文本数据,其中包括来自新加坡论坛和子版块的评论、合成的聊天机器人查询以及开源英语数据。该数据集的创建过程涉及对多个数据源的整合、半监督标注和轻量级分类器的训练。LIONGUARD 2 已被部署在新加坡政府的AI Guardian平台上,用于本地化安全模块。
Dataset card 内容:
Files and versions 内容:
关于 新加坡政府科技局 , 新加坡政府科技局(GovTech)是新加坡政府的一个部门,主要负责推动新加坡的科技发展,包括在政府部门中推广科技应用,以及促进公共和私人部门的科技创新。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)