首尔国立大学 本次发布的数据集 RoParQ, RoParQ是由首尔国立大学构建的专用于评估大语言模型对转述问题鲁棒性的基准数据集。该数据集包含10,273条高质量多选问答样本,源自MMLU、ARC、CommonsenseQA和MathQA四大权威数据集,通过Gemini和Claude等专有模型生成语义等价的转述变体。数据集构建过程采用严格的预处理流程,包括封闭式问答筛选、问题长度控制及基于法官模型的不一致置信度过滤机制。该数据集主要应用于增强大语言模型的语义不变性理解,旨在解决模型对表面语言模式过度依赖而导致的转述敏感性问题,推动可信人工智能的发展。
Dataset card 内容:
Files and versions 内容:
关于 首尔国立大学 , 首尔国立大学是韩国最顶级的公立研究型综合大学,以其卓越的教学和科研实力享誉全球。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)