首页 / 开源数据市场 / 正文

四川大学发布 CANDYSET 数据集, 应用在事实核查、大型语言模型领域

五号数据雷达开源数据市场2025-11-24 21:5121

CANDYSET 是四川大学发布的数据集,于 2025-09-04 首发在 arXiv 应用于事实核查、大型语言模型领域

四川大学本次发布的数据集 CANDYSET, CANDYSET是一个大规模的中文数据集，旨在系统地评估大型语言模型（LLMs）在事实核查方面的能力和局限性。该数据集由大约20,000个真实新闻和虚假新闻实例组成，涵盖了多个领域，如政治、文化、科学、健康、社会和灾难。数据集还包含了4,891个手动注释的LLM生成的事实核查解释，以及大约7,000个人类研究样本。CANDYSET数据集通过严格的来源控制和人工注释过程，确保了数据的质量和可靠性。该数据集可用于研究LLMs在事实核查方面的缺陷，并探索LLMs在实际场景中的应用潜力。

查看CANDYSET

README 内容：

关于四川大学 , 四川大学是一所综合性高等学府，致力于培养各类高等学历人才，并推动科技文化的繁荣发展。其学科涵盖了哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学和管理学等多个领域，提供从高等专科到博士研究生的全方位学历教育，同时开展博士后培养、科学研究、继续教育、专业培训、学术交流以及科技和法律咨询等多元化业务。近日，四川大学旗下的轻工皮革产品碳足迹(eSCUleather@PCF)数据集在北京市数据知识产权完成了登记，这标志着该校在数据集领域也取得了重要进展，该数据集将为轻工皮革产品的碳足迹研究提供有力支持。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

四川大学 发布 CANDYSET 数据集, 应用在 事实核查、大型语言模型 领域

README 内容：

社区讨论

四川大学发布 CANDYSET 数据集, 应用在事实核查、大型语言模型领域