四川大学 本次发布的数据集 CANDYSET, CANDYSET是一个大规模的中文数据集,旨在系统地评估大型语言模型(LLMs)在事实核查方面的能力和局限性。该数据集由大约20,000个真实新闻和虚假新闻实例组成,涵盖了多个领域,如政治、文化、科学、健康、社会和灾难。数据集还包含了4,891个手动注释的LLM生成的事实核查解释,以及大约7,000个人类研究样本。CANDYSET数据集通过严格的来源控制和人工注释过程,确保了数据的质量和可靠性。该数据集可用于研究LLMs在事实核查方面的缺陷,并探索LLMs在实际场景中的应用潜力。
README 内容:
关于 四川大学 , 四川大学是一所综合性高等学府,致力于培养各类高等学历人才,并推动科技文化的繁荣发展。其学科涵盖了哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学和管理学等多个领域,提供从高等专科到博士研究生的全方位学历教育,同时开展博士后培养、科学研究、继续教育、专业培训、学术交流以及科技和法律咨询等多元化业务。近日,四川大学旗下的轻工皮革产品碳足迹(eSCUleather@PCF)数据集在北京市数据知识产权完成了登记,这标志着该校在数据集领域也取得了重要进展,该数据集将为轻工皮革产品的碳足迹研究提供有力支持。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)