加州大学圣地亚哥分校 本次发布的数据集 WIKIDYK, WIKIDYK是一个从维基百科“你知道吗...”条目中收集的人类编写的最新事实的大型数据集。这个数据集包含12290个事实和77180个问题,并且可以无缝地扩展以包括未来维基百科编辑的更新。WIKIDYK通过持续预训练进行了广泛的实验,结果表明,尽管在现代大型语言模型中普遍存在,但因果语言模型(CLM)的知识记忆能力比双向语言模型(BiLM)弱得多,可靠性方面准确率低了23%。为了弥补当前BiLM规模的不足,我们引入了一个模块化协作框架,利用BiLM的集合作为外部知识库与LLM集成。实验表明,我们的框架将可靠性准确率提高了29.1%。
Dataset card 内容:
Files and versions 内容:
关于 加州大学圣地亚哥分校 , 加州大学圣地亚哥分校是一所位于美国加利福尼亚州的公立研究型大学,是加州大学系统中的一员,以其在生物科学、海洋科学、工程科学等领域的卓越研究和教学质量而闻名。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)