five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

加州大学圣地亚哥分校 发布 WIKIDYK 数据集, 应用在 自然语言处理、机器学习 领域

五号数据雷达开源数据市场2025-05-21 07:4421
WIKIDYK 是 加州大学圣地亚哥分校 发布的数据集,于 2025-05-18 首发在 arXiv 应用于 自然语言处理、机器学习 领域

加州大学圣地亚哥分校 本次发布的数据集 WIKIDYK, WIKIDYK是一个从维基百科“你知道吗...”条目中收集的人类编写的最新事实的大型数据集。这个数据集包含12290个事实和77180个问题,并且可以无缝地扩展以包括未来维基百科编辑的更新。WIKIDYK通过持续预训练进行了广泛的实验,结果表明,尽管在现代大型语言模型中普遍存在,但因果语言模型(CLM)的知识记忆能力比双向语言模型(BiLM)弱得多,可靠性方面准确率低了23%。为了弥补当前BiLM规模的不足,我们引入了一个模块化协作框架,利用BiLM的集合作为外部知识库与LLM集成。实验表明,我们的框架将可靠性准确率提高了29.1%。

查看WIKIDYK

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 加州大学圣地亚哥分校 , 加州大学圣地亚哥分校是一所位于美国加利福尼亚州的公立研究型大学,是加州大学系统中的一员,以其在生物科学、海洋科学、工程科学等领域的卓越研究和教学质量而闻名。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们