five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

乔治城大学发布YIELD数据集,应用在对话系统、信息诱导领域

五号数据雷达开源数据市场2026-04-17 09:236
YIELD是乔治城大学发布的数据集,于2026-04-13首发在arXiv应用于对话系统、信息诱导领域

乔治城大学本次发布的数据集YIELD,YIELD是由乔治城大学信息感知实验室构建的大规模信息诱导对话数据集,包含2281段跨四个领域(学术访谈、司法程序、新闻调查及口述历史)的真实人类对话,总计2600万token。数据源自明确标注公共许可的档案库,经过人工标注和标准化处理,平均每段对话达171轮次,显著长于现有任务型对话数据集。该数据集旨在支持信息诱导智能体(IEAs)的开发,解决传统对话系统在主动信息获取和机构决策支持场景中的局限性,适用于司法审讯模拟、新闻采访训练等专业领域。

查看YIELD

README内容:

 

关于乔治城大学,乔治城大学是美国一所著名的私立研究型大学,位于华盛顿特区,成立于1789年,是美国最古老的天主教和耶稣会大学之一。该校以国际关系、法律、医学等领域的教育和研究闻名,拥有多个知名的研究中心和实验室。

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们