乔治城大学本次发布的数据集YIELD,YIELD是由乔治城大学信息感知实验室构建的大规模信息诱导对话数据集,包含2281段跨四个领域(学术访谈、司法程序、新闻调查及口述历史)的真实人类对话,总计2600万token。数据源自明确标注公共许可的档案库,经过人工标注和标准化处理,平均每段对话达171轮次,显著长于现有任务型对话数据集。该数据集旨在支持信息诱导智能体(IEAs)的开发,解决传统对话系统在主动信息获取和机构决策支持场景中的局限性,适用于司法审讯模拟、新闻采访训练等专业领域。
README内容:
关于乔治城大学,乔治城大学是美国一所著名的私立研究型大学,位于华盛顿特区,成立于1789年,是美国最古老的天主教和耶稣会大学之一。该校以国际关系、法律、医学等领域的教育和研究闻名,拥有多个知名的研究中心和实验室。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)