阿里巴巴达摩院 本次发布的数据集 SpokenWOZ, SpokenWOZ是一个大规模的语音-文本任务导向对话数据集,由阿里巴巴达摩院创建。该数据集包含8个领域,203,074个对话轮次,5700个对话和249小时的音频,来源于人与人之间的真实对话。SpokenWOZ特别融入了口语对话的常见特征,如逐词处理和口语语言中的推理。基于这些特征,引入了跨轮次槽和推理槽检测作为新的挑战。数据集适用于开发和评估口语任务导向对话系统,旨在解决现有数据集在真实口语对话场景中的不足。
关于 阿里巴巴达摩院 , 阿里巴巴达摩院是阿里巴巴集团旗下的研究机构,专注于前沿科技的研究与创新,涵盖人工智能、量子计算、网络安全等多个领域。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)