卡尔斯鲁厄理工学院本次发布的数据集DoWhatISay (DOWIS),DOWIS是由卡尔斯鲁厄理工学院等机构联合构建的首个多语言平行语音-文本指令数据集,包含9类语音处理任务在11种语言的990条提示数据,总时长达3小时17分钟。该数据集通过专业研究人员设计基础提示及四种风格变体(正式/非正式/详细/简洁),并由母语者进行多语言翻译和真实场景录音,支持语音大模型的跨模态、跨语言评估。其创新性地将指令与任务输入解耦,可灵活适配现有评测基准,主要应用于语音识别、语音翻译等任务的现实场景性能测试,揭示了文本提示与语音提示间的显著性能差异问题。
关于卡尔斯鲁厄理工学院,卡尔斯鲁厄理工学院(Karlsruher Institut für Technologie,简称KIT)是德国一所著名的理工科大学,成立于2009年,由卡尔斯鲁厄大学和卡尔斯鲁厄研究中心合并而成。该校在工程、自然科学和计算机科学等领域享有盛誉,是欧洲领先的研究型大学之一。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)