清华大学 本次发布的数据集 Unstructured Document Analysis (UDA), Unstructured Document Analysis (UDA) 数据集由清华大学创建,包含2,965份真实世界的文档和29,590对专家标注的问答对。该数据集涵盖金融、学术和世界知识三大领域,旨在评估和改进大型语言模型在处理非结构化文档时的性能。数据集保留了原始文件格式,未进行解析或分割,以确保真实性。UDA数据集的应用领域广泛,包括企业搜索、数据分析和学术研究,旨在解决大型语言模型在处理外部知识和未见数据时的挑战。
查看Unstructured Document Analysis (UDA)
README 内容:
关于 清华大学 , 清华大学,位于中国北京,是一所享誉全球的顶尖研究型大学,以其深厚的学术底蕴和杰出的科研能力而著称。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)