首页 / 开源数据市场 / 正文

清华大学发布 Unstructured Document Analysis (UDA) 数据集, 应用在非结构化文档分析、大型语言模型领域

五号数据雷达开源数据市场2024-10-13 12:2071

Unstructured Document Analysis (UDA) 是清华大学发布的数据集,于 2024-06-21 首发在 arXiv 应用于非结构化文档分析、大型语言模型领域

清华大学本次发布的数据集 Unstructured Document Analysis (UDA), Unstructured Document Analysis (UDA) 数据集由清华大学创建，包含2,965份真实世界的文档和29,590对专家标注的问答对。该数据集涵盖金融、学术和世界知识三大领域，旨在评估和改进大型语言模型在处理非结构化文档时的性能。数据集保留了原始文件格式，未进行解析或分割，以确保真实性。UDA数据集的应用领域广泛，包括企业搜索、数据分析和学术研究，旨在解决大型语言模型在处理外部知识和未见数据时的挑战。

查看Unstructured Document Analysis (UDA)

README 内容：

关于清华大学 , 清华大学，位于中国北京，是一所享誉全球的顶尖研究型大学，以其深厚的学术底蕴和杰出的科研能力而著称。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

清华大学 发布 Unstructured Document Analysis (UDA) 数据集, 应用在 非结构化文档分析、大型语言模型 领域

README 内容：

社区讨论

清华大学发布 Unstructured Document Analysis (UDA) 数据集, 应用在非结构化文档分析、大型语言模型领域