首页 / 开源数据市场 / 正文

北京温格科技有限公司发布 TableEval 数据集, 应用在表格问答、自然语言处理领域

五号数据雷达开源数据市场2025-06-06 07:1338

TableEval 是北京温格科技有限公司发布的数据集,于 2025-06-04 首发在 arXiv 应用于表格问答、自然语言处理领域

北京温格科技有限公司本次发布的数据集 TableEval, TableEval是一个针对复杂、多语言和多结构表格问答的基准数据集，旨在评估大型语言模型在真实世界表格问答任务上的能力。该数据集包括从政府、金融、学术和工业报告等四个领域收集的具有各种结构（如简洁、层次结构和嵌套结构）的表格。此外，TableEval还包含简体中文、繁体中文和英文的跨语言场景。为了最小化数据泄露的风险，所有数据均来自最近的现实世界文档。该数据集包含六种高级任务和16种细粒度问题类型，从简单的查找查询到数值计算、比较分析和多跳问题。数据集还包含多轮对话任务，要求模型在多个步骤中动态推理。为了评估模型在表格问答任务中的表现，我们提出了SEAT（Structured Evaluation for Answers in TableQA），这是一种新的表格问答评估框架，它利用LLM与精心设计的提示来比较生成的响应与结构化的参考答案。SEAT通过一个两步过程评估响应的语义正确性：（1）从模型的响应中提取每个子问题的关键答案，并将每个答案与参考答案进行比较，以识别匹配或不同的元素。如果没有提供多个子问题，则将原始问题视为单个子问题。（2）以结构化的JSON格式呈现评估结果，并汇总最终分数，以便轻松跟踪和验证。这种方法提供了一种可靠、可扩展的评估方法，超越了表面级的匹配，提供了更准确的评估。

查看TableEval

README 内容：

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

北京温格科技有限公司 发布 TableEval 数据集, 应用在 表格问答、自然语言处理 领域

README 内容：

社区讨论

北京温格科技有限公司发布 TableEval 数据集, 应用在表格问答、自然语言处理领域