北京温格科技有限公司 本次发布的数据集 TableEval, TableEval是一个针对复杂、多语言和多结构表格问答的基准数据集,旨在评估大型语言模型在真实世界表格问答任务上的能力。该数据集包括从政府、金融、学术和工业报告等四个领域收集的具有各种结构(如简洁、层次结构和嵌套结构)的表格。此外,TableEval还包含简体中文、繁体中文和英文的跨语言场景。为了最小化数据泄露的风险,所有数据均来自最近的现实世界文档。该数据集包含六种高级任务和16种细粒度问题类型,从简单的查找查询到数值计算、比较分析和多跳问题。数据集还包含多轮对话任务,要求模型在多个步骤中动态推理。为了评估模型在表格问答任务中的表现,我们提出了SEAT(Structured Evaluation for Answers in TableQA),这是一种新的表格问答评估框架,它利用LLM与精心设计的提示来比较生成的响应与结构化的参考答案。SEAT通过一个两步过程评估响应的语义正确性:(1)从模型的响应中提取每个子问题的关键答案,并将每个答案与参考答案进行比较,以识别匹配或不同的元素。如果没有提供多个子问题,则将原始问题视为单个子问题。(2)以结构化的JSON格式呈现评估结果,并汇总最终分数,以便轻松跟踪和验证。这种方法提供了一种可靠、可扩展的评估方法,超越了表面级的匹配,提供了更准确的评估。
README 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)