IBM Research 本次发布的数据集 StructText, StructText是一个端到端框架,用于自动生成从文本中提取键值的高保真度基准。它使用现有的表格数据作为结构化基准,并通过两阶段的“计划-执行”流程来合成生成相应的自然语言文本。为了确保文本与结构化源之间的对齐,我们引入了一种多维评估策略,该策略结合了(a)基于LLM的判断,涉及事实性、幻觉和连贯性,以及(b)测量数值和时间准确性的客观提取指标。我们在49个数据集的71,539个示例上评估了所提出的方法。结果表明,尽管LLM实现了强大的事实性准确性和避免了幻觉,但在生成可提取的文本方面,它们在叙事连贯性方面却遇到了困难。值得注意的是,模型以高保真度假设数值和时间信息,但这些信息嵌入在难以自动提取的叙事中。我们发布了一个框架,包括数据集、评估工具和基线提取系统,以支持持续的研究。我们的发现突出了一个关键差距:模型可以生成准确的文本,但在保持信息可访问性方面却遇到了困难,这是在各个领域实际部署的关键要求,既需要准确性,也需要机器可处理性。
Dataset card 内容:
Files and versions 内容:
关于 IBM Research , IBM研究是IBM公司的研发部门,致力于科技创新,涵盖从硬件到软件的多个领域,包括人工智能、量子计算、云计算等。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)