首页 / 开源数据市场 / 正文

IBM Research 发布 StructText 数据集, 应用在自然语言处理、文本信息提取领域

五号数据雷达开源数据市场2025-07-31 06:4328

StructText 是 IBM Research 发布的数据集,于 2025-07-29 首发在 arXiv 应用于自然语言处理、文本信息提取领域

IBM Research 本次发布的数据集 StructText, StructText是一个端到端框架，用于自动生成从文本中提取键值的高保真度基准。它使用现有的表格数据作为结构化基准，并通过两阶段的“计划-执行”流程来合成生成相应的自然语言文本。为了确保文本与结构化源之间的对齐，我们引入了一种多维评估策略，该策略结合了（a）基于LLM的判断，涉及事实性、幻觉和连贯性，以及（b）测量数值和时间准确性的客观提取指标。我们在49个数据集的71,539个示例上评估了所提出的方法。结果表明，尽管LLM实现了强大的事实性准确性和避免了幻觉，但在生成可提取的文本方面，它们在叙事连贯性方面却遇到了困难。值得注意的是，模型以高保真度假设数值和时间信息，但这些信息嵌入在难以自动提取的叙事中。我们发布了一个框架，包括数据集、评估工具和基线提取系统，以支持持续的研究。我们的发现突出了一个关键差距：模型可以生成准确的文本，但在保持信息可访问性方面却遇到了困难，这是在各个领域实际部署的关键要求，既需要准确性，也需要机器可处理性。

查看StructText

Dataset card 内容：

Files and versions 内容：

关于 IBM Research , IBM研究是IBM公司的研发部门，致力于科技创新，涵盖从硬件到软件的多个领域，包括人工智能、量子计算、云计算等。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

IBM Research 发布 StructText 数据集, 应用在 自然语言处理、文本信息提取 领域

Dataset card 内容：

Files and versions 内容：

社区讨论

IBM Research 发布 StructText 数据集, 应用在自然语言处理、文本信息提取领域