five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

IBM Research 发布 StructText 数据集, 应用在 自然语言处理、文本信息提取 领域

五号数据雷达开源数据市场2025-07-31 06:4328
StructText 是 IBM Research 发布的数据集,于 2025-07-29 首发在 arXiv 应用于 自然语言处理、文本信息提取 领域

IBM Research 本次发布的数据集 StructText, StructText是一个端到端框架,用于自动生成从文本中提取键值的高保真度基准。它使用现有的表格数据作为结构化基准,并通过两阶段的“计划-执行”流程来合成生成相应的自然语言文本。为了确保文本与结构化源之间的对齐,我们引入了一种多维评估策略,该策略结合了(a)基于LLM的判断,涉及事实性、幻觉和连贯性,以及(b)测量数值和时间准确性的客观提取指标。我们在49个数据集的71,539个示例上评估了所提出的方法。结果表明,尽管LLM实现了强大的事实性准确性和避免了幻觉,但在生成可提取的文本方面,它们在叙事连贯性方面却遇到了困难。值得注意的是,模型以高保真度假设数值和时间信息,但这些信息嵌入在难以自动提取的叙事中。我们发布了一个框架,包括数据集、评估工具和基线提取系统,以支持持续的研究。我们的发现突出了一个关键差距:模型可以生成准确的文本,但在保持信息可访问性方面却遇到了困难,这是在各个领域实际部署的关键要求,既需要准确性,也需要机器可处理性。

查看StructText

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 IBM Research , IBM研究是IBM公司的研发部门,致力于科技创新,涵盖从硬件到软件的多个领域,包括人工智能、量子计算、云计算等。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们