斯坦福大学本次发布的数据集RenoBench,RenoBench是由斯坦福大学等机构联合构建的首个公共领域引文解析基准数据集,旨在解决学术出版中真实场景下的异构引文标注问题。该数据集包含10,000条经过质量过滤的引文记录,覆盖8种语言及期刊论文、书籍等多元文献类型,数据源自SciELO、Redalyc等四大开放出版平台的PDF文本转换与JATS XML结构化匹配。通过算法平衡采样策略,数据集显著提升了多语言、多类型文献的覆盖率,为引文解析模型的训练与评估提供了高信噪比的真实语料。
关于斯坦福大学,斯坦福大学(Stanford University)是一所位于美国加利福尼亚州斯坦福的私立研究型大学,成立于1885年,以其在科技创新和学术研究方面的卓越表现而闻名。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)