微软 本次发布的数据集 Financial Reports Numerical Extraction (FINE), FINE数据集是一个专门为财务报告信息提取任务设计的数据集,由微软、北京大学等机构联合创建。该数据集主要包含从SEC的EDGAR系统中提取的财务关键绩效指标(KPI),旨在支持大语言模型(LLMs)在混合长文档(HLDs)中的信息提取研究。数据集中的文档平均包含约59,464个Tokens,涵盖了广泛的财务数据,适用于金融分析领域。FINE数据集的创建过程涉及从公开的财务报告中提取关键数值信息,并通过自动化框架进行处理。该数据集的应用领域主要集中在金融信息提取,旨在解决LLMs在处理混合文本和表格数据时的信息提取难题。
查看Financial Reports Numerical Extraction (FINE)
关于 微软 , 微软(Microsoft)是一家全球领先的科技公司,成立于1975年,总部位于美国华盛顿州雷德蒙德。微软以开发、制造、许可、支持和销售计算机软件、消费电子产品、个人电脑和相关服务而闻名。其最著名的产品包括Windows操作系统、Office办公软件套件和Azure云计算服务。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)