five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

北邮发布OracleProto时序预测数据集 赋能金融风控、政策分析领域AI落地

五号数据雷达开源数据市场2026-05-08 05:3511
2026年5月5日,北京邮电大学科研团队在预印本平台arXiv首发基于FutureX-Past衍生的可复现评估框架数据集OracleProto,通过知识截断与时间掩码技术解决时序预测任务的信息泄露痛点,可为金融风险评估、政策分析等领域的大模型训练、跨模型公平评测提供可靠支撑。

随着大模型技术在垂直领域的落地深化,金融、公共政策等强时序依赖场景的AI应用正面临两大共性痛点:一是传统时序预测数据集普遍存在“未来信息泄露”问题,模型在训练评测时可访问预测截止时间之后的信息,导致最终产出的模型效果与实际业务场景表现存在明显偏差;二是各机构研发的垂直场景预测模型缺乏统一的评测基准,跨模型横向对比的公平性不足,大幅抬高了产业侧的模型选型与落地成本。

2026年5月5日,北京邮电大学正式发布的OracleProto数据集,正是瞄准上述行业痛点推出的解决方案。据介绍,OracleProto是由北邮科研团队开发的、基于FutureX-Past衍生的可复现评估框架数据集,核心通过知识截断和时间掩码技术,将已落地验证的历史事件重构为标准化的离散预测任务。该数据集包含大量结构化预测实例,每个实例均覆盖待预测问题、候选答案及官方验证结果三大核心模块,其内置的时间掩码机制可严格控制模型仅能访问预测截止时间前的公开信息,从数据源层面彻底规避了未来信息泄露的可能性。

OracleProto的核心创新价值,在于将原本只能单次使用的过期预测基准,转化为可重复调用的标准化训练样本,为金融风险评估、政策分析等对预测可信度要求极高的领域提供可控的训练信号源。在金融风险评估场景中,该数据集可用于信贷违约预测、市场波动预警、底层资产风险排查等模型的训练与评测,帮助金融机构还原真实业务中的信息边界,产出的预测模型效果更贴近实际运营需求,同时也可支撑不同机构研发的风控模型开展公平横向对比;在政策分析场景中,数据集的时间掩码机制可完美还原政策制定时的信息环境,可为产业政策效果预判、宏观调控推演、公共政策影响评估等研究提供标准化的仿真训练数据,有效提升政策决策的科学性。除此之外,该数据集还可支持时序类大模型的下游监督微调(SFT)与强化学习(RL)训练,降低垂直领域大模型的研发门槛。

查看OracleProto

详情页内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们