five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

布里斯托大学发布StakeBench大型预测市场数据集 填补金融NLP研究核心数据空白

五号数据雷达开源数据市场2026-05-27 05:376
英国布里斯托大学研究团队于2026年5月26日在预印本平台arXiv首发StakeBench数据集,该数据集关联了双平台预测市场的用户言论与真实交易行为,将为预测市场分析、金融自然语言处理领域的研究与应用提供高质量实证基准。

随着全球预测市场应用场景的持续拓展,以及金融自然语言处理(NLP)技术在智能投研、市场情绪分析、风险预警等场景的落地加速,行业长期面临一项核心瓶颈:过往金融NLP领域的公开数据集大多仅覆盖文本内容,未与用户实际交易行为、市场波动轨迹做深度绑定,导致模型训练效果难以和真实市场表现对齐,相关研究的实证性、可复现性不足。针对这一痛点,布里斯托大学研究团队于2026年5月26日在预印本平台arXiv正式发布了全新垂直领域数据集StakeBench。

作为专注于市场承诺语言理解的双平台预测市场评估框架,StakeBench整合了全球两大头部预测市场Polymarket和Manifold的560,876条公开评论数据,覆盖2261个已完成结算的预测市场项目,包含18个主题与平台的组合维度,不仅整体数据规模庞大,还具备完整的时间序列特征,能够还原不同时间节点的用户言论、交易行为与市场变化的联动关系。在数据生产环节,研究团队通过平台公开API采集全量评论线程,同时基于公开交易历史重建了对应发言用户的持仓记录,将用户的语言表达与可验证的持仓行为、后续交易动作、市场赔率变化轨迹做了全链路关联,无需额外人工标注即可形成天然的高质量监督信号,大幅降低了后续研究的标注成本,也避免了人工标注带来的主观偏差问题。

据介绍,StakeBench的核心设计目标是解决金融自然语言处理领域长期存在的语言理解与市场实际承诺脱节的问题,配套设置了四个渐进式诊断任务,可用于评估AI模型对市场承诺信号、用户持仓方向、用户未来交易动作、集体赔率变化的识别能力,为金融文本的战略性分析提供可复现的实证基础。从应用场景来看,该数据集可广泛应用于多个方向:研究人员可基于该数据集验证舆论情绪与预测市场赔率波动的关联逻辑,探索预测市场的有效性规律;金融科技企业可依托该数据集训练能够精准识别用户真实交易意图的NLP模型,为量化交易策略、市场舆情监测工具的优化提供支撑;相关机构也可借助该数据集探索预测市场在公共政策效果预判、公共事件趋势研判等场景的应用价值。当前全球数据要素市场中,垂直领域的高质量关联数据集是AI技术落地的核心稀缺资源,尤其是金融领域对数据的真实性、关联性要求极高,StakeBench的发布填补了预测市场与金融NLP交叉领域的基准数据空白,将有效推动相关领域的学术研究与产业应用落地。

查看StakeBench

详情页内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们