five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

爱丁堡大学 发布 GRAB 数据集, 应用在 金融风险、主题模型 领域

五号数据雷达开源数据市场2025-10-08 04:4618
GRAB 是 爱丁堡大学 发布的数据集,于 2025-09-26 首发在 arXiv 应用于 金融风险、主题模型 领域

爱丁堡大学 本次发布的数据集 GRAB, GRAB是一个用于评估金融风险分类的无监督主题模型的公共基准。它包含来自8247份文件的161.38万个句子,并且没有手动注释,而是通过结合FinBERT标记注意力、YAKE关键词信号和分类意识搭配匹配产生的跨度接地句子标签。标签锚定在风险分类法中,将193个术语映射到五个宏观类别下的21个细粒度类型;21个类型指导弱监督,而评估则是在宏观层面报告的。GRAB通过固定的数据集分割和鲁棒的指标(准确性、宏观F1、主题BERT分数和基于熵的有效主题数)统一了评估。该数据集、标签和代码使经典、基于嵌入、神经和混合主题模型在金融风险披露方面具有可重复性和标准化的比较。

查看GRAB

关于 爱丁堡大学 , 爱丁堡大学是一所位于英国苏格兰首府爱丁堡的世界著名公立综合研究型大学,拥有悠久的历史和卓越的学术声誉。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们