爱丁堡大学 本次发布的数据集 GRAB, GRAB是一个用于评估金融风险分类的无监督主题模型的公共基准。它包含来自8247份文件的161.38万个句子,并且没有手动注释,而是通过结合FinBERT标记注意力、YAKE关键词信号和分类意识搭配匹配产生的跨度接地句子标签。标签锚定在风险分类法中,将193个术语映射到五个宏观类别下的21个细粒度类型;21个类型指导弱监督,而评估则是在宏观层面报告的。GRAB通过固定的数据集分割和鲁棒的指标(准确性、宏观F1、主题BERT分数和基于熵的有效主题数)统一了评估。该数据集、标签和代码使经典、基于嵌入、神经和混合主题模型在金融风险披露方面具有可重复性和标准化的比较。
关于 爱丁堡大学 , 爱丁堡大学是一所位于英国苏格兰首府爱丁堡的世界著名公立综合研究型大学,拥有悠久的历史和卓越的学术声誉。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)