当前,随着全球数字社交生态的持续渗透,社交媒体平台已成为公共事件传播、公众情绪表达的核心载体,针对社交媒体数据的挖掘分析,也成为舆情研判、应急响应、公共治理优化等多个领域的核心技术抓手。但长期以来,面向公共事件演化分析的公开基准数据集普遍存在事件覆盖维度有限、时间序列颗粒度单一、未保留用户交互结构等短板,制约了相关算法模型的迭代升级与落地应用效果。
近日,中国科学技术大学牵头的研究团队于2026年5月20日在arXiv平台首发了跨平台社交媒体事件基准数据集SURGE,专门针对多类别公共事件的动态演化分析需求打造,填补了该领域的多项数据支撑空白。
据公开信息显示,SURGE是由中国科学技术大学等机构联合构建的专业基准数据集,共覆盖自然灾害、政治事件、社会运动、技术发布及体育娱乐五大类共67起典型公共事件,纳入了来自Twitter、Reddit和Threads三大主流海外社交平台的817442条公开帖子,所有数据均通过大语言模型完成了标准化情感标注。为适配不同场景的分析需求,数据集采用自动化处理流程构建了1天、12小时、6小时三种时间粒度的日历对齐时间序列,同时完整保留了帖子之间的回复、转发交互链路结构,最大化还原了社交平台上的真实信息传播逻辑。
从应用价值来看,该数据集可广泛支持多领域的研究与落地探索:在应急管理场景下,可用于训练自然灾害、突发公共事件的舆情演化预测模型,帮助相关部门提前捕捉公众诉求、预判舆论风险,优化危机响应效率;在公共传播场景下,可支撑政策发布、重大公共事件后的公众情绪跟踪研究,为信息公开、谣言治理提供决策参考;在商业应用场景下,也可用于科技产品发布、体育娱乐赛事的热度预判与舆论反馈分析,为品牌营销策略优化提供数据支撑。
作为针对交互感知预测研究打造的基准测试平台,SURGE针对性解决了现有同类数据集在事件覆盖广度、时间序列灵活性、交互结构完整性三个维度的局限性,也为全球范围内的舆情预测、公共事件演化研究提供了统一的测试基准,对于推动社交媒体数据挖掘技术的落地、助力数字治理能力提升、完善公共服务领域的数据要素供给体系都具有重要的参考价值。





_1769672084863.jpg)