奥地利研究机构 本次发布的数据集 A Decade of News Forum Interactions, “十年新闻论坛互动”是一个大规模纵向数据集,记录了奥地利主要报纸DerStandard在线平台上用户活动,时间跨度十年(2013-2022年)。该数据集包含超过7500万条用户评论,超过4亿次的投票,以及有关文章和用户互动的详细元数据。数据集提供了结构化的对话线程,用户评论的明确点赞和点踩,以及编辑主题标签,使研究人员能够在不泄露用户隐私的情况下对在线话语进行丰富分析。为了保护用户隐私,所有持久标识符都使用加盐哈希函数进行匿名化,原始评论文本不公开共享。相反,我们发布从最先进的嵌入模型中导出的预计算向量表示。该数据集支持对讨论动态、网络结构和语义分析的研究,特别是在资源适中的德语中,为计算社会科学和相关领域提供了一个可重用的资源。
查看A Decade of News Forum Interactions
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)