University of Zagreb 本次发布的数据集 QUOTEGRAPH, QUOTEGRAPH是一个从2008年至2020年间发表在英语新闻文章中的发言人归属引语中提取的大型社会网络。它包含528,000个独特的节点和8.63百万条有向边,这些边指向说话者提到的个人。节点与他们在Wikidata中的相应项目链接,从而为数据集提供了详细的传记实体信息,包括国籍、性别和政治隶属关系。QUOTEGRAPH是从QUOTEBANK中提取的,这是一个包含引语的庞大语料库,因此QUOTEGRAPH中的关系还包含了它们所处的上下文信息。QUOTEGRAPH的每个网络构建流程都是语言无关的,这使其能够基于非英语新闻语料库构建类似的数据库。QUOTEGRAPH被认为是计算社会科学的一个有吸引力的资源,它补充了在线社交网络,有可能对公众人物的行为以及这些行为如何在新闻中被捕捉到提供新的见解。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)