five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

马克斯·普朗克研究所发布全球最大长周期Telegram公开数据集TeraGram 填补无算法干预社交行为研究空白

五号数据雷达开源数据市场2026-05-19 05:5312
马克斯·普朗克动力学与自组织研究所于2026年5月15日在预印本平台arXiv首发TeraGram数据集,作为迄今规模最大的纵向Telegram公开内容数据集,其覆盖2015-2025年十年跨度的公开社交数据,将为计算社会科学、社交媒体分析等领域的研究提供高价值基础支撑。

近年来,随着计算社会科学的快速发展,大规模真实社交网络数据已经成为研究群体行为、信息传播、社区演化等核心议题的基础资源。不同于X(原Twitter)、Facebook等依赖算法个性化分发内容的主流社交平台,Telegram以去中心化的内容分发逻辑、弱干预的社区运营规则,成为观察无算法干预下用户自发行为的独特样本,但此前全球范围内始终缺乏覆盖长周期、全维度的Telegram公开合规数据集,极大限制了相关领域的研究进展。作为全球顶尖的基础研究机构,马克斯·普朗克学会旗下动力学与自组织研究所长期聚焦复杂系统、网络动力学、社会行为量化等交叉领域研究,本次联合相关机构发布的TeraGram数据集,正是为填补这一行业空白推出的重要成果。

TeraGram是迄今全球规模最大的纵向Telegram公开内容数据集,时间跨度覆盖2015年至2025年整整十年,包含超过59亿条公开消息、71.2万个公开频道与群组的相关数据,总数据量达3.33TB。据披露,该数据集采用合规的雪球爬取方法从Telegram官方API收集,所有数据均来自平台公开可访问的内容,经过标准化脱敏处理后保留了完整的结构化字段,涵盖消息元数据、转发关系链、用户表情反应、投票结果等多维度信息,同时支持跨语言、多类型社区的交叉分析。

从应用价值来看,TeraGram数据集的核心优势在于其长周期的时间维度与无算法干预的平台属性,可为多个研究领域提供高价值的基础支撑:在社交网络动力学领域,研究者可依托该数据对比算法推荐平台与非算法平台的信息扩散路径差异,探索用户参与模式的底层逻辑;在社区研究领域,十年的纵向数据可支撑对不同类型社区从萌芽、扩张到衰退的全生命周期演化研究,揭示群体聚合与共识形成的内在机制;在公共治理领域,该数据可被用于追踪虚假信息、极端言论的传播链条,识别核心传播节点,为全球社交平台的内容治理、公共事件舆情演化研究提供数据参考;此外其跨语言属性也可为跨文化传播、全球公共议题扩散等方向的研究提供支撑。

业内分析指出,合规公开的大规模社交数据集一直是计算社会科学领域的稀缺资源,TeraGram的发布不仅填补了长周期Telegram公开数据的研究空白,其在数据采集、脱敏、开放全流程的合规实践,也为全球数据要素在学术研究领域的开放共享提供了可参考的样本,将进一步推动社交网络分析、群体行为量化等交叉学科的研究进展。

查看TeraGram

详情页内容:

TeraGram数据集详情图

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们