five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

发布mirea-tl-eda数据集,应用在社交媒体分析、自然语言处理领域

五号数据雷达开源数据市场2026-01-19 10:4225
mirea-tl-eda是发布的数据集,于2026-01-18首发在HuggingFace应用于社交媒体分析、自然语言处理领域

本次发布的数据集mirea-tl-eda,该数据集包含22个指标,描述了RTU MIREA Telegram频道在整个分析时间段内(超过1万条文本消息)的帖子用户参与度、语言单位特征、可读性、AI消息生成分数、语义主题标签和模型标签置信度。数据集是通过对RTU MIREA Telegram频道的数据进行探索性数据分析(EDA)得到的,数据通过aiogram获取。预处理步骤包括数据清理(去除表情符号、标签、多余空格)、过滤至少包含一个单词的消息,以及扁平化字典结构。分析涵盖了用户参与度指数、语言单位特征(如句法复杂性、音节频率)、可读性和年级水平指数、AI生成分数(基于困惑度和突发性)以及主题分类(使用17个标签的文本分类模型)。

查看mirea-tl-eda

Dataset card内容:

 

Files and versions内容:

 

关于,国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。

关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们