本次发布的数据集mirea-tl-eda,该数据集包含22个指标,描述了RTU MIREA Telegram频道在整个分析时间段内(超过1万条文本消息)的帖子用户参与度、语言单位特征、可读性、AI消息生成分数、语义主题标签和模型标签置信度。数据集是通过对RTU MIREA Telegram频道的数据进行探索性数据分析(EDA)得到的,数据通过aiogram获取。预处理步骤包括数据清理(去除表情符号、标签、多余空格)、过滤至少包含一个单词的消息,以及扁平化字典结构。分析涵盖了用户参与度指数、语言单位特征(如句法复杂性、音节频率)、可读性和年级水平指数、AI生成分数(基于困惑度和突发性)以及主题分类(使用17个标签的文本分类模型)。
Dataset card内容:
Files and versions内容:
关于,国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。
关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)