首页 / 开源数据市场 / 正文

Nanjing University of Science and Technology 发布 NLBSE Code Comment Classification dataset 数据集, 应用在代码注释分类、自然语言处理领域

五号数据雷达开源数据市场2025-10-03 19:4819

NLBSE Code Comment Classification dataset 是 Nanjing University of Science and Technology 发布的数据集,于 2025-10-03 首发在 arXiv 应用于代码注释分类、自然语言处理领域

Nanjing University of Science and Technology 本次发布的数据集 NLBSE Code Comment Classification dataset, 该数据集包含了从Java、Python和Pharo的多个项目中提取的代码注释。每一条注释都被分割成句子，并由人工进行标注，同时与提取它们的文件相关联。此外，该数据集在样本分布上并不均衡，负面样本的数量远超正面样本。数据集包含了具有ID、句子文本、类别或文件、分区、类别和实例类型的样本。在规模上，Java和Python每个类别的训练样本大约有2.4K和2.6K，而Pharo每个类别的样本则有大约1.8K。该数据集的任务是对代码注释进行分类。

查看NLBSE Code Comment Classification dataset

README 内容：

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

Nanjing University of Science and Technology 发布 NLBSE Code Comment Classification dataset 数据集, 应用在 代码注释分类、自然语言处理 领域

README 内容：

社区讨论

Nanjing University of Science and Technology 发布 NLBSE Code Comment Classification dataset 数据集, 应用在代码注释分类、自然语言处理领域