AISE research lab at TU Delft 本次发布的数据集 the-heap, 该数据集主要包含Java代码文件的相关信息,涵盖了文件的基本信息(如文件名、路径、大小、语言、扩展名等)、内容信息(如文件内容、行数、行长度、字母数字比例等)以及仓库信息(如仓库名称、星标数、分支数、开放问题数、许可证等)。此外,数据集还包含了一些重复性检测的字段,用于标识文件是否与其他数据集中的文件重复。数据集的分割信息显示,训练集的大小为31844004999字节,包含5168193个样本。
Dataset card 内容:
Files and versions 内容:
关于 AISE research lab at TU Delft , AISE research lab at TU Delft是荷兰代尔夫特理工大学的一个研究实验室,专注于开发和应用机器学习模型于软件工程领域。
关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)