本次发布的数据集 LPcode, 该数据集名为LPcode,包含了人类编写的代码与多种大型语言模型(LLM)生成的释义代码的对。该数据集旨在支持两项任务:一是检测代码是否为LLM释义版本,二是识别是哪个LLM对原始代码进行了释义。为确保数据完整性,该数据集经过筛选,移除了除Apache、BSD和MIT许可证之外的代码,并对敏感信息进行了匿名处理。数据集中包含了正样本(释义代码)和负样本(非释义代码),两者比例为1:1。任务的划分为:一是判断LLM生成的代码是否为人类编写代码的释义版本;二是确定是哪个LLM对原始代码进行了释义。
README 内容:
关于 , 国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)