Northeastern University Programming Research Lab本次发布的数据集agnostics-codeforces-cots,该数据集包含编程竞赛相关的问题与解答数据,主要应用于代码生成与算法问题求解任务。数据集包含2000个训练样本、200个验证样本和105个测试样本,总大小约115MB。每个数据样本包含完整的问题描述(包括问题标题、问题陈述、输入输出格式、时间与内存限制)、示例测试用例(输入-输出对)、问题备注以及所属竞赛信息(竞赛名称、起始年份)。数据集结构包含14个字段,其中核心字段包括问题提示(prompt)、算法响应(response)、问题陈述(problem_statement)和示例测试用例(examples)。该数据适用于代码生成模型训练、算法问题求解评估等自然语言到代码的转换任务。
关于Northeastern University Programming Research Lab,Northeastern University Programming Research Lab是东北大学旗下的编程研究室,专注于编程语言、软件工程和计算机系统领域的研究。
关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的开发与分享。它提供了丰富的资源,包括超过100万个模型、25万个数据集和40万个应用程序,支持文本、图像、视频、音频和3D等多种模态。此外,平台还提供企业级解决方案和开源工具,如Transformers、Diffusers等,以加速机器学习的研究和应用。





_1769672084863.jpg)