five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

中山大学 发布 MultiCodeBench 数据集, 应用在 代码生成、软件开发 领域

五号数据雷达开源数据市场2024-12-26 08:1637
MultiCodeBench 是 中山大学 发布的数据集,于 2024-12-25 首发在 arXiv 应用于 代码生成、软件开发 领域

中山大学 本次发布的数据集 MultiCodeBench, MultiCodeBench是由中山大学、西安交通大学和重庆大学的研究团队创建的一个代码生成基准测试数据集,旨在评估大语言模型在特定应用领域中的代码生成性能。该数据集包含2400个编程任务,覆盖了区块链、云计算、数据分析、深度学习等12个热门软件开发领域,并涉及Python、JavaScript、TypeScript等15种编程语言。数据集的构建过程包括从GitHub相关项目中抽取编程问题,并邀请有经验的标注者重写每个任务的文档字符串,以确保任务质量和避免数据泄露。通过静态分析工具提取每个任务的依赖关系,进一步支持深入的性能分析。MultiCodeBench的应用领域主要集中在软件开发领域,帮助开发者选择适合特定领域的大语言模型,并为模型开发者提供改进领域特定代码生成能力的指导。

查看MultiCodeBench

README 内容: 

 

关于 中山大学 , 中山大学,简称中大,位于中国广东省广州市,是一所综合性全国重点大学,由孙中山先生于1924年创办。学校以文理医工为主,涵盖多个学科领域,是中国南方重要的教育和科研中心之一。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们