five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】ProCQA - 大规模编程问答数据集

五号雷达开源数据市场2024-03-26 14:5992
ProCQA的应用领域广泛,不仅可以用作评估基准,也可以用作预训练语料库,为代码检索和问答任务提供了宝贵的资源。

ProCQA,由北京航空航天大学构建的一个大规模编程问答数据集,包含约500万个问答对,覆盖Python、Java、JavaScript等11种不同的编程语言,内容涉及算法、框架、库的使用等多个知识领域。该数据集源自StackOverflow社区,研究人员通过爬虫技术获取,采用了严格的规则过滤策略,如过滤过短或过长的问答,只保留被提问者接受的答案等,确保数据的质量和公平性。ProCQA中的问答对是自然结构化的混合模态对,即文本和代码在问答字段中交织在一起,为模型提供了自然监督信号,以便于对齐两种模态。ProCQA的应用领域广泛,不仅可以用作评估基准,也可以用作预训练语料库,为代码检索和问答任务提供了宝贵的资源。

详情请参见五号雷达:https://www.5radar.com/result?key=ProCQA
数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们