five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

香港科技大学发布GenomeQA数据集,应用在基因组分析、自然语言处理领域

五号数据雷达开源数据市场2026-04-09 04:4732
GenomeQA是香港科技大学发布的数据集,于2026-04-07首发在arXiv应用于基因组分析、自然语言处理领域

香港科技大学本次发布的数据集GenomeQA,GenomeQA是由香港科技大学·广州等机构联合构建的基因组序列理解基准数据集,包含5,200条样本,覆盖增强子/启动子识别、剪接位点鉴定等6类任务。数据源自ENCODE、NCBI等权威数据库,序列长度6-1,000bp,通过标准化处理确保质量。该数据集用于评估通用大语言模型对原始DNA序列的推理能力,填补了基因组分析与自然语言处理交叉领域的评估空白。

查看GenomeQA

关于香港科技大学,香港科技大学是一所位于香港的公立研究型大学,成立于1991年,以科技和商业管理见长,在工程、商科及自然科学等领域享有国际声誉。

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们