香港科技大学本次发布的数据集GenomeQA,GenomeQA是由香港科技大学·广州等机构联合构建的基因组序列理解基准数据集,包含5,200条样本,覆盖增强子/启动子识别、剪接位点鉴定等6类任务。数据源自ENCODE、NCBI等权威数据库,序列长度6-1,000bp,通过标准化处理确保质量。该数据集用于评估通用大语言模型对原始DNA序列的推理能力,填补了基因组分析与自然语言处理交叉领域的评估空白。
关于香港科技大学,香港科技大学是一所位于香港的公立研究型大学,成立于1991年,以科技和商业管理见长,在工程、商科及自然科学等领域享有国际声誉。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)