浙江大学 本次发布的数据集 InstructCell Multi-modal Single-cell Instruction Dataset, InstructCell多模态单细胞指令数据集由浙江大学的研究团队构建,旨在通过自然语言指令与单细胞RNA测序数据的结合,推动单细胞分析领域的发展。该数据集包含299,155个来自人类和小鼠多个组织的单细胞样本,每个样本均附有详细的生物学属性,如组织类型、物种和测序协议。数据集通过自然语言指令与单细胞数据的配对,支持细胞类型注释、条件伪细胞生成和药物敏感性预测等关键任务。数据集的构建过程利用GPT-4生成自然语言指令,并通过多模态语言模型处理单细胞数据与文本信息。该数据集的应用领域主要集中在单细胞生物学研究,旨在通过降低技术门槛,帮助研究人员更直观地探索复杂的单细胞数据,从而获得更深入的生物学见解。
查看InstructCell Multi-modal Single-cell Instruction Dataset
README 内容:
关于 浙江大学 , 浙江大学是中国一所历史悠久、学科全面、科研实力雄厚的顶尖综合性大学。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)