five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

浙江大学 发布 InstructCell Multi-modal Single-cell Instruction Dataset 数据集, 应用在 单细胞分析、自然语言处理 领域

五号数据雷达开源数据市场2025-01-16 12:2142
InstructCell Multi-modal Single-cell Instruction Dataset 是 浙江大学 发布的数据集,于 2025-01-14 首发在 arXiv 应用于 单细胞分析、自然语言处理 领域

浙江大学 本次发布的数据集 InstructCell Multi-modal Single-cell Instruction Dataset, InstructCell多模态单细胞指令数据集由浙江大学的研究团队构建,旨在通过自然语言指令与单细胞RNA测序数据的结合,推动单细胞分析领域的发展。该数据集包含299,155个来自人类和小鼠多个组织的单细胞样本,每个样本均附有详细的生物学属性,如组织类型、物种和测序协议。数据集通过自然语言指令与单细胞数据的配对,支持细胞类型注释、条件伪细胞生成和药物敏感性预测等关键任务。数据集的构建过程利用GPT-4生成自然语言指令,并通过多模态语言模型处理单细胞数据与文本信息。该数据集的应用领域主要集中在单细胞生物学研究,旨在通过降低技术门槛,帮助研究人员更直观地探索复杂的单细胞数据,从而获得更深入的生物学见解。

查看InstructCell Multi-modal Single-cell Instruction Dataset

README 内容: 

 

关于 浙江大学 , 浙江大学是中国一所历史悠久、学科全面、科研实力雄厚的顶尖综合性大学。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们