five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

快手科技 发布 TaskGalaxy 数据集, 应用在 多模态学习、自然语言处理 领域

五号数据雷达开源数据市场2025-02-18 06:4846
TaskGalaxy 是 快手科技 发布的数据集,于 2025-02-14 首发在 arXiv 应用于 多模态学习、自然语言处理 领域

快手科技 本次发布的数据集 TaskGalaxy, TaskGalaxy数据集是由快手科技提出的一个大规模多模态指令微调数据集,包含19227个层次化的任务类型和约413648个视觉问答样本。该数据集通过利用GPT-4o从少量手动定义的任务类型出发,自动扩展出多样化的任务类型,并通过CLIP模型和GPT-4o生成相关的问题答案对,再通过多个模型筛选以保证数据质量。该数据集在多模态场景中极大地提升了任务类型的多样性,可应用于提升多模态模型在各类任务中的泛化能力。

查看TaskGalaxy

README 内容: 

 

关于 快手科技 , 快手科技(Kuaishou)是中国领先的短视频平台之一,成立于2011年,总部位于北京。公司通过其平台快手和快手极速版,为用户提供短视频创作、分享和观看服务,是中国数字娱乐行业的重要参与者。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们