上海交通大学本次发布的数据集ICC-1M,ICC-1M是由阿里巴巴Qwen团队与上海交通大学等机构联合构建的大规模STEM领域多模态数据集,包含100万条图像-描述-代码三元组。该数据集通过可执行Python代码作为感知媒介,采用图像再现、多样性生成和立体几何合成三种创新管道构建,精确捕捉STEM视觉元素的空间关系和数值特征。数据集特别针对数学、物理等学科中的复杂几何图形和公式推导场景,旨在解决多模态大模型在STEM领域视觉感知模糊和描述失真问题,为代码驱动的视觉理解提供基准训练资源。
README内容:
关于上海交通大学,上海交通大学是中国历史最悠久、享誉海内外的著名高等学府之一,是教育部直属并与上海市共建的全国重点大学。学校创建于1896年,涵盖理、工、医、经、管、文、法、农等学科门类,在国内外享有盛誉。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)