随着多模态大模型商业化落地进程加快,文本到图像生成技术已在电商设计、工业原型研发、内容创意等多个领域实现规模化应用,但行业普遍面临共性技术瓶颈:现有模型在处理包含多个属性、多物体关系、数量要求的组合式提示词时,频繁出现属性绑定错误、空间/逻辑关系混乱、计数失准等问题,难以满足专业场景的高精度生成需求,而高质量垂直场景数据集的缺失,是制约该方向技术迭代的核心障碍之一。
2026年5月27日,复旦大学研究团队正式在arXiv平台发布BiComp数据集,这是国内首个专门面向组合式文生图性能增强的大规模高质量文本-图像偏好数据集,可同时支撑组合式文本到图像生成、多模态偏好对齐两大领域的模型训练与基准测试。
据公开信息显示,BiComp数据集总计包含151,976个样本,其中覆盖57,474张原始图像、94,502张编辑后图像,维度覆盖颜色、形状、纹理、空间关系、非空间关系和计数六大组合场景,可全面覆盖各类复杂组合式提示的训练需求。该数据集数据源来自CONPAIR、T2I-CompBench等多个行业公认的公开语料库,构建过程采用全自动化质量管控流水线,经过提示收集、图像生成、描述重生成、编辑和VQA过滤等多轮严格校验,有效保障了数据标注的准确性与样本质量的一致性。
从应用价值来看,BiComp数据集首先可直接用于组合式文本到图像生成模型的训练迭代,帮助模型解决属性绑定、对象关系理解、精准计数等现有技术痛点,未来可广泛落地于电商商品定制化生成、工业设计原型输出、影视场景概念图制作等对生成准确率要求较高的专业场景;在多模态偏好对齐领域,该数据集也可为大模型的多模态语义理解、用户个性化需求匹配提供训练支撑,提升智能交互系统、AIGC内容平台的用户需求匹配度。
作为数据要素市场中AI训练数据的垂直细分品类,高质量多模态数据集是多模态大模型性能突破的核心底座,此次复旦大学发布的BiComp数据集,填补了国内组合式文生图方向高质量偏好数据集的供给空白,既为相关领域的学术研究提供了标准化的测试基准,也为多模态大模型的商业化落地提供了重要的基础数据支撑,对推动多模态AI技术从“可用”向“好用”升级具有重要意义。





_1769672084863.jpg)