five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

复旦大学发布BiComp大规模文本-图像偏好数据集 破解组合式文生图生成准确率难题

五号数据雷达开源数据市场2026-05-29 05:058
2026年5月27日,复旦大学研究团队在arXiv首发大规模高质量文本-图像偏好数据集BiComp,面向组合式文本到图像生成、多模态偏好对齐两大核心领域,可有效补齐现有多模态模型处理复杂组合提示时准确率不足的行业短板。

随着多模态大模型商业化落地进程加快,文本到图像生成技术已在电商设计、工业原型研发、内容创意等多个领域实现规模化应用,但行业普遍面临共性技术瓶颈:现有模型在处理包含多个属性、多物体关系、数量要求的组合式提示词时,频繁出现属性绑定错误、空间/逻辑关系混乱、计数失准等问题,难以满足专业场景的高精度生成需求,而高质量垂直场景数据集的缺失,是制约该方向技术迭代的核心障碍之一。

2026年5月27日,复旦大学研究团队正式在arXiv平台发布BiComp数据集,这是国内首个专门面向组合式文生图性能增强的大规模高质量文本-图像偏好数据集,可同时支撑组合式文本到图像生成、多模态偏好对齐两大领域的模型训练与基准测试。

据公开信息显示,BiComp数据集总计包含151,976个样本,其中覆盖57,474张原始图像、94,502张编辑后图像,维度覆盖颜色、形状、纹理、空间关系、非空间关系和计数六大组合场景,可全面覆盖各类复杂组合式提示的训练需求。该数据集数据源来自CONPAIR、T2I-CompBench等多个行业公认的公开语料库,构建过程采用全自动化质量管控流水线,经过提示收集、图像生成、描述重生成、编辑和VQA过滤等多轮严格校验,有效保障了数据标注的准确性与样本质量的一致性。

从应用价值来看,BiComp数据集首先可直接用于组合式文本到图像生成模型的训练迭代,帮助模型解决属性绑定、对象关系理解、精准计数等现有技术痛点,未来可广泛落地于电商商品定制化生成、工业设计原型输出、影视场景概念图制作等对生成准确率要求较高的专业场景;在多模态偏好对齐领域,该数据集也可为大模型的多模态语义理解、用户个性化需求匹配提供训练支撑,提升智能交互系统、AIGC内容平台的用户需求匹配度。

作为数据要素市场中AI训练数据的垂直细分品类,高质量多模态数据集是多模态大模型性能突破的核心底座,此次复旦大学发布的BiComp数据集,填补了国内组合式文生图方向高质量偏好数据集的供给空白,既为相关领域的学术研究提供了标准化的测试基准,也为多模态大模型的商业化落地提供了重要的基础数据支撑,对推动多模态AI技术从“可用”向“好用”升级具有重要意义。

查看BiComp

详情页内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们