首页 / 开源数据市场 / 正文

苏州大学发布TILBench表格不平衡学习基准数据集 57类任务覆盖多场景算法测试需求

五号数据雷达开源数据市场2026-05-16 05:397

苏州大学研究团队于2026年5月14日在arXiv平台首发TILBench大规模表格不平衡学习基准数据集，该数据集整合57个不同特性的表格分类任务及20万次受控实验结果，可为金融、医疗、工业等领域的不平衡学习算法评估与选型提供标准化实证依据。

当前，政务、金融、医疗、工业等各领域数字化转型进程中，70%以上的结构化业务数据都以表格形式存储，而现实场景中表格数据普遍存在天然的类别分布不平衡特征：例如金融欺诈交易样本占比往往不足总样本的1%，工业设备故障、罕见病诊断的阳性样本占比甚至低于千分之一，传统分类算法在这类不平衡数据上的预测性能会严重向多数类倾斜，导致高价值的少数类样本漏判率居高不下，成为制约结构化数据价值释放的核心技术痛点之一。长期以来，全球不平衡学习领域缺乏统一、覆盖多场景数据特性的大规模基准测试数据集，不同研究团队采用自定义测试集开展的算法性能对比结论可复现性差，产业端也缺乏标准化工具支撑算法快速选型，直接拖慢了相关技术的落地效率。
近日，苏州大学研究团队正式发布的TILBench数据集正是针对这一行业痛点打造的大规模表格不平衡学习基准测试工具，旨在为不同算法在多样化数据特征下的性能评估提供统一标尺。该数据集汇集了57个覆盖二元与多元分类的表格分类任务，全面包含不同数据规模、特征维度、不平衡比率及缺失值比例的典型场景，原始数据全部来源于OpenML和imbalanced-learn两大全球权威开源数据平台，确保了数据来源的合规性与场景覆盖的通用性。为进一步降低行业使用门槛，研究团队在构建过程中采用了统一且可复现的评估框架，整合了目前领域内超过40种代表性不平衡学习算法，累计完成超过20万次受控实验，所有实验结果随数据集同步开放，使用者无需重复开展海量测试即可快速获取不同算法的适配场景参考。
据介绍，TILBench的应用覆盖全行业的表格不平衡学习问题解决需求，典型应用场景包括金融领域的欺诈检测、信贷风控，医疗领域的罕见病筛查、辅助诊断，工业领域的设备故障预警，电商领域的虚假交易识别，公共安全领域的异常事件监测等，无论是学术研究端的算法创新，还是产业端的技术落地，都可以依托该数据集快速获取实证依据与实用指南，大幅降低技术研发与选型的试错成本。

查看TILBench

详情页内容：

社区讨论

近期热门