随着全球企业数字化转型进程加快,AI技术在财务自动化、消费行为分析、企服SaaS等场景的落地需求持续攀升。而垂直场景高质量标注训练数据的供给不足,一直是制约相关AI模型研发效率与准确率的核心痛点,其中支出分类场景因涉及多行业消费条目、分类规则复杂,标注数据的稀缺性尤为突出。
聚焦企业数字化服务与垂直AI训练数据供给的机构Growth Cadet,于2024年7月25日正式在HuggingFace平台上线spendcategory_classifier数据集,填补了支出分类领域标注训练数据的供给空白。
Growth Cadet本次发布的数据集spendcategory_classifier,该数据集包含多个特征,如uuid、Subject、Description、category、subcategory等,每个特征都有其数据类型。数据集分为训练集和测试集,分别包含7788和3338个样本。数据集的配置名为default,数据文件分别存储在data/train-*和data/test-*路径下。
Dataset card内容:
Files and versions内容:
从应用场景来看,spendcategory_classifier数据集作为支出分类领域的高质量标注数据,可广泛应用于多类AI分类任务的训练与优化:在企业财务自动化场景中,基于该数据集训练的分类模型可自动识别报销单据的消费类型、匹配对应支出类目,大幅降低人工审核成本,提升财务报销效率;在消费金融场景中,可用于训练用户支出行为分析模型,辅助机构刻画用户消费画像、优化风控策略与精准营销方案;在企服SaaS领域,可支撑支出分析类工具的智能分类模块,自动为中小微企业生成多维度成本结构报告,助力企业优化运营成本;此外还可应用于公共财政支出合规审计、消费趋势研究等多个领域。
当前我国数据要素市场建设正处于快速发展期,垂直行业细分场景的高质量标注数据集是数据要素供给体系的重要组成部分。此次spendcategory_classifier数据集的发布,进一步丰富了财务数字化领域的训练数据供给,降低了相关AI应用的研发门槛,对于推动数据要素在企服、金融等场景的落地应用,加速各行业数字化转型进程具有积极意义。





_1769672084863.jpg)