five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Growth Cadet发布消费类目标注数据集 首发HuggingFace赋能消费数字化场景

五号数据雷达开源数据市场2026-04-23 16:4014
Growth Cadet于2024年7月30日在全球AI开源社区HuggingFace首发spendcategory_datareviewed_gpt4oplusmini消费类目标注数据集,覆盖多维度结构化消费字段,可为消费领域数据分析、垂直AI模型训练等场景提供高质量基础数据支撑。

随着数字经济与实体消费场景的深度融合,消费数据已成为支撑企业经营决策、费控管理、用户运营的核心生产要素,而标注精度高、类目体系完善的消费类结构化数据集,一直是消费数字化领域的稀缺供给,直接制约了消费场景AI应用、数据分析业务的落地效率。

近日,行业数据服务商Growth Cadet正式发布spendcategory_datareviewed_gpt4oplusmini消费类目标注数据集,该数据集于2024年7月30日首发于全球知名AI开源社区HuggingFace,可广泛应用于消费数据治理、消费趋势分析、垂直大模型训练等多个领域。

据公开信息显示,本次发布的数据集包含uuid、Subject、Description、category、subcategory等多个结构化字段,各字段均设置了统一的数据标准,降低了后续数据治理的适配成本。目前该数据集已开放训练集下载,训练集共包含5116个标注样本,数据集总大小为50336666.7331876字节,压缩后下载大小为3424138字节。

查看spendcategory_datareviewed_gpt4oplusmini

从应用价值来看,该消费类目标注数据集可覆盖多类消费数字化典型场景:其一,可用于智能费控、个人财务管理类工具的消费分类模型训练,基于标注好的类目、子类目体系,模型可自动识别消费描述对应的类目,大幅降低人工归类的人力成本;其二,可支撑零售品牌、市场调研机构的消费数据标准化治理,将多渠道零散的非结构化消费数据按照统一类目体系归类,为消费趋势研判、品类营销策略制定提供数据基础;其三,可作为消费领域垂直大模型的微调语料,提升通用大模型在消费意图识别、消费场景问答等场景的准确率。

Dataset card内容:

Files and versions内容:

业内分析指出,当前我国数据要素市场正处于高速发展期,消费数据作为和实体经济绑定最深、应用场景最广的数据品类之一,高质量标注数据集的持续供给,是打通消费数据流通、应用全链路的核心基础。本次Growth Cadet发布的细分领域标注数据集,进一步丰富了消费类公开数据集的供给结构,也为中小团队开展消费领域数据分析、AI应用研发降低了数据获取门槛,对推动消费场景数字化落地具有积极意义。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们