近年东南亚数字经济进入高速发展期,电商作为核心落地场景,用户规模与交易规模持续领跑全行业。印尼作为东南亚第一人口大国,本土电商市场增速位居区域前列,但印尼语属于全球公认的低资源语言,面向商用场景的公开标注NLP数据集供给长期不足,制约了本地自然语言处理技术的研发迭代与商业化落地。在此背景下,印尼顶尖理工类院校苏门答腊理工学院Sutoyo研究团队于2026年4月28日在预印本平台arXiv正式发布PRDECT-ID印尼电商评论多标签数据集,为该领域的研究与应用补上了重要的基础资源短板。
据介绍,本次发布的PRDECT-ID数据集共收录5400条来自29个商品类别的真实电商用户评论,每条评论均同步标注二元情感标签(正面/负面)与五类情绪标签(快乐、悲伤、恐惧、喜爱、愤怒),可同时支持单任务情感分类与多任务情绪识别的模型训练需求。为保障数据集的普适性与可靠性,团队采用分层抽样策略确保不同商品类别的数据分布均衡,避免模型训练出现类别偏差问题;原始语料完整保留了印尼网络语境中常见的非正式用语、区域民族语言借词、数字简写、表情符号等真实语言特征,避免了传统学术数据集过度清洗后与商用场景脱节的问题。预处理阶段,团队累计完成14个标准化清洗步骤,同步构建了包含140条本地网络俚语的映射词典,在保障语义准确性的前提下完成了标注规则的统一,为低资源语言中混合词汇信号的分类问题研究提供了标准化的基准资源。
从应用价值来看,PRDECT-ID数据集未来可落地多个商用与研究场景:在电商运营侧,可用于搭建智能评论分类体系,自动识别用户对商品的正负向反馈,辅助商家快速迭代商品设计、优化服务流程;在客户服务场景,可用于智能客服的实时情绪识别,当监测到用户出现愤怒、不满等负面情绪时自动触发人工服务升级,提升用户体验;在品牌运营侧,可支撑全渠道用户舆情监测,快速捕捉消费者对新品发布、营销活动的整体情感倾向,为运营决策提供数据参考;在学术研究领域,该数据集可作为印尼语NLP研究的通用基准,推动低资源语言多任务学习、混合语义识别等技术的突破。
当前全球数据要素市场建设正从通用资源向垂直细分、区域特色方向延伸,低资源语言的公开基准数据是实现数字普惠、缩小不同区域数字技术差距的核心支撑。PRDECT-ID的发布不仅填补了印尼语电商场景多标签情感分析数据集的空白,也为东南亚区域的数字经济基础设施建设提供了可参考的样本,后续随着更多垂直领域数据集的开放,将进一步推动区域AI应用的落地与数字经济的普惠发展。





_1769672084863.jpg)