随着全球数字化进程的推进,多语言自然语言处理(NLP)技术已成为跨境服务、全球社交、多语言内容治理等领域的核心支撑,但长期以来,基于文本推断说话者人口统计、个性特征的相关研究始终面临跨语言标注标准不统一、跨文化主观标签边界模糊的痛点,高质量、标注统一的多语言垂直场景数据集稀缺,成为制约相关技术落地的核心瓶颈之一。
针对这一行业共性问题,语言学习科技企业多邻国正式发布自研多语言说话者属性分类数据集WHOSAIDIT。据公开信息显示,该数据集由多邻国研究团队主导构建,核心目标就是解决仅基于文本推断说话者人口统计与个性特征时的跨语言一致性问题。
目前公开的WHOSAIDIT子集覆盖英语、西班牙语等11种主流语言,包含性别、年龄、饮食偏好等9类二元属性标签,共收录3600条经过精细标注的短文本实例,可覆盖绝大多数日常对话、社交发言等短文本场景的标注需求。为解决跨文化语境下主观标签标注偏差的问题,该数据集在构建阶段创新性采用了人机协作的再标注框架:首先依托大语言模型从初始噪声语料中提炼标注理据,降低人工标注的重复工作量,再通过专家审核与分歧聚焦采样机制对标注结果进行针对性修订,最大限度稳定不同文化背景下的主观标签判定标准,有效提升了跨语言标注的一致性。
作为当前行业内为数不多的跨语言统一标注的说话者属性数据集,WHOSAIDIT的应用潜力覆盖多个垂直领域:在全球社交平台场景中,可支撑多语言环境下的用户画像构建、个性化内容推荐与合规内容治理;在跨境服务场景中,可辅助跨境电商、在线教育等企业实现不同语言用户的需求预判与服务适配;在跨语言舆情分析、公共事务研究等领域,也可为发言者属性的批量识别提供标准化的算法训练基准。
业内分析指出,当前全球数据要素市场中,高质量的垂直场景标注数据集是人工智能产业的核心生产资料,WHOSAIDIT的发布不仅填补了多语言说话者属性分类领域的基准数据空白,可有效降低相关领域的研发门槛,其探索的人机协同标注框架也为工业级大规模数据集的高效、高质量构建提供了可复用的实践参考,对推动多语言NLP技术的规模化落地具有重要价值。





_1769672084863.jpg)