随着全球数字人文研究的快速推进,古典文献的数字化、结构化解析成为文化传承与跨学科研究的核心需求,但低资源古典语言的标注数据集匮乏,长期制约相关AI技术落地与研究进展。梵语作为印欧语系的核心古典语言,承载了南亚地区数千年的宗教、哲学、历史与文学成果,其数字化处理的技术价值与文化价值日益凸显。作为专注于先进计算、自然语言处理与数字公共基础设施建设的核心科研机构,先进计算发展中心长期深耕低资源语言处理赛道,本次发布的Naamah数据集正是其在古典语言数据要素领域的最新成果。
据了解,Naamah是由先进计算发展中心·班加罗尔团队构建的大规模梵语命名实体识别(NER)银标准数据集,包含102,942个句子和732,267个标记,覆盖人物、地点和组织三类实体,平均句长7.11词。该数据集在构建路径上实现了核心创新:通过结合DBpedia实体提取能力与24B参数混合推理模型的生成能力,绕过了传统古典语言数据集依赖的语法模板生成规则,利用经过领域优化的语言模型直接生成符合梵语形态特征的合成数据,大幅降低了古典语言数据集的构建成本,有效解决了古典语言标注资源稀缺的行业共性瓶颈。同时,该数据集的训练与测试结果也验证了领域对齐的分词器对低资源古典语言处理的关键支撑作用,为同类语言的技术研发提供了参考范式。
从应用场景来看,Naamah数据集主要面向梵语数字人文研究领域提供数据支撑:一方面可支撑梵语知识图谱构建、历史文献结构化分析等研究工作,帮助研究人员快速从海量梵语文献中提取核心实体信息,梳理历史事件脉络、完成跨文献的内容关联分析;另一方面也可作为基准测试数据集,支撑低资源语言大模型、古典语言处理算法的性能验证与迭代优化。此外,其合成数据的构建思路也可为拉丁语、古汉语、古典阿拉伯语等其他低资源古典语言的数据集建设提供可复用的路径参考,对全球文化数字化传承、数字人文领域的技术发展均具备借鉴意义。





_1769672084863.jpg)