当前大语言模型在通用自然语言处理任务中已实现突破性进展,但针对拉丁语等使用范围有限、数字化资源稀缺的低资源历史语言,全球范围内长期缺乏标准化、多维度的能力评估基准,相关研究的模型效果难以横向对比,极大制约了古典文献数字化、历史语言研究智能化等领域的发展。
当地时间2026年4月23日,马萨诸塞大学阿默斯特分校联合纽约大学共同构建的首个拉丁语-英语双语问答基准数据集RespondeoQA正式首发于预印本平台arXiv,为低资源历史语言的大模型评估补上了关键一块拼图。
据公开信息显示,RespondeoQA共包含7800组覆盖多元能力维度的问答对,题型涉及拉丁语语法辨析、双向翻译、古典文本韵律分析等多个方向,可全方位测试模型对拉丁语的理解与应用能力。数据集的语料全部来自19世纪至今的权威拉丁语教学资源,涵盖全球主流拉丁语标准化考试真题、专业学术竞赛题目、经典古籍教材扫描件等原始资料,所有语料均经过专业OCR识别提取、古典语言学研究者人工双重校验后完成结构化处理,数据质量与学术权威性得到充分保障。
作为专为评估大语言模型在低资源历史语言领域推理能力设计的基准数据集,RespondeoQA可广泛支撑多个领域的研究与应用落地:在机器翻译领域,该数据集可作为拉丁语-英语双向翻译模型的标准化测试集,量化评估不同模型对古典文本语义、语法的还原准确率,助力古典文献的规模化数字化转译;在跨语言问答领域,基于该数据集优化的大模型可支持古典学研究者、学习者直接通过英语查询拉丁语相关的语法规则、文本内容,大幅降低拉丁语的学习与研究门槛;此外,该数据集还可应用于拉丁语智能教辅工具开发、古典文献内容检索系统优化等多个场景,为数字人文领域的技术落地提供数据支撑。
业内分析指出,RespondeoQA的发布填补了拉丁语任务型评估的长期资源空白,为全球自然语言处理研究者提供了统一的低资源历史语言模型评估标尺,其构建范式也可为古汉语、古希伯来语、古埃及语等其他低资源历史语言的基准数据集开发提供参考,对完善多语言NLP研究体系、推动数据要素在人文社科领域的创新应用具有重要的借鉴意义。





_1769672084863.jpg)