首尔国立大学 本次发布的数据集 KoBALT (Korean Benchmark for Advanced Linguistic Tasks), KoBALT是一个包含700个多项选择题的全面的语言学基准测试,涵盖了五个语言学领域:句法、语义、语用、语音/音位和形态学。该数据集旨在通过引入专家策划的、具有语言学动机的问题来推进大型语言模型在韩语中的评估,这些问题与标准韩语语料库的最小n-gram重叠最小,从而显著降低了数据污染的风险,并允许对真正的语言理解进行更稳健的评估。通过评估20个当代大型语言模型,揭示了它们在各个语言学领域中的性能差异。此外,通过95位标注者的偏好评估,展示了KoBALT评分与人类判断之间的强相关性,从而验证了该基准测试作为衡量韩语语言理解的有效性和区分性。
查看KoBALT (Korean Benchmark for Advanced Linguistic Tasks)
关于 首尔国立大学 , 首尔国立大学是韩国的一所著名研究型大学,位于首尔特别市,是韩国高等教育和研究领域的领先机构之一。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)