five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

伊朗德黑兰大学 发布 PERCUL 数据集, 应用在 文化评估、自然语言处理 领域

五号数据雷达开源数据市场2025-02-13 07:3935
PERCUL 是 伊朗德黑兰大学 发布的数据集,于 2025-02-11 首发在 arXiv 应用于 文化评估、自然语言处理 领域

伊朗德黑兰大学 本次发布的数据集 PERCUL, PERCUL是一个由伊朗多所高校和研究机构合作构建的文化评估数据集,旨在评估大型语言模型对波斯文化的敏感性。该数据集包含592个基于故事的、含有文化细微差别的多项选择题,覆盖了波斯文化的多个方面。数据集通过本土波斯语注释者的输入,确保了文化真实性和准确性,避免了使用翻译作为捷径。数据集的构建过程包括确定文化类别、生成种子话题和元数据、使用LLM生成故事线、人工校正和选择故事、创建理解选项等多个步骤。该数据集的应用领域主要是跨文化交流的自然语言处理评估,特别是针对波斯语的大型语言模型文化理解能力的评估。

查看PERCUL

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 伊朗德黑兰大学 , 伊朗德黑兰大学是伊朗的一所著名公立研究型大学,位于德黑兰市,是伊朗高等教育的重要机构之一,提供多样化的本科及研究生教育。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们