CHARM - 面向大语言模型的中文常识推理测评基准数据集|中文常识推理数据集|人工智能评估数据集

CHARM - 面向大语言模型的中文常识推理测评基准数据集

github2024-04-19 更新2024-06-15 收录8450

中文常识推理

人工智能评估

资源简介：

CHARM由武汉大学，同济大学和上海人工智能实验室联合推出，是首个全面深入评估大型语言模型（LLMs）在中文常识推理能力的基准测试。该数据集不仅覆盖国际普遍认知的常识，还包括具有中国特色的常识领域，如历史、传统文化与艺术、日常生活和习俗、娱乐、公众人物、地理和汉语语言等方面。CHARM数据集的特点在于它包含紧密相连的推理和记忆任务，设计了1800个推理任务和759个记忆任务，这样的设计允许同时评估LLMs在这两个领域的能力，并深入理解它们之间的相关性。该基准测试为非英语环境下的LLMs性能评估提供了新的视角和工具，对于推动人工智能在中文领域的理解和应用具有重要意义。

原始地址：

立即探测

提供机构：

由武汉大学、同济大学、上海人工智能实验室

创建时间：

2024-04-19