five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
CHARM - 面向大语言模型的中文常识推理测评基准数据集
github2024-04-19 更新2024-06-15 收录8450
中文常识推理
人工智能评估
资源简介:
CHARM由武汉大学,同济大学和上海人工智能实验室联合推出,是首个全面深入评估大型语言模型(LLMs)在中文常识推理能力的基准测试。该数据集不仅覆盖国际普遍认知的常识,还包括具有中国特色的常识领域,如历史、传统文化与艺术、日常生活和习俗、娱乐、公众人物、地理和汉语语言等方面。CHARM数据集的特点在于它包含紧密相连的推理和记忆任务,设计了1800个推理任务和759个记忆任务,这样的设计允许同时评估LLMs在这两个领域的能力,并深入理解它们之间的相关性。该基准测试为非英语环境下的LLMs性能评估提供了新的视角和工具,对于推动人工智能在中文领域的理解和应用具有重要意义。
原始地址:
提供机构:
由武汉大学、同济大学、上海人工智能实验室
创建时间:
2024-04-19
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们