阿里巴巴集团 本次发布的数据集 ESGenius, ESGenius是一个全面评估和提升大型语言模型(LLMs)在环境、社会和治理(ESG)以及可持续发展知识问答方面的能力的基准。ESGenius由两个关键部分组成:ESGenius-QA和ESGenius-Corpus。ESGenius-QA是一个包含1136个多项选择题(MCQs)的集合,这些题目由LLMs生成并由领域专家严格验证,涵盖了广泛的ESG支柱和可持续发展主题。每个问题都系统地链接到其相应的源文本,以便进行透明的评估,并支持检索增强生成(RAG)方法。ESGenius-Corpus是一个精心策划的存储库,包含来自7个权威来源的231个基础框架、标准、报告和建议文件。为了全面评估模型的能力和适应性潜力,我们实施了一个严格的两个阶段的评估协议——零样本和RAG。在50个LLMs(参数范围从0.5B到671B)上的广泛实验表明,最先进的模型在零样本设置中只能达到适度的性能,准确率通常在55-70%左右,突出了ESGenius对LLMs在跨学科环境中的挑战性。然而,采用RAG的模型表现出显著的性能提升,特别是对于较小的模型。例如,“DeepSeek-R1-Distill-Qwen 14B”从63.82%(零样本)提高到80.46%。这些结果证明了将响应基于权威来源的必要性,以增强对ESG的理解。据我们所知,ESGenius是第一个为LLMs和相关增强技术策划的基准,重点关注ESG和可持续发展主题。
README 内容:
关于 阿里巴巴集团 , 阿里巴巴集团是中国最大的电子商务公司之一,成立于1999年,总部位于杭州。公司业务涵盖电子商务、云计算、数字媒体和娱乐等多个领域,是全球领先的互联网科技公司之一。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)