南开大学 本次发布的数据集 UBENCH, UBENCH是由南开大学软件学院创建的一个综合基准,用于评估大型语言模型(LLMs)的可靠性。该数据集包含3978个多选题,覆盖知识、语言、理解和推理四个主要领域,旨在通过这些题目评估LLMs在不同任务中的表现。UBENCH的数据来源于多个公开数据集,经过特殊处理和严格的质量控制,以确保评估的准确性。该数据集适用于广泛的开放源和闭源模型,特别强调高效的推理和可扩展性。UBENCH的应用领域包括但不限于模型评估和改进,旨在解决LLMs在实际应用中的不确定性和可靠性问题。
README 内容:
关于 南开大学 , 南开大学是中国的一所著名综合性大学,位于天津市,成立于1919年。它是中国教育部直属的重点大学之一,以其在文、理、工、商等多个学科领域的卓越研究和教育而闻名。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)