KRAFTON 本次发布的数据集 Orak, Orak是一个旨在训练和评估大型语言模型(LLM)代理在多种现实视频游戏中的能力的基准。该数据集包含12种流行的视频游戏,涵盖了所有主要类型,如动作、冒险、角色扮演、模拟、策略和益智游戏。Orak引入了基于模型上下文协议(MCP)的即插即用接口,允许LLM无缝连接到游戏并操作代理模块。此外,Orak还提供了一个微调数据集,其中包含专家LLM在Orak中的所有游戏上的游戏轨迹。该数据集旨在将预训练的LLM转变为有效的游戏代理。Orak提供了一个全面的评估框架,包括通用游戏得分排行榜、LLM战斗竞技场以及对视觉输入状态、代理策略和微调效果的深入分析。Orak不仅为开发通用游戏代理奠定了基础,而且成为在现实、长期决策任务上评估通用LLM的关键基准。
README 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。




_1769672084863.jpg)