香港科技大学 本次发布的数据集 OSVBench, OSVBench是一个用于评估大型语言模型(LLMs)在生成操作系统内核验证任务相关完整规范代码方面的基准。该基准将规范生成问题定义为在语法和语义的限定范围内进行程序合成问题,并为LLMs提供编程模型。LLMs需要理解提供的验证假设和潜在的语法和语义空间,然后在操作系统的高级功能描述的指导下,为可能存在错误的操作系统代码实现生成完整的规范。该基准建立在真实的操作系统内核Hyperkernel之上,总共包含245个复杂的规范生成任务,每个任务大约包含20k到30k个token。我们对12个LLMs的综合评估表明,当前LLMs在操作系统验证的规范生成任务上的性能有限。它们在基准测试上的性能差异显著,突出了它们处理长上下文代码生成任务的能力差异。评估工具包和基准测试可在https://github.com/lishangyuhkust/OSVBench获得。
关于 香港科技大学 , 香港科技大学(HKUST)是一所位于中国香港的国际化研究型大学,以其在科学研究和创新教育领域的卓越表现而闻名。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)