美团点评 本次发布的数据集 Meeseeks, Meeseeks是一个多轮自动指令遵循基准,旨在评估大型语言模型(LLMs)在实际应用中的指令遵循能力。该数据集包含超过700个预合成的数据条目,具有28个不同的能力标签,为指令遵循基准提供了更广泛的覆盖范围。数据集采用参数化方法生成,允许研究人员自定义关键参数,如背景上下文和内容长度,从而生成大规模的合成数据以测试特定的能力。Meeseeks数据集旨在解决现实世界中用户与LLMs之间的多轮对话模式问题,并评估LLMs的自纠正能力。
关于 美团点评 , 美团点评是中国领先的生活服务电子商务平台,成立于2010年,提供包括餐饮、外卖、酒店预订、电影票务等在内的多种在线生活服务。公司以科技创新推动服务业发展,为消费者和商家提供便捷的服务平台。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)