德国曼海姆大学 本次发布的数据集 WebMall, WebMall是一个多店铺在线购物基准,用于评估基于LLM的Web代理在比较购物场景中的有效性和效率。WebMall由四个模拟在线商店组成,这些商店充满了从Common Crawl中提取的真实产品报价,以及91个跨商店任务。这些任务包括在多个商店中查找特定产品、进行价格比较、将项目添加到购物车以及完成结账等基本任务。高级任务涉及根据模糊的要求搜索产品、识别合适的替代品以及查找兼容产品。与现有的电子商务基准(如WebShop或ShoppingBench)相比,WebMall引入了跨多个商店的比较购物任务。此外,由于它们来自数百个不同的真实世界商店,产品报价更加多样化。WebMall中的任务需要比WebShop中的任务更长的交互轨迹,同时仍然代表现实世界的购物行为。我们使用WebMall对八个基线代理进行了评估,这些代理在观察模式、内存利用和底层大型语言模型(GPT 4.1和Claude Sonnet 4)方面有所不同。最佳性能配置在基本任务集上的完成率分别为75%和53%,F1分数分别为87%和63%。WebMall已公开发布,以促进Web代理的研究,并促进电子商务中的导航、推理和效率方面的进步。
README 内容:
关于 德国曼海姆大学 , 德国曼海姆大学是一所位于德国曼海姆的大学,以其经济学、社会科学和商业学科而知名。数据与网络科学组是该校的一个研究部门,专注于数据科学和网络科学的研究。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)