随着大语言模型技术与搜索场景的深度融合,具备自主信息检索能力的AI搜索代理正在成为搜索引擎、智能助手等产品的核心升级方向,但行业长期缺乏针对动态新信息、长尾信息的标准化评测基准:传统静态测试集的问题大多来自模型训练覆盖的历史公开信息,无法区分模型输出结果是来自固有知识记忆,还是来自主动搜索的证据整合,导致评估结果无法反映搜索代理的真实能力,成为制约动态信息检索技术迭代的核心瓶颈之一。
针对这一行业痛点,哈尔滨工业大学本次联合小红书发布的LiveBrowseComp深度搜索基准数据集,旨在评估基于大语言模型的搜索代理在超出其固有知识边界时的真实搜索能力。该数据集包含335条人工撰写的问答对,数据量适中,每条问题均依赖于基准构建前90天内发布的最新事实,数据来源于GDELT、TMDB等六个持续更新的公开数据库,并过滤了全球显著性事件以聚焦于可公开验证的长尾信息。数据集的创建过程包括基于时间约束的种子收集、多轮过滤、人工问题编写以及独立网络搜索验证,确保了问题的可解性和唯一性,避免模型通过训练语料记忆直接获取答案。
作为国内首个聚焦大模型动态搜索能力的专业基准数据集,LiveBrowseComp的应用覆盖多个AI技术与产业场景:在基础研究层面,可用于动态信息检索算法的效果验证,推动信息检索技术从适配固定历史库向适配实时更新的公开信息库升级;在大模型评测层面,可专门用于测试大模型搜索工具的调用能力、多源信息整合能力、未知信息探索能力,破解传统静态基准的评估偏差;在产业落地层面,通用搜索引擎、消费领域智能种草助手、垂直行业信息检索系统等产品的研发团队,均可通过该数据集完成产品迭代过程中的标准化测试,提升产品应对新信息、长尾查询的响应准确率。
当前AI评测数据集已经成为人工智能产业发展的核心基础数据要素,针对细分技术场景的专业基准数据集直接决定了技术迭代的方向与落地效果,本次LiveBrowseComp数据集的发布,不仅填补了大模型动态搜索评估领域的基准空白,也为搜索代理能力从“确认已知信息”向“探索未知信息”升级提供了统一的衡量标尺,将进一步推动大语言模型与搜索场景的深度融合,支撑更多实时性、长尾性信息需求场景的AI应用落地。





_1769672084863.jpg)