首页 / 开源数据市场 / 正文

清华大学发布EFO_k-CQA基准数据集填补知识图谱复杂逻辑推理评估领域空白

五号数据雷达开源数据市场2026-05-27 05:337

2026年5月26日，清华大学在arXiv首发由香港科技大学知识计算研究组构建的EFO_k-CQA复杂逻辑查询基准数据集，该数据集可支持k≤3的多变量存在性一阶逻辑查询评估，将为AI推理能力测评、知识图谱垂直落地提供标准化测试支撑。

作为大模型推理增强、垂直领域高阶智能化应用的核心基础设施，知识图谱的复杂查询与逻辑推理能力，是决定医疗辅助诊断、司法案情分析、金融风控决策等专业场景落地效果的核心指标。长期以来，行业内缺乏针对不完整知识图谱场景下多变量联合推理的标准化评估基准，现有测试工具大多仅支持单变量推理任务验证，难以匹配真实业务中多条件组合查询的测评需求，极大制约了相关技术的迭代与落地验证。

2026年5月26日，清华大学正式在arXiv平台首发EFO_k-CQA数据集。据公开信息显示，该数据集由香港科技大学知识计算研究组构建，是国内首个面向复杂逻辑查询的专用评估基准，专为评估多变量存在性一阶逻辑查询（EFO_k）的联合排名性能而设计。

该数据集基于通用标准知识图谱扩展而来，覆盖多类常见复杂查询结构，数据规模适配绝大多数实验室与企业研发场景的测试需求。相较于传统单变量推理评估基准，EFO_k-CQA首次引入了更具挑战性的多变量查询模式，可系统性支持对k=3以内复杂推理任务的效果评估，其构建过程通过扩展现有EFO1基准实现，针对性解决了知识图谱不完整场景下多变量联合推理的评估瓶颈，为全球复杂查询回答领域提供了具备扩展性的通用测试平台。

从潜在应用方向来看，EFO_k-CQA数据集可广泛适配多类AI技术的研发测评场景：在大模型研发环节，可用于测评大模型的多条件逻辑推理准确率，推动大模型从通用生成向专业推理方向升级；在垂直领域知识图谱落地场景中，可用于校准医疗、政务、金融等领域知识问答系统的查询精度，例如验证“同时满足高信用评级、近三年无行政处罚、所属行业符合绿色产业目录的企业可申请的专项贷款产品”这类多条件复杂查询的返回结果准确率；此外，该数据集还可为智能客服、科研文献检索、智能制造故障排查等依赖多条件推理的系统研发提供标准化测试工具，是AI基础设施领域的重要公共数据资源。

查看EFO_k-CQA

详情页内容：

社区讨论

近期热门

清华大学发布EFO_k-CQA基准数据集 填补知识图谱复杂逻辑推理评估领域空白

详情页内容：

社区讨论

清华大学发布EFO_k-CQA基准数据集填补知识图谱复杂逻辑推理评估领域空白