WebDataCommons 本次发布的数据集 T2Dv2, 该数据集名为T2Dv2,包含了来自网络中的常见表格,其中主键实体列均被精细标注了DBPedia类别,并对非主键实体列进行了扩展标注。此外,该数据集不仅包含了“最佳”类别注释,也包含了“尚可”类别的注释。具体规模上,数据集包含了237个主键实体列和174个非主键实体列。其任务是对列类型进行预测和注释。
关于 WebDataCommons , WebDataCommons是一个由卡内基梅隆大学和马普研究所合作的项目,旨在从互联网中提取结构化数据,并提供相关的数据集、工具和接口,以促进开放数据的研究和应用。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)