Unidata 本次发布的数据集 Russian Web Tables (RWT), Russian Web Tables (RWT) 是由俄罗斯的Unidata和圣彼得堡国立大学创建的第一个专门针对俄语材料的Web表格数据集。该数据集包含1266731条表格数据,主要来源于俄罗斯维基百科。创建过程中,研究团队开发了专门的工具包,用于爬取和处理俄语维基百科的数据。RWT数据集的应用领域广泛,包括数据提取、知识库构建、问答系统等,旨在解决俄语环境下信息管理的研究需求。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)