查尔斯大学 本次发布的数据集 COSTRA 1.0, COSTRA 1.0是由查尔斯大学数学与物理学院形式与应用语言学研究所创建的一个复杂句子变换数据集,旨在研究句子级嵌入的深层语义和句法关系。该数据集包含4,262个独特的捷克语句子,平均长度为10个单词,展示了15种类型的修改,如简化、概括或正式与非正式语言变体。数据集的创建过程涉及两轮注释,第一轮收集创新的想法,第二轮基于这些想法收集数据。COSTRA 1.0的应用领域包括测试句子嵌入的语义属性,探索句子嵌入空间的拓扑结构,以及寻找句子间的清晰、‘正交’关系。
关于 查尔斯大学 , 查尔斯大学是捷克共和国的一所公立研究型大学,成立于1348年,是中欧最古老的大学之一,提供广泛的学科教育,包括人文科学、社会科学、自然科学和医学等。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。




_1769672084863.jpg)