乔治城大学 本次发布的数据集 NtoN Construction Dataset, 该数据集是针对英语中的NtoN结构(即名词+介词+名词)构建的,由乔治城大学的研究者创建。数据集包含了从COCA中提取的6599个实例,涵盖了两种语义类型:连续性和并置性。数据集在构建过程中,研究者通过固定窗口提取、分词、排除干扰项等步骤,最终形成了经过人工标注的、用于研究BERT模型对NtoN结构理解能力的数据集。该数据集旨在解决自然语言处理中对特定语言结构理解的问题。
关于 乔治城大学 , 乔治城大学位于美国华盛顿特区,是一所私立研究型大学,成立于1789年。该校以其国际关系、法律、外交和公共政策等领域的教育与研究闻名,培养了众多政界、商界和学术界的领袖人物。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)