国立台湾大学 本次发布的数据集 Topic-aware Comparable Corpus of Chinese Variations, Topic-aware Comparable Corpus of Chinese Variations是由国立台湾大学创建的一个主题感知的可比语料库,旨在研究中国大陆普通话和台湾普通话的变体。该数据集通过从中国大陆的Sina Weibo和台湾的Dcard社交媒体平台收集数据,定期更新以反映现代社交媒体上的语言使用情况。数据集的创建过程包括数据摄取、预处理和机器对齐,主要特点是短文本导向、使用标签作为共同主题以及机器对齐。该数据集的应用领域主要集中在对比语言学和翻译研究,旨在解决不同汉语变体之间的语言对比问题。
查看Topic-aware Comparable Corpus of Chinese Variations
关于 国立台湾大学 , 国立台湾大学(National Taiwan University,简称NTU)是台湾地区最具声望的综合性大学之一,成立于1928年,位于台北市。该校在多个学科领域均享有国际声誉,尤其在工程、医学、社会科学和自然科学等领域表现突出。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)