首页 / 开源数据市场 / 正文

国立台湾大学发布 Topic-aware Comparable Corpus of Chinese Variations 数据集, 应用在对比语言学、社交媒体语言领域

五号数据雷达开源数据市场2024-11-20 11:0054

Topic-aware Comparable Corpus of Chinese Variations 是国立台湾大学发布的数据集,于 2024-11-17 首发在 arXiv 应用于对比语言学、社交媒体语言领域

国立台湾大学本次发布的数据集 Topic-aware Comparable Corpus of Chinese Variations, Topic-aware Comparable Corpus of Chinese Variations是由国立台湾大学创建的一个主题感知的可比语料库，旨在研究中国大陆普通话和台湾普通话的变体。该数据集通过从中国大陆的Sina Weibo和台湾的Dcard社交媒体平台收集数据，定期更新以反映现代社交媒体上的语言使用情况。数据集的创建过程包括数据摄取、预处理和机器对齐，主要特点是短文本导向、使用标签作为共同主题以及机器对齐。该数据集的应用领域主要集中在对比语言学和翻译研究，旨在解决不同汉语变体之间的语言对比问题。

查看Topic-aware Comparable Corpus of Chinese Variations

关于国立台湾大学 , 国立台湾大学（National Taiwan University，简称NTU）是台湾地区最具声望的综合性大学之一，成立于1928年，位于台北市。该校在多个学科领域均享有国际声誉，尤其在工程、医学、社会科学和自然科学等领域表现突出。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

国立台湾大学 发布 Topic-aware Comparable Corpus of Chinese Variations 数据集, 应用在 对比语言学、社交媒体语言 领域

社区讨论

国立台湾大学发布 Topic-aware Comparable Corpus of Chinese Variations 数据集, 应用在对比语言学、社交媒体语言领域