five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

国立台湾大学 发布 Topic-aware Comparable Corpus of Chinese Variations 数据集, 应用在 对比语言学、社交媒体语言 领域

五号数据雷达开源数据市场2024-11-20 11:0054
Topic-aware Comparable Corpus of Chinese Variations 是 国立台湾大学 发布的数据集,于 2024-11-17 首发在 arXiv 应用于 对比语言学、社交媒体语言 领域

国立台湾大学 本次发布的数据集 Topic-aware Comparable Corpus of Chinese Variations, Topic-aware Comparable Corpus of Chinese Variations是由国立台湾大学创建的一个主题感知的可比语料库,旨在研究中国大陆普通话和台湾普通话的变体。该数据集通过从中国大陆的Sina Weibo和台湾的Dcard社交媒体平台收集数据,定期更新以反映现代社交媒体上的语言使用情况。数据集的创建过程包括数据摄取、预处理和机器对齐,主要特点是短文本导向、使用标签作为共同主题以及机器对齐。该数据集的应用领域主要集中在对比语言学和翻译研究,旨在解决不同汉语变体之间的语言对比问题。

查看Topic-aware Comparable Corpus of Chinese Variations

关于 国立台湾大学 , 国立台湾大学(National Taiwan University,简称NTU)是台湾地区最具声望的综合性大学之一,成立于1928年,位于台北市。该校在多个学科领域均享有国际声誉,尤其在工程、医学、社会科学和自然科学等领域表现突出。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们