北京语言大学 本次发布的数据集 MCTS, MCTS是由北京语言大学信息科学学院创建的多参考中文文本简化数据集,包含3615条人工简化的文本,对应723个原始句子。数据集通过从Penn Chinese Treebank中筛选复杂句子并进行人工简化而创建,涵盖多种重写变换。该数据集旨在评估中文文本简化模型的性能,并为未来的研究提供基准。此外,数据集还包括通过机器翻译和英文文本简化模型获得的用于训练的中文文本简化平行数据,共计691,474句对。MCTS的应用领域包括提供阅读辅助、非母语者语言障碍支持以及作为自然语言处理任务的数据增强方法。
关于 北京语言大学 , 北京语言大学是一所以语言教育和研究为主的综合性大学,尤其在汉语国际教育和多语种教学方面具有显著优势。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)