腾讯公司 本次发布的数据集 SlangDIT, SlangDIT数据集是一个包含超过25,000个英汉句子对的数据集,每个句子至少包含一个俚语,并带有相应的跨语言俚语解释。该数据集旨在促进对俚语理解和翻译的研究,特别是针对语境依赖性语义扩展的挑战。数据集的创建过程涉及使用先进的语言模型进行俚语识别、提取、解释生成和一词多义标注。SlangDIT数据集在俚语检测、跨语言俚语解释和俚语翻译等领域具有广泛的应用前景,有助于提升机器翻译的准确性和自然性。
关于 腾讯公司 , 腾讯公司是中国领先的互联网科技公司,提供包括社交通讯、网络游戏、媒体、广告、云计算等多种服务和产品。微信AI模式识别中心是腾讯公司下的一个专注于人工智能领域的研发中心,致力于图像识别、语音识别、自然语言处理等前沿技术的研究与应用。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)