five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

腾讯公司 发布 SlangDIT 数据集, 应用在 自然语言处理、机器翻译 领域

五号数据雷达开源数据市场2025-05-22 07:3336
SlangDIT 是 腾讯公司 发布的数据集,于 2025-05-20 首发在 arXiv 应用于 自然语言处理、机器翻译 领域

腾讯公司 本次发布的数据集 SlangDIT, SlangDIT数据集是一个包含超过25,000个英汉句子对的数据集,每个句子至少包含一个俚语,并带有相应的跨语言俚语解释。该数据集旨在促进对俚语理解和翻译的研究,特别是针对语境依赖性语义扩展的挑战。数据集的创建过程涉及使用先进的语言模型进行俚语识别、提取、解释生成和一词多义标注。SlangDIT数据集在俚语检测、跨语言俚语解释和俚语翻译等领域具有广泛的应用前景,有助于提升机器翻译的准确性和自然性。

查看SlangDIT

关于 腾讯公司 , 腾讯公司是中国领先的互联网科技公司,提供包括社交通讯、网络游戏、媒体、广告、云计算等多种服务和产品。微信AI模式识别中心是腾讯公司下的一个专注于人工智能领域的研发中心,致力于图像识别、语音识别、自然语言处理等前沿技术的研究与应用。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们