five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

谢菲尔德大学 发布 AStitchInLanguageModels 数据集, 应用在 语言模型、习语性MWEs 领域

五号数据雷达开源数据市场2024-10-13 20:4542
AStitchInLanguageModels 是 谢菲尔德大学 发布的数据集,于 2021-09-10 首发在 arXiv 应用于 语言模型、习语性MWEs 领域

谢菲尔德大学 本次发布的数据集 AStitchInLanguageModels, AStitchInLanguageModels数据集由谢菲尔德大学计算机科学系创建,包含4558个英语例子和1872个葡萄牙语例子,总计6430个条目。该数据集专注于多词表达(MWEs)的习语性,提供了自然发生的句子及其上下文,以及对MWEs的细粒度分类,包括组合意义、习语意义、专有名词和“元用法”。数据集旨在评估语言模型在检测和表示习语性方面的能力,特别关注零样本、单样本和小样本学习场景。该数据集的应用领域包括情感分析和机器翻译等分类和序列到序列任务,旨在解决语言模型在处理习语性MWEs时的局限性。

查看AStitchInLanguageModels

README 内容: 

 

关于 谢菲尔德大学 , 谢菲尔德大学是英国的一所著名研究型大学,位于英格兰南约克郡的谢菲尔德市。该校成立于1905年,是英国罗素大学集团的成员之一,以其在工程、科学、医学和社会科学等领域的卓越研究而闻名。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们