five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

西波西米亚大学 发布 Czech Dataset for Complex Aspect-Based Sentiment Analysis Tasks 数据集, 应用在 自然语言处理、情感分析 领域

五号数据雷达开源数据市场2025-08-13 12:0819
Czech Dataset for Complex Aspect-Based Sentiment Analysis Tasks 是 西波西米亚大学 发布的数据集,于 2025-08-12 首发在 arXiv 应用于 自然语言处理、情感分析 领域

西波西米亚大学 本次发布的数据集 Czech Dataset for Complex Aspect-Based Sentiment Analysis Tasks, 本文介绍了一个针对复杂方面情感分析任务的捷克数据集,该数据集包含3.1K条手动标注的餐厅领域评论。数据集基于较早的捷克数据集构建,后者仅包含基本ABSA任务(如方面术语提取或方面极性检测)的单独标签。与前辈不同,我们的新数据集专门为更复杂的任务设计,例如目标-方面-类别检测。这些高级任务需要统一的标注格式,无缝地将情感元素(标签)连接在一起。我们的数据集遵循著名的SemEval-2016数据集的格式。这种设计选择允许轻松应用于跨语言场景,并最终促进与其他语言中等效数据集的跨语言比较。标注过程涉及两名经过培训的标注员,产生了令人印象深刻的标注员间协议率,约为90%。此外,我们提供了24M条未标注的评论,适合无监督学习。我们展示了使用各种基于Transformer的模型获得的稳健的单语基线结果,以及有洞察力的错误分析,以补充我们的贡献。我们的代码和数据集可供非商业研究免费使用。

查看Czech Dataset for Complex Aspect-Based Sentiment Analysis Tasks

README 内容: 

 

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们