G4.19 Knowledge Extraction Team 本次发布的数据集 CLARIN-Emo, 该数据集由波兰语的消费者评论组成,涵盖酒店、医药、产品和大学四个领域。数据集不仅包含评论,还包括属于同一领域的非观点性信息文本(主要是中性的)。每个句子和整个评论都被标注了普鲁特奇克的情感轮中的情感(如喜悦、信任、期待、惊讶、恐惧、悲伤、厌恶、愤怒)以及感知到的情感(正面、负面、中性),其中矛盾的情感使用正面和负面标签同时标注。数据集由六个人独立标注,最终标签由至少两人标注的结果决定,这意味着存在争议的文本和句子可能被标注为对立的情感。每个句子都有自己的标注,但这些标注是在整个评论的背景下创建的。数据集分为训练集、验证集和测试集,每个集合包含完整的评论,没有评论被分割在不同的集合中。
Dataset card 内容:
Files and versions 内容:
关于 G4.19 Knowledge Extraction Team , G4.19 Knowledge Extraction Team是一个专注于知识提取领域的研究团队,致力于开发和应用先进技术,以从大量数据中提取有价值的信息和知识。
关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)