Institute of Formal and Applied Linguistics, Charles University, Prague本次发布的数据集NarrativeAspect-EntangledSynthetic,该数据集名为解耦核心叙事方面(故事五元组),旨在支持潜在嵌入空间中解耦核心叙事方面的研究(Higgins等人,2017)。每条记录包含一个基础故事(anchor)、一个保持相同核心方面的风格变体(stylistic variant),以及三个在单一核心方面(主题、过程或结果)上不同的变体。数据集用于训练多头嵌入模型,每个头专门处理一个核心叙事因素(主题/过程/结果),同时保持对其他因素和表面形式的不可变性。数据集为英文,采用JSON Lines格式,包含训练样本。每个样本包含基础故事文本、风格变体文本、以及在不同核心方面(主题、过程、结果)上变化的变体文本,以及对应的方面ID和元数据。数据集基于一个受控的叙事本体构建,包含30个抽象叙事主题、40个行动过程结构、34个结果类型等。该数据集支持多头部嵌入模型的训练,每个头部专注于一个叙事因素。
查看NarrativeAspect-EntangledSynthetic
关于Institute of Formal and Applied Linguistics, Charles University, Prague,布拉格查理大学的形式与应用语言学研究所是一家专注于语言学研究、教学及应用的学术机构,致力于推动语言学领域的发展。
关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)