圣玛丽大学 本次发布的数据集 Sports Feedback, 本研究引入了一个创新的合成数据集——Sports Feedback,该数据集由圣玛丽大学的研究人员创建,包含了体育赛事志愿者的反馈信息。这个数据集特别之处在于其领域特定术语和大量的隐性方面,为Aspect-Based Sentiment Analysis任务带来了独特的挑战。该数据集共有480份文档,平均每份文档222个字符,其中75%由GPT-4生成,25%由Gemini 1.0 Ultra生成,以引入内容多样性。数据集的创建过程包括三个步骤:首先由LLM生成初步注释草稿,然后由志愿者从中选择更合适的草稿,最后由专家进行修订和完善。该数据集的35%内容含有隐性方面,为评估大型语言模型在提取隐性方面的能力提供了良好的测试平台。
README 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)