five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】IEPile - 大规模信息抽取语料库

五号雷达开源数据市场2024-03-09 16:54130
IEPile的构建显著提升了大型模型在信息抽取任务,尤其是零样本泛化能力上的表现,为信息抽取研究提供了宝贵的资源。

IEPile,由浙江大学研发,是一个大规模高质量的双语(中英)信息抽取(IE)指令微调数据集,涵盖了命名实体识别(NER)、关系抽取(RE)和事件抽取(EE)三大核心子任务。该数据集包含约200万条指令样本,总计约3.2亿Token,涵盖了通用、医学、金融等多个领域。研究团队通过精心整合26个英文和7个中文IE数据集,并采用提出的“基于schema的轮询指令构造方法”,包括构建难负样本字典和轮询式指令生成,确保了数据集的高质量。IEPile的构建显著提升了大型模型在信息抽取任务,尤其是零样本泛化能力上的表现,为信息抽取研究提供了宝贵的资源。

数据集地址: https://github.com/zjunlp/IEPile
数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们