five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】LongAlign-10K - 大模型长上下文对齐数据集

五号雷达开源数据市场2024-03-02 16:25102
LongAlign-10k是清华大学提出的一个针对大模型在长上下文对齐任务中面临的挑战而设计的数据集,包含10,000 条长指令数据,长度在 8k-64k 之间。

LongAlign-10k是清华大学提出的一个针对大模型在长上下文对齐任务中面临的挑战而设计的数据集,包含10,000 条长指令数据,长度在 8k-64k 之间。在构建过程中,该数据集首先从书籍、百科全书、学术论文、代码等9大不同领域汲取素材;然后运用Claude 2.1大模型,在长篇背景之下生成多样化任务与答案。此数据集旨在测评大模型于长上下文中的表现,及其对10k-100k长度任务指令的遵循能力。

数据集地址:
https://github.com/THUDM/LongAlign
https://huggingface.co/datasets/THUDM/LongAlign-10k
数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们