首页 / 开源数据市场 / 正文

谷歌研究发布 Long-Range Arena 数据集, 应用在长上下文处理、模型评估领域

五号数据雷达开源数据市场2024-10-13 15:45210

Long-Range Arena 是谷歌研究发布的数据集,于 2020-11-08 首发在 arXiv 应用于长上下文处理、模型评估领域

谷歌研究本次发布的数据集 Long-Range Arena, Long-Range Arena是由谷歌研究创建的一个系统性统一基准，专注于评估模型在长上下文场景下的质量。该数据集包含从1K到16K令牌的序列，涵盖文本、自然、合成图像和数学表达式等多种数据类型和模态，要求模型进行相似性、结构和视觉空间推理。数据集创建过程中，设计了一系列具有特定内在结构的探测任务，以评估模型在不同类型数据和条件下的能力。Long-Range Arena旨在解决Transformer模型在处理长序列时的效率问题，为未来更高效架构的研究提供挑战和灵感。

查看Long-Range Arena

README 内容：

关于谷歌研究 , 谷歌研究是谷歌公司旗下的研究部门，致力于推动计算机科学和相关领域的创新，包括人工智能、机器学习、数据分析、云计算等。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

谷歌研究 发布 Long-Range Arena 数据集, 应用在 长上下文处理、模型评估 领域

README 内容：

社区讨论

谷歌研究发布 Long-Range Arena 数据集, 应用在长上下文处理、模型评估领域