Nexdata 本次发布的数据集 [SAMPLE] Nexdata | Unsupervised Text Data | 1 PB | Foundation Model | Pre-training Data | Large ..., 该数据集包含两部分内容:一是测试题数据,包含5000万条记录,每条记录包括标题、答案、解析、科目、年级和题型,格式为jsonl,语言涵盖英语、韩语、普通话、法语和德语;二是电子书数据,包含1000万本带有ISBN的书籍,格式为Epub和PDF,语言同样涵盖英语、韩语、普通话、法语和德语。Nexdata公司拥有PB级别的大型语言模型数据、100万小时的音频数据和800TB的标注图像数据,这些数据支持即时交付,能快速提高AI模型的准确性。
数据集详情页内容:
关于 Nexdata , Nexdata是一家专注于数据管理和分析的技术公司,提供大数据解决方案和人工智能驱动的数据分析服务。该公司致力于帮助企业优化数据使用,提升业务决策效率。
关于 Databricks , Databricks 数据市场是一个开放的数据市场,旨在跨云、区域和平台无缝共享数据和协作。它允许数据提供者和消费者交换包括数据集、notebooks、应用程序、解决方案加速器和人工智能模型在内的数据资产,且无需依赖特定平台。通过预构建的notebooks和示例数据,消费者能够更快速、高效地评估数据产品。





_1769672084863.jpg)