five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 商业数据市场 / 正文

Nexdata 发布 [SAMPLE] Nexdata | Unsupervised Text Data | 1 PB | Foundation Model | Pre-training Data | Large ... 数据集, 应用在 无监督学习、大规模语言模型 领域

五号数据雷达商业数据市场2025-01-04 07:5218
[SAMPLE] Nexdata | Unsupervised Text Data | 1 PB | Foundation Model | Pre-training Data | Large ... 是 Nexdata 发布的数据集,于 2025-01-04 首发在 Databricks 应用于 无监督学习、大规模语言模型 领域

Nexdata 本次发布的数据集 [SAMPLE] Nexdata | Unsupervised Text Data | 1 PB | Foundation Model | Pre-training Data | Large ..., 该数据集包含两部分内容:一是测试题数据,包含5000万条记录,每条记录包括标题、答案、解析、科目、年级和题型,格式为jsonl,语言涵盖英语、韩语、普通话、法语和德语;二是电子书数据,包含1000万本带有ISBN的书籍,格式为Epub和PDF,语言同样涵盖英语、韩语、普通话、法语和德语。Nexdata公司拥有PB级别的大型语言模型数据、100万小时的音频数据和800TB的标注图像数据,这些数据支持即时交付,能快速提高AI模型的准确性。

查看[SAMPLE] Nexdata | Unsupervised Text Data | 1 PB | Foundation Model | Pre-training Data | Large ...

数据集详情页内容: 

 

关于 Nexdata , Nexdata是一家专注于数据管理和分析的技术公司,提供大数据解决方案和人工智能驱动的数据分析服务。该公司致力于帮助企业优化数据使用,提升业务决策效率。

关于 Databricks , Databricks 数据市场是一个开放的数据市场,旨在跨云、区域和平台无缝共享数据和协作。它允许数据提供者和消费者交换包括数据集、notebooks、应用程序、解决方案加速器和人工智能模型在内的数据资产,且无需依赖特定平台。通过预构建的notebooks和示例数据,消费者能够更快速、高效地评估数据产品。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们