five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】US-PD-Books - 美国公共领域图书数据集

五号雷达开源数据市场2024-03-11 17:05162
美国公共领域英文图书数据集,由Sebastian Majstorovic编制,囊括逾65万册图书,总计约610亿字。

美国公共领域英文图书数据集,由Sebastian Majstorovic编制,囊括逾65万册图书,总计约610亿字。该数据集源自互联网档案馆(IA)的数字化成果,作为开放图书馆(OL)项目的一部分,仅选取与OL记录相匹配的文本。数据集总大小约400GB,压缩后的Parquet格式约220GB,每个文件最多包含2000本图书。元数据涵盖书名、作者、出版年份及IA与OL的标识符,支持进一步信息拓展。图书以英语为主,亦含多语种,未来计划扩展至其他语言。由于OCR处理的文本质量参差不齐,后续版本拟引入质量评分及LLMs校正文本。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们