five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】超过300种语言的维基百科嵌入表示数据集

五号雷达开源数据市场2024-03-15 14:4541

wikipedia-2023-11-embed-multilingual-v3是Cohere公司发布的一个多语种嵌入(Embedding)表示的维基百科数据集,该数据集包含了2023年11月1日维基百科在300多种语言中的全部数据集转储,其中每篇文章被切分成段落,并利用先进的Cohere Embed V3多语种嵌入模型进行编码,整个数据集规模达536G,包含约2.5亿个段落嵌入。该数据集为跨语言的语义搜索提供了便捷途径,亦可作为RAG应用的知识库。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们