Sharif University of Technology 本次发布的数据集 FaMTEB, FaMTEB是一个大规模的波斯语文本嵌入基准,由Sharif University of Technology创建。该数据集包含63个数据集,涵盖7个任务,包括分类、聚类、成对分类、重排、检索、摘要检索和语义文本相似度。数据集由现有数据、翻译数据和通过大型语言模型生成的新合成数据组合而成,为波斯语语言模型提供了多样化的评估框架。
Dataset card 内容:
Files and versions 内容:
关于 Sharif University of Technology , 谢里夫理工大学是伊朗最著名的科技大学之一,位于德黑兰。该校以工程和科学领域的教育与研究闻名,培养了大量的高素质人才,对伊朗的科技发展起到了重要作用。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)