Shahjalal University of Science and Technology 本次发布的数据集 BAN-Cap, BAN-Cap数据集是由Shahjalal University of Science and Technology的研究团队开发的,旨在解决孟加拉语在自动图像字幕生成领域缺乏标准数据集的问题。该数据集扩展自Flickr8k,包含8091张图片,总计40455对英文-孟加拉语字幕,由精通两种语言的孟加拉语母语者进行标注。数据集内容丰富,涵盖多种图像字幕风格,适用于多模态机器翻译、视觉问答等研究领域,特别强调在孟加拉语-英语和英语-孟加拉语翻译中的应用。创建过程中,通过严格的标注和后处理确保数据质量。该数据集不仅支持图像字幕生成,还展示了其在多用途研究中的潜力,如神经机器翻译和文本增强技术。
README 内容:
关于 Shahjalal University of Science and Technology , Shahjalal University of Science and Technology (SUST) 是位于孟加拉国锡尔赫特的一所公立大学,成立于1986年,专注于科学和技术教育。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)