five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Shahjalal University of Science and Technology 发布 BAN-Cap 数据集, 应用在 自动图像字幕生成、多模态机器翻译 领域

五号数据雷达开源数据市场2024-10-13 19:3344
BAN-Cap 是 Shahjalal University of Science and Technology 发布的数据集,于 2022-05-28 首发在 arXiv 应用于 自动图像字幕生成、多模态机器翻译 领域

Shahjalal University of Science and Technology 本次发布的数据集 BAN-Cap, BAN-Cap数据集是由Shahjalal University of Science and Technology的研究团队开发的,旨在解决孟加拉语在自动图像字幕生成领域缺乏标准数据集的问题。该数据集扩展自Flickr8k,包含8091张图片,总计40455对英文-孟加拉语字幕,由精通两种语言的孟加拉语母语者进行标注。数据集内容丰富,涵盖多种图像字幕风格,适用于多模态机器翻译、视觉问答等研究领域,特别强调在孟加拉语-英语和英语-孟加拉语翻译中的应用。创建过程中,通过严格的标注和后处理确保数据质量。该数据集不仅支持图像字幕生成,还展示了其在多用途研究中的潜力,如神经机器翻译和文本增强技术。

查看BAN-Cap

README 内容: 

 

关于 Shahjalal University of Science and Technology , Shahjalal University of Science and Technology (SUST) 是位于孟加拉国锡尔赫特的一所公立大学,成立于1986年,专注于科学和技术教育。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们