华南理工大学 本次发布的数据集 MegaHan97K, MegaHan97K是一个包含超过97,455个汉字类别的超大规模数据集,旨在解决汉字识别领域中的超大规模类别识别问题。该数据集全面支持最新的GB18030-2022标准,并提供了平衡的样本分布,包括手写、历史和合成三个子集。MegaHan97K的创建过程涉及从多个来源收集数据,并进行数据清洗、处理和扩充。该数据集的应用领域包括文化遗产保护、数字应用和社会需求,旨在推动汉字识别技术的发展。
README 内容:
关于 华南理工大学 , 华南理工大学位于中国广东省广州市,是中华人民共和国教育部直属的全国重点大学,是中国著名的理工科大学之一,具有很高的学术声誉和研究成果。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)