因斯布鲁克大学 本次发布的数据集 SustainableQA, SustainableQA数据集是一个包含超过19.5万个问答对的全面数据集,旨在帮助开发能够处理企业可持续发展报告和欧盟分类报告的先进知识助手。该数据集涵盖了环境、社会和治理(ESG)绩效的详细、数据丰富的披露,为投资者、监管者和利益相关者提供了非财务数据的主要来源。数据集的创建过程包括语义块分类、混合跨度提取流程、专门设计的表到段转换策略,以及利用大型语言模型进行精炼和验证。该数据集的生成采用了多阶段流程,包括数据采集、文档预处理、内容分类和问答生成。数据采集阶段通过网页抓取股票交易所网站,收集了61份来自德国和奥地利公司的年度报告和独立可持续发展报告。文档预处理阶段将原始PDF报告转换为结构化、清洁和管理格式。问答数据集生成阶段包括内容分类、高级跨度提取和多类型问答生成。最后,数据集的组成和分析表明,数据集内容丰富,涵盖了ESG、欧盟分类和可持续发展三个关键类别,并为开发高级知识助手提供了有效资源。
关于 因斯布鲁克大学 , 因斯布鲁克大学位于奥地利蒂罗尔州的首府因斯布鲁克,是一所历史悠久的高等学府。该大学成立于1669年,是奥地利最大的教育和研究机构之一,以其在自然科学、人文科学和社会科学领域的卓越研究而闻名。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)