five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

巴西坎皮纳斯州立大学 (UNICAMP) 发布 BR-TaxQA-R 数据集, 应用在 税务问答、人工智能 领域

五号数据雷达开源数据市场2025-05-24 07:1328
BR-TaxQA-R 是 巴西坎皮纳斯州立大学 (UNICAMP) 发布的数据集,于 2025-05-22 首发在 arXiv 应用于 税务问答、人工智能 领域

巴西坎皮纳斯州立大学 (UNICAMP) 本次发布的数据集 BR-TaxQA-R, BR-TaxQA-R 是一个针对巴西个人所得税法的问题回答数据集,包括案例法。该数据集包含 715 个问题,来自 2024 年巴西税务局发布的官方问答文档,并增加了 CARF 的法规和行政裁决。我们使用 OpenAI 嵌入进行搜索,使用 GPT-4o-mini 进行答案生成,并实现了检索增强生成 (RAG) 管道。我们比较了不同的文本分割策略,并使用 RAGAS-based 指标将我们的系统与 ChatGPT 和 Perplexity.ai 等商业工具进行了基准测试。结果表明,我们的自定义 RAG 管道在响应相关性方面优于商业系统,表明与用户查询的更强对齐,而商业模型在事实正确性和流畅性方面得分更高。这些发现突出了法律基础生成和语言流畅性之间的权衡。至关重要的是,我们认为在税收等高风险领域,人工专家评估对于确保 AI 生成的答案的法律有效性仍然至关重要。BR-TaxQA-R 公开可在 https://huggingface.co/datasets/unicamp-dl/BR-TaxQA-R 上获得。

查看BR-TaxQA-R

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 巴西坎皮纳斯州立大学 (UNICAMP) , 巴西坎皮纳斯州立大学(UNICAMP)是位于巴西圣保罗州坎皮纳斯市的一所公立研究型大学,成立于1962年,是巴西及拉丁美洲地区顶尖的高等学府之一,以其在科学、工程、医学等领域的卓越研究和教学而闻名。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们