首页 / 开源数据市场 / 正文

VISTEC-depa AI Research Institute of Thailand发布thai-bar-exam-judging数据集，应用在法律文本自动评分、评估者间一致性分析领域

五号数据雷达开源数据市场2026-05-26 04:299

thai-bar-exam-judging是VISTEC-depa AI Research Institute of Thailand发布的数据集，于2026-05-25首发在HuggingFace应用于法律文本自动评分、评估者间一致性分析领域

VISTEC-depa AI Research Institute of Thailand本次发布的数据集thai-bar-exam-judging，Thai Bar-Exam Judging Corpus是一个泰语法律论述数据集，源自律师考试准备练习，旨在支持大型语言模型（LLM）作为评分者与人类考官之间稳定性的对比研究。数据集包含匿名化的自由形式泰语法律论述，每篇论述由三位经过泰国律师理事会培训的考官进行评分，并对约三分之二的答案提供了基于跨度的内联评论。八名LLM考生在相同条件下参加相同考试，其答案由相同考官进行盲评。此外，150个答案中的15个由两位非主要考官进行交叉评分，形成了一个三评分者稳定性子集，用于相关论文分析。数据规模方面，数据集总大小约为2.3 MB，包含多个配置文件：问题文本（3行）、人类考生论述（126行，对应42名人类考生×3个问题）、LLM考生论述（24行，对应8个LLM模型×3个问题）、交叉评分（30行，对应15个交叉评分单元×2位交叉评分者）以及基于跨度的评论（1164行，包括1079个主要评论和85个交叉评论）。此外，还提供了衍生文件，如宽格式三评分者分数矩阵和预计算的人类评分者间一致性指标（Krippendorff alpha）。该数据集适用于多种任务，包括泰语法律NLP基准测试、基于跨度的评论建模、评估者间一致性研究以及文本分类和生成任务。数据经过匿名化处理，评分者和考生身份均被隐藏，以保护隐私。数据集基于CC-BY 4.0许可证发布，适用于稳定性研究方法论研究，但由于其规模较小（基于三个商法问题），不适用于大规模部署评分或分类器训练。

查看thai-bar-exam-judging

Dataset card内容：

Files and versions内容：

社区讨论

近期热门