清华大学本次发布的数据集C-ReD,C-ReD是由清华大学等机构联合构建的中文AI生成文本检测基准数据集,涵盖新闻、问答、影评、作文及学术写作五大真实场景领域。数据集包含12,997条人工撰写文本和115,613条由9种大模型生成的AI文本,总规模达128,610条,数据来源于THUC-News、知乎、豆瓣等权威平台。通过精心设计的真实场景提示模板生成多领域文本,并经过自动化过滤与专家人工筛查双重质量控制。该数据集旨在解决中文AI文本检测中模型多样性不足、领域覆盖单一等核心问题,为检测算法提供跨领域、跨模型的评估基准。
README内容:
关于清华大学,清华大学是中国北京市的一所顶尖综合性研究型大学,成立于1911年,以工程、计算机科学、经济管理等学科著称,是中国的“双一流”建设高校之一。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)