首页 / 开源数据市场 / 正文

斯图加特大学发布NLP领域双数据集填补AI辅助科学写作研究数据空白

五号数据雷达开源数据市场2026-05-21 05:3214

德国斯图加特大学于2026年5月19日在预印本平台arXiv首发ACL Anthology Corpus、LLM-Assisted Paraphrases两大专用数据集，通过“自然语料+合成对照”的双库架构构建大模型影响科学写作的研究底座，可广泛应用于文本风格迁移、科学写作辅助工具研发等领域。

随着大语言模型在学术写作场景的渗透率快速提升，AI辅助改稿、润色已成为全球科研人员的常用工具，但目前行业内缺乏标准化的对照数据集，难以量化分析大模型应用对科学写作风格、学术交流质量产生的实际影响，相关研究的底层数据支撑长期存在缺口。

2026年5月19日，德国斯图加特大学团队于预印本平台arXiv首发两大关联数据集——ACL Anthology Corpus与LLM-Assisted Paraphrases，专门面向大语言模型对科学写作风格的影响研究打造，为文本风格迁移、科学写作辅助等领域的技术研发与学术探索提供了权威数据底座。

本次发布的两大数据集各有侧重，形成了“自然语料+合成对照”的完整数据支撑体系。其中ACL Anthology Corpus为自然语料库，数据全部来自计算语言学领域最具权威性的学术文献聚合平台ACL Anthology，覆盖2020-2024年期间收录的37760篇NLP领域顶级会议、期刊论文，总规模达约2.038亿Tokens，所有文本均通过GROBID工具从原始PDF文档中提取，并完成了标准化预处理，可直接用于模型训练与统计分析。值得注意的是，该数据集特意以ChatGPT正式发布的时间为节点做了分段标注，方便研究者对比大语言模型普及前后，全球NLP领域学术写作风格的自然演变特征。

另一大LLM-Assisted Paraphrases为合成对照数据集，包含3000对经过标注的对照文本，其中一组为科研人员人工撰写的原始段落，另一组为对应的GPT-3.5生成的优化改写版本，所有改写样本均通过模拟科研人员常用的写作优化提示词生成，最大程度贴合真实的AI辅助写作使用场景。

据团队披露，整个数据集的创建流程覆盖ACL Anthology元数据爬取、结构化文本提取、时间维度分段标注、可控LLM改写实验等多个环节，全程采用标准化操作规范，数据质量经过多轮校验，具备较高的学术参考价值。目前该系列数据集主要用于量化分析LLM辅助写作引发的学术文本词汇、句法风格变化，同时可对接主观阅读体验评估实验，解决当前AI辅助科学写作研究中“客观特征”与“用户主观感知”难以关联的核心痛点。

从应用场景来看，该数据集可广泛支撑多个方向的研究与产品研发：一是可作为文本风格迁移技术的基准测试集，助力不同写作风格转换模型的效果评估；二是可为科学写作辅助工具开发商提供训练数据，优化AI润色、改稿的效果，使其输出更符合学术写作规范与读者阅读习惯；三是可为学术出版机构提供研究支撑，用于探索AI辅助写作的识别标准、质量评估体系，甚至推动相关行业规范的制定；四是可为科技传播领域的研究提供数据支持，分析不同写作风格对学术成果传播效率的影响。在全球数据要素市场快速发展的背景下，垂直领域的高质量标注数据集是AI技术创新的核心底座，本次斯图加特大学发布的双数据集填补了NLP领域科学写作方向的专用数据缺口，对推动AI辅助学术交流领域的规范化、科学化发展具有重要意义。

查看ACL Anthology Corpus; LLM-Assisted Paraphrases

详情页内容：

社区讨论

近期热门

斯图加特大学发布NLP领域双数据集 填补AI辅助科学写作研究数据空白

详情页内容：

社区讨论

斯图加特大学发布NLP领域双数据集填补AI辅助科学写作研究数据空白