five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

斯图加特大学发布NLP领域双数据集 填补AI辅助科学写作研究数据空白

五号数据雷达开源数据市场2026-05-21 05:3214
德国斯图加特大学于2026年5月19日在预印本平台arXiv首发ACL Anthology Corpus、LLM-Assisted Paraphrases两大专用数据集,通过“自然语料+合成对照”的双库架构构建大模型影响科学写作的研究底座,可广泛应用于文本风格迁移、科学写作辅助工具研发等领域。

随着大语言模型在学术写作场景的渗透率快速提升,AI辅助改稿、润色已成为全球科研人员的常用工具,但目前行业内缺乏标准化的对照数据集,难以量化分析大模型应用对科学写作风格、学术交流质量产生的实际影响,相关研究的底层数据支撑长期存在缺口。

2026年5月19日,德国斯图加特大学团队于预印本平台arXiv首发两大关联数据集——ACL Anthology Corpus与LLM-Assisted Paraphrases,专门面向大语言模型对科学写作风格的影响研究打造,为文本风格迁移、科学写作辅助等领域的技术研发与学术探索提供了权威数据底座。

本次发布的两大数据集各有侧重,形成了“自然语料+合成对照”的完整数据支撑体系。其中ACL Anthology Corpus为自然语料库,数据全部来自计算语言学领域最具权威性的学术文献聚合平台ACL Anthology,覆盖2020-2024年期间收录的37760篇NLP领域顶级会议、期刊论文,总规模达约2.038亿Tokens,所有文本均通过GROBID工具从原始PDF文档中提取,并完成了标准化预处理,可直接用于模型训练与统计分析。值得注意的是,该数据集特意以ChatGPT正式发布的时间为节点做了分段标注,方便研究者对比大语言模型普及前后,全球NLP领域学术写作风格的自然演变特征。

另一大LLM-Assisted Paraphrases为合成对照数据集,包含3000对经过标注的对照文本,其中一组为科研人员人工撰写的原始段落,另一组为对应的GPT-3.5生成的优化改写版本,所有改写样本均通过模拟科研人员常用的写作优化提示词生成,最大程度贴合真实的AI辅助写作使用场景。

据团队披露,整个数据集的创建流程覆盖ACL Anthology元数据爬取、结构化文本提取、时间维度分段标注、可控LLM改写实验等多个环节,全程采用标准化操作规范,数据质量经过多轮校验,具备较高的学术参考价值。目前该系列数据集主要用于量化分析LLM辅助写作引发的学术文本词汇、句法风格变化,同时可对接主观阅读体验评估实验,解决当前AI辅助科学写作研究中“客观特征”与“用户主观感知”难以关联的核心痛点。

从应用场景来看,该数据集可广泛支撑多个方向的研究与产品研发:一是可作为文本风格迁移技术的基准测试集,助力不同写作风格转换模型的效果评估;二是可为科学写作辅助工具开发商提供训练数据,优化AI润色、改稿的效果,使其输出更符合学术写作规范与读者阅读习惯;三是可为学术出版机构提供研究支撑,用于探索AI辅助写作的识别标准、质量评估体系,甚至推动相关行业规范的制定;四是可为科技传播领域的研究提供数据支持,分析不同写作风格对学术成果传播效率的影响。在全球数据要素市场快速发展的背景下,垂直领域的高质量标注数据集是AI技术创新的核心底座,本次斯图加特大学发布的双数据集填补了NLP领域科学写作方向的专用数据缺口,对推动AI辅助学术交流领域的规范化、科学化发展具有重要意义。

查看ACL Anthology Corpus; LLM-Assisted Paraphrases

详情页内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们