five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 数据知识产权登记 / 正文

大语言模型生成文件检测训练数据已成功在浙江省数据知识产权登记平台进行登记,应用在文本生成检测、自然语言处理领域

五号数据雷达数据知识产权登记2025-03-12 02:0520
2025-03-11 , 杭州君同未来科技有限责任公司 旗下 大语言模型生成文件检测训练数据 数据知识产权在 浙江省数据知识产权登记平台 完成登记 , 应用于 文本生成检测、自然语言处理 领域

杭州君同未来科技有限责任公司 本次登记的数据知识产权 大语言模型生成文件检测训练数据, 该数据集能够在多个应用场景中高效检测各类大语言模型生成的文本,包括学术论文、新闻报道、社交媒体内容和虚假评论。在学术诚信方面,它可用于防止论文抄袭和自动生成内容作弊;在媒体与信息安全领域,可帮助识别虚假新闻,遏制信息操纵;在在线平台治理中,助力社交媒体内容审核,维护社区真实互动;在数字版权管理和AI内容监管场景下,支持原创内容保护,防止未经授权的AI生成文本滥用。(1)数据来源:学生撰写的多篇论文和AI生成的文章。 https://github.com/wpc666/LLM-detect (2)数据集结构:该数据集为1个csv文件,共有29164条样本,其中表格第1列表示样本序号;第2列为样本内容;第3列为样本标签,一共分为两个类别,“LLM模型”表示由大语言模型生成,“人类”表示有人工生成,第4列为样本长度,第5列为样本的训练损失。 (3)文本标准化处理:对收集到的文本数据进行标准化处理,包括去除多余空格、标点符号标准化、大小写统一以及停用词去除。 (4)关键语言特征提取:从文本中提取关键语言特征,包括词频统计、TF-IDF特征、句法依赖关系、上下文嵌入表示(如BERT向量)、情感分析特征以及与生成文本检测相关的特征,包括语言模型标志性生成模式、不自然的词序排列等。这些特征有助于模型更准确地识别和区分真实文本与生成文本。 (5)深度学习架构选择:采用基于Transformer的深度学习架构,如BERT或RoBERTa,用于文本嵌入与分类任务。 (6)模型训练与评估:在标注好的生成文本与真实文本数据集上训练分类模型,通过监督学习的方式让模型学习识别生成文本的特征。通过交叉验证和使用不同性能指标(如准确率、F1分数)评估模型的检测能力。 (7)超参数调优:进行超参数调优,包括学习率、批量大小、隐藏层维度、注意力头数等 (8)模型优化与验证:根据评估结果,对模型进行正则化等优化措施。在独立的测试集上验证模型的性能,确保模型在未见数据上也能表现良好。

查看大语言模型生成文件检测训练数据

登记内容:

 

关于 杭州君同未来科技有限责任公司 , 杭州君同未来科技有限责任公司是一家专注于大数据处理和人工智能应用的高新技术企业,致力于提供智慧城市解决方案和技术服务。公司业务涵盖数据挖掘、云计算及智能硬件开发等多个领域。

关于 浙江省数据知识产权登记平台 , 浙江省数据知识产权登记平台是浙江省市场监督管理局(省知识产权局)联合多个部门开发建设的数字化应用,属于‘浙江知识产权在线’的应用场景之一。该平台旨在提供数据知识产权登记公共服务,通过区块链存证或数据保全公证,对数据知识产权进行登记,颁发登记证书,用于数据流通交易、收益分配和权益保护。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们