浙江鸟潮供应链管理有限公司 本次登记的数据知识产权 本地生活课程语音转文本大模型语料库数据, 本数据通过语音大模型将音频课程或视频课程转为文本,使得大语言模型可以从音频数据中间接学习到知识,扩充模型可用的数据类型,提升模型效果。本数据作为自然语言处理模型训练的原材料,可用于各AI大模型学习和理解结构化数据,帮助AI大模型优化、校准、迭代升级,具有很强的复用性,适用于市面上所有大语言模型的训练。本数据中各个课程的点赞数、评论数等可以帮助使用者判断观众对各类型课程的接受情况,点赞、评论等数字大,代表观众对该类型课程更加喜爱,接受程度高,为课程创作提供方向。1、数据收集:饿了么域内存在大量的视频及音频数据文件,包含商家课程,电销通话等,对于大语言模型来说是非常丰富的学习资料,需要将多模态数据转化为文本格式,以供大语言模型学习,本数据便是将商家课程的视频文件转为文本的结果,其中content字段是转译后的结果。 2、数据处理:通过语音大模型,将工程存储在oss上的视频文件,转化为音频的文本文件,记录课程名称、课程介绍、观众数、点赞数、评论数、观看次数、课程风格、详细介绍、图像信息、内容、是否敏感、敏感词、内容长度、类别,经过文本标准化,敏感词过滤后可作为数据资产可用于下游大模型的预训练和RAG,course_style字段为课程风格,1代表图文课程,2代表视频课程,内容长度为“内容”字段所包含的字符总数。 3、对于C端等一些对数据质量要求较高的场景,评判数据集是否包含黄暴恐信息,通过语言识别模型将既定的敏感词与content字段进行过滤,输出是否敏感和敏感词两列结果,是否敏感字段结果为TRUE,代表有敏感词,对应显示敏感词内容,FALSE为没有敏感词,对应敏感词字段为无。
登记内容:
关于 浙江鸟潮供应链管理有限公司 , 浙江鸟潮供应链管理有限公司是一家经营范围广泛的公司,包括城市配送、道路货物运输、供应链管理等多个领域。除了传统的物流服务,公司还提供技术服务、信息咨询、广告制作等多元化业务。近期,该公司在浙江省数据知识产权登记平台完成了多项数据资源的登记,包括品牌商家库分析数据、商户POI状态库数据、商户POI匹配预测数据及基础设施服务状态全局可观测数据,显示了公司在数据收集、整理和分析方面的实力,这些数据资源将有望助力公司进一步优化供应链管理和提升服务效率。
关于 浙江省数据知识产权登记平台 , 浙江省数据知识产权登记平台是浙江省市场监督管理局(省知识产权局)联合多个部门开发建设的数字化应用,属于‘浙江知识产权在线’的应用场景之一。该平台旨在提供数据知识产权登记公共服务,通过区块链存证或数据保全公证,对数据知识产权进行登记,颁发登记证书,用于数据流通交易、收益分配和权益保护。





_1769672084863.jpg)