贵阳高新数通信息有限公司 本次登记的数据知识产权 评估大语言模型在HTML文件中关键词提取能力的测试数据集, 1、数据采集:提取指定行业相关的公开网页信息,存为HTML文件; 2、数据处理:1)清除HTML文件中的代码信息(如“css、JavaScript代码”)后,保留文字内容;2)从文字内容中提取与业务相关的关键信息(如主题、发布时间、地址、期限、审查结果等);3)对关键信息进行表达方式分类,表达方式分类包括:文本、表格;4)根据不同的表达方式分类定义JSON包,构成在HTML文件中关键词提取能力的测试数据集; 3、数据应用:将测试数据集包输入LLM模型获取HTML文件主要内容,判断LLM模型的关键词提取能力的准确度和提取速度。
查看评估大语言模型在HTML文件中关键词提取能力的测试数据集
关于 贵阳高新数通信息有限公司 , 贵阳高新数通信息有限公司是一家专注于大数据采集、处理与分析的高新技术企业,致力于为政府和企业提供全面的数据解决方案,助力数字化转型。
关于 贵州省数据知识产权登记平台 , 贵州省数据知识产权登记平台是一个专门用于登记和公示数据知识产权的官方平台。该平台允许企业和个人提交其数据知识产权申请,并进行公示,以便公众查看和提出异议。平台还提供相关服务机构的信息,支持数据知识产权的保护和利用。





_1769672084863.jpg)