Bitext Innovation International 本次发布的数据集 Media QA Pairs for LLM Conversational Fine-Tuning, 该混合合成数据集专为微调大型语言模型(如GPT、Mistral和OpenELM)设计,通过NLP/NLG技术和自动化数据标注工具生成。数据集包含24627个问题/答案对,涵盖25个意图,分为8个类别,适用于媒体行业的意图检测。每个条目包括标签、用户指令、高层次语义类别、具体意图和虚拟助手预期响应等字段。数据集包含453种实体类型和10种语言生成标签,涵盖广泛的媒体相关查询和任务,旨在训练能够理解和处理多种媒体相关任务的模型。数据集包含286万个标记,适用于训练复杂的语言模型,执行对话AI、问答和虚拟助手任务。数据集采用Community Data License Agreement (CDLA) Sharing 1.0许可证,支持广泛共享和协作。
查看Media QA Pairs for LLM Conversational Fine-Tuning
数据集详情页内容:
关于 Bitext Innovation International , Bitext Innovation International 是一家专注于自然语言处理(NLP)技术的公司,提供多语言文本分析和语义理解解决方案。该公司致力于通过创新技术帮助企业提升客户服务和市场分析的效率。
关于 Databricks , Databricks 数据市场是一个开放的数据市场,旨在跨云、区域和平台无缝共享数据和协作。它允许数据提供者和消费者交换包括数据集、notebooks、应用程序、解决方案加速器和人工智能模型在内的数据资产,且无需依赖特定平台。通过预构建的notebooks和示例数据,消费者能够更快速、高效地评估数据产品。





_1769672084863.jpg)