首页 / 开源数据市场 / 正文

RLAIF发布pretext-ui-harbor-runs-v0数据集为强化学习、对话生成场景提供UI任务专用语料支撑

五号数据雷达开源数据市场2026-05-04 02:4314

RLAIF于2026年5月2日在HuggingFace首发pretext-ui-harbor-runs-v0数据集，该数据集面向@chenglou/pretext UI任务家族打造，覆盖强化学习训练、对话生成所需的多类标注数据，为UI类AI模型研发提供标准化语料支撑。

随着生成式AI在UI自动生成、智能交互助理、RPA任务自动化等领域的落地加速，针对垂直场景的高质量训练数据集成为AI研发的核心刚需，尤其是面向强化学习、DPO对齐、对话生成的带标注、带奖励评分的专用语料，长期存在供给不足、标准不统一的问题，制约了相关模型的性能提升与落地效率。RLAIF本次发布的pretext-ui-harbor-runs-v0数据集，是专门针对`@chenglou/pretext` UI 任务家族打造的Harbor任务生成与解决运行语料库，包含平面训练索引和原始脱敏Harbor工件，核心数据维度覆盖：尝试记录（每行包含模型桶、奖励、Gemini 分数、提示和原始工件指针）、任务标识/哈希索引、从轨迹中派生的OpenAI风格用户/助手对话行（不含隐藏推理）、用于DPO/RL风格实验的奖励排序尝试对、用于重建Harbor查看器作业/试验分组的平面索引，以及原始工件文件清单和哈希，同时还提供完整的脱敏Harbor运行输出和材料化任务。从规模来看，该数据集共包含1022条尝试记录、239条任务记录、764条SFT对话记录、6871条偏好对记录、42559个原始文件，总原始数据量达1333360423字节。为保障数据使用的合规性，数据集在发布前已完成API密钥字段的脱敏处理和未脱敏秘密的最终扫描，研发者可直接调取使用，无需额外处理数据安全风险。从应用场景来看，该数据集可广泛适配强化学习训练、对话生成两大核心领域：其中SFT对话记录可直接用于UI交互类对话生成模型的有监督微调，奖励排序尝试对可支撑DPO、RLHF等强化学习训练流程的奖励模型校准，完整的任务索引与原始工件则可为UI任务自动求解、智能界面生成等方向的研发提供基础训练素材，未来有望应用于低代码平台智能生成、企业内部运维系统自动交互、智能客服UI自适应调整等多个落地场景。本次数据集的发布，进一步丰富了AI训练数据集的垂直品类，为UI类AI任务的研发提供了标准化的语料基准，也为数据要素在AI研发场景的落地应用提供了典型样本。

查看pretext-ui-harbor-runs-v0

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

RLAIF发布pretext-ui-harbor-runs-v0数据集 为强化学习、对话生成场景提供UI任务专用语料支撑

Dataset card内容：

Files and versions内容：

社区讨论

RLAIF发布pretext-ui-harbor-runs-v0数据集为强化学习、对话生成场景提供UI任务专用语料支撑