苹果推出 AI 训练新方法 用任务清单替代人工评分显著提升模型性能
2025 年 8 月 26 日
苹果公司提出了一种名为「基于清单反馈的强化学习」(RLCF)的新训练方法,通过生成具体任务清单并进行精确评分,提升大语言模型执行复杂指令的能力。与传统依赖人工点赞的 RLHF 方法不同,RLCF 为每条指令制定详细检查清单,并按 0-100 分标准评分,指导模型优化。测试结果显示,该方法在多个评测基准上均取得性能提升,尤其在复杂多步骤任务中表现突出。技术上,团队使用大规模模型构建了包含 13 万条指令的「WildChecklists」数据集,通过逐项评分形成奖励信号。但该方法也存在一定局限,如依赖强大模型和无法替代安全评估机制。专家认为,RLCF 为 AI 训练提供了新思路,未来有望在实际应用中发挥作用。
2026-04-16
苹果为 Siri 团队启动专属 AI 编程训练营 加速语音助手智能化升级2026-03-26
苹果谷歌 AI 合作新细节曝光 可完全访问 Gemini 模型2025-11-26
苹果 AI 在华推进最新迹象:官网问卷仅支持 +86 手机用户提交反馈2025-08-26
苹果推出 AI 训练新方法 用任务清单替代人工评分显著提升模型性能2025-08-14
消息称苹果启动 AI 双轨计划,同步推进自研和外援2025-07-09
苹果酝酿升级 Apple 支持应用:引入 AI 助手,提升客户服务体验2025-06-08
苹果发表论文质疑 AI 推理模型:更像是在记忆,而非真正的推理2025-04-12
苹果国行版 iPhone AI 年中前上市:百度提供智能,阿里负责审核查看更多
体验专业版特色功能,拓展更丰富、更全面的相关内容。