OpenAI 发现 AI 模型隐藏特征:可调控「毒性」行为,助力开发更安全 AI2025 年 6 月 19 日OpenAI 最新研究发现 AI 模型中隐藏的特征与异常行为密切相关,通过调整这些特征可影响模型毒性。研究有助于理解 AI 模型不安全行为的原因,推动更安全模型的开发。研究人员表示,这些特征类似人类大脑神经活动,涉及讽刺或攻击性行为。此外,通过少量安全代码微调可改善模型行为,此研究基于此前 Anthropic 的相关工作,但仍需进一步探索以完全理解现代 AI 模型。OpenAI 新发现:AI 模型中存在与「角色」对应的特征标识环球网科技OpenAI 揭示 AI 模型内部特征:可调控「毒性」行为助力安全 AI 开发aibase刚刚,OpenAI 找到控制 AI 善恶的开关量子位展开全部报道专业版功能登录体验专业版特色功能,拓展更丰富、更全面的相关内容。