OpenAI 发现 AI 模型隐藏特征：可调控「毒性」行为，助力开发更安全 AI

2025 年 6 月 19 日

OpenAI 最新研究发现 AI 模型中隐藏的特征与异常行为密切相关，通过调整这些特征可影响模型毒性。研究有助于理解 AI 模型不安全行为的原因，推动更安全模型的开发。研究人员表示，这些特征类似人类大脑神经活动，涉及讽刺或攻击性行为。此外，通过少量安全代码微调可改善模型行为，此研究基于此前 Anthropic 的相关工作，但仍需进一步探索以完全理解现代 AI 模型。