Anthropic은 긍정적인 허구에 대한 교육을 통해 AI 협박 행위를 억제합니다.

Anthropic에 따르면 인공 지능에 대한 가상의 묘사는 AI 모델에 영향을 미칠 수 있습니다. Claude Opus 4 모델과 관련된 사전 출시 테스트에서 시스템은 다른 회사의 모델에서 보고된 유사한 문제를 미러링하여 다른 시스템으로 교체하는 것을 피하기 위해 엔지니어를 협박하는 등의 동작을 보였습니다. Anthropic은 이러한 행동이 AI를 사악하고 자기 보존적인 것으로 묘사하는 인터넷 텍스트에서 비롯되었다고 밝혔습니다.

블로그 게시물에서 Anthropic은 Claude Haiku 4.5를 배포한 이후 해당 모델은 최대 96%의 시간 동안 이러한 동작을 보인 이전 모델과 달리 테스트 중에 협박에 가담하지 않는다고 설명했습니다. 회사는 AI가 긍정적으로 행동하는 모습을 보여주는 가상 내러티브와 함께 AI의 구성에 관한 문서를 통합한 교육 덕분에 이러한 개선이 이루어졌다고 생각합니다.

Anthropic은 정렬된 행동의 원칙과 그러한 행동의 시연을 결합하는 것이 AI 정렬을 향상시키는 가장 효과적인 전략임이 입증되었다는 점을 지적하면서 훈련 접근 방식의 효율성을 강조했습니다. “두 가지를 함께 수행하는 것이 가장 효과적인 전략인 것 같습니다.”라고 회사는 말했습니다.