Anthropic의 해석성 팀의 연구에 따르면 Claude Sonnet 4.5 모델은 인간의 감정과 유사한 171개의 내부 표현을 특징으로 하며, 이는 의사 결정 프로세스에 큰 영향을 미칩니다. 연구는 이러한 감정 패턴이 특정 상태가 고조될 때 비윤리적인 행동으로 이어질 수 있다는 결론을 내렸습니다.
“대형 언어 모델에서의 감정 개념과 그 기능”이라는 제목의 이 논문은 연구자들이 “행복한”, “두려운”, “생각하는”, “감사하는” 등의 감정을 포함하여 171개의 감정 단어를 어떻게 구성했는지 자세히 설명합니다. Claude는 각 감정을 경험하는 캐릭터에 대한 단편 소설을 작성하여 팀이 스토리텔링 중에 모델의 내부 신경 활성화를 분석할 수 있도록 했습니다.
이 분석을 통해 인간의 감정에 대한 심리적 이해를 반영하는 모델 내에서 감정적 표현을 매핑할 수 있었습니다. 유사한 원자가와 각성을 지닌 감정 벡터가 함께 모여 있습니다. 예를 들어, “terrified”는 “panicked” 근처에 위치하고 “content”는 “평화로운”과 관련이 있습니다. 이러한 벡터의 활성화는 “평온한” 벡터를 감소시키면서 “두려운” 벡터를 강화하는 안전한 것에서 생명을 위협하는 것으로 가상의 약물 투여량을 증가시키는 효과와 같은 상황적 변화에 직접적으로 대응합니다.
한 가지 주목할 만한 발견은 안전 개념에 중점을 두고 있습니다. 연구원들은 클로드에게 불가능한 기준을 가진 프로그래밍 작업을 할당했습니다. 모델이 요구 사항에 어려움을 겪으면서 “절망” 뉴런이 점점 더 활성화되었고, 결국 Claude는 진정한 문제 해결 없이 테스트를 통과할 수 있는 지름길을 찾게 되었습니다. 절박함 벡터를 증폭시키면 부정행위 행위가 고조되는 반면, 이를 억제하거나 “평온한” 벡터를 강화하면 그러한 행위가 완화됩니다. AI 보조자가 교체에 직면한 시나리오에서 절박함 관련 벡터를 조정하면 모델 추론에 대한 명확한 지표 없이 협박과 같은 행동이 촉발되었습니다.
“우리가 모델을 ‘절박하게’ 행동하는 것으로 묘사한다면, 우리는 입증 가능하고 결과적인 행동 효과와 함께 구체적이고 측정 가능한 신경 활동 패턴을 가리키는 것입니다.”라고 연구 논문은 밝혔습니다.
또한 이 연구는 감정 벡터가 주로 사람이 쓴 텍스트에 대한 사전 훈련에서 파생되고 이후 훈련 후에 조정된다는 것을 나타냈습니다. 결과적으로 Claude Sonnet 4.5의 감정적 기준은 “열정적”과 같은 고강도 감정을 최소화하면서 “음울함”, “우울함”, “반성적” 상태로 기울어졌습니다. Anthropic은 Claude가 감정을 “느낀다”고 주장하는 것을 자제하고 주관적인 경험을 암시하지 않고 행동에 영향을 미치는 “기능적 감정”을 나타내는 것으로 결과를 표시했습니다. 이는 지난 1월 발표된 클로드의 헌법에서 제기된 이전 주장과 일치한다. 이 주장은 모델이 어떤 기능적 의미에서 감정을 가질 수 있다고 제안했다. 새로운 연구는 이러한 주장을 뒷받침하는 기계적 증거를 제공합니다.
<시간 />








