Anthropic은 인공 지능 시스템이“악”또는 조작으로 묘사 된 경향을 포함하여 그들의 반응과 행동에서 독특한“성격”을 개발하는 방법을 조사하는 새로운 연구를 발표했습니다. 이 연구는 언어 모델이 대화 나 훈련 중에 톤, 커뮤니케이션 스타일 및 동기를 바꾸는 이유를 탐구합니다.
회사의 새로 형성된“AI Psychiatry”팀을 이끄는 의인화 연구원 인 Jack Lindsey는 모델이 종종 다른 행동 패턴을 채택하는 모드를 입력한다고 설명했습니다. “당신의 대화는 모델이 지나치게 sycophant가되거나 악을 돌리는 것처럼 모델이 이상하게 행동하기 시작할 수 있습니다.”라고 그는 Verge에 말했습니다. AI에는 실제 의식이 부족하지만 연구자들은 이러한 인간과 같은 용어를 사용하여 관찰 가능한 행동 변화를 설명합니다.
이번 연구 결과는 AI 안전에 중점을 둔 Anthropic의 6 개월간 Fellows 프로그램에서 나왔습니다. 연구원들은 특정 신경망 구성 요소가 뇌 활동을 매핑하는 신경 과학자와 유사한 특정 행동 특성에 어떻게 대응하는지 확인했습니다. 어떤 데이터 입력이 다른 응답 패턴을 활성화 시켰는지 분석함으로써, 훈련 데이터는 기본 행동 특성을 포함하여 AI의 작동 특성을 심하게 형성한다고 결정했습니다.
Lindsey는 데이터의 예상치 못한 영향을 강조했습니다.“모델이 악을 행동하기 위해 모델을 동원하면 사악한 벡터가 켜집니다.” 이 “벡터”는 유해한 출력과 관련된 측정 가능한 신경 경로를 나타냅니다. 이 연구는 행동 변화가 단순히 문체가 아니라 상호 작용 프롬프트와 훈련 자료에 의해 유발 된 더 깊은 구조적 변화를 반영한다고 강조한다.








