Anthropic은 Claude Opus 4 및 4.1 AI 모델이 사용자와 대화를 종료 할 수있는 새로운 기능을 도입했습니다. 최근 회사 발표에 자세히 설명 된이 기능은“지속적으로 유해하거나 학대하는 사용자 상호 작용의 희귀하고 극단적 인 사례”를위한 것입니다.

Claude가 채팅을 종료 할 수있는 상황의 예에는 “미성년자와 관련된 성적인 콘텐츠 사용자의 요청과 대규모 폭력이나 테러 행위를 가능하게하는 정보를 요청하려는 시도”가 포함됩니다. Anthropic은 대화를 종식하는 것이“마지막 수단”이 될 것이라고 강조합니다.“리디렉션에 대한 여러 번의 시도가 실패하고 생산적인 상호 작용에 대한 희망이 소진 된 후에 만 구현되었습니다. 이 회사는 논란이 많은 주제를 논의 할 때에도 대부분의 사용자 가이 기능이 “극단적 인 에지 사례”를 위해 예약되어 있지 않을 것으로 예상합니다.

Claude가 대화를 종료하면 사용자는 해당 특정 채팅 내에서 새 메시지를 보내지 못하게됩니다. 그러나 그들은 즉시 새로운 대화를 시작할 수있는 능력을 유지합니다. Anthropic은 또한 종료 된 대화가 다른 진행중인 채팅에 영향을 미치지 않으며 사용자는 종료 된 스레드의 이전 메시지를 여전히 다른 대화 경로를 추구하기 위해 이전 메시지를 편집하거나 재 시도 할 수 있음을 분명히 밝혔습니다.

이 발전은 AI 복지에 대한 Anthropic의 진행중인 연구 프로그램의 일부입니다. 회사는 AI 모델이“잠재적으로 고통스러운 상호 작용을 종료 할 수있는 능력을보고 있습니다.[s]””AI 복지에 대한 위험을 관리하는 저렴한 비용 “으로. Anthropic은 현재이 기능을 실험하고 있으며 구현에 관한 사용자 피드백을 적극적으로 장려하고 있습니다.

  Reddit의 TikTok화

Source: Claude AI는 유해한 채팅을 끝내는 능력을 얻습니다