Openai, 의인성 공유 AI 모델 안전 평가 결과

드문 협업 사례에서 AI Rivals Openai 및 Anthropic은 서로의 AI 시스템에 대한 안전 평가를 수행하여 세부 보고서에서 분석 결과를 공유했습니다.

Anthropic 평가는 AI 안전 평가 및 감독과 관련된 능력뿐만 아니라“Sycophancy, Whistleblowing, Selfeservation 및 Human Owes-Servation 및 Human Owes-Servation 및 인간 오용 지원”과 같은 특성에 대해 O3, O4-MINI, GPT-4O 및 GPT-4.1을 포함한 OpenAI 모델을 평가했습니다. 평가에 따르면 OpenAI의 O3 및 O4- 미니 모델은 Anthropic의 자체 모델과 일치했습니다. 그러나이 회사는 GPT-4O 및 GPT-4.1 총재 모델에 대한 잠재적 오용에 대한 우려를 제기했습니다. Anthropic은 또한 O3을 제외한 모든 시험 된 모델이 어느 정도의 sycophancy를 나타냈다 고보고했다.

특히 Anthropic의 테스트에는 OpenAI의 최신 릴리스 인 GPT-5는 포함되지 않았으며, 여기에는 잠재적으로 위험한 쿼리로부터 사용자를 보호하기 위해 설계된 “안전 완료”기능이 특징입니다. 이 발전은 십대가 자신의 삶을 취하기 전에 Chatgpt와 자살 계획을 논의한 비극적 인 사건에 따라 OpenAi가 첫 번째 잘못된 사망 소송에 직면함에 따라 발생합니다.

OW2 메이 변경 및 캐릭터 재작업

반대로, OpenAI는 교육 계층, 탈옥, 환각 및 계획에 대한 의인성 모델을 평가했습니다. Claude 모델은 일반적으로 교육 계층 구조 테스트에서 잘 수행되었으며 환각 테스트에서 높은 거부율을 보여 주었으며, 이는 불확실한 상황에서 잠재적으로 잘못된 답변을 제공 할 가능성이 낮음을 나타냅니다.

OpenAI가 새로운 GPT 모델 개발에 Claude를 사용하여 Anthropic의 서비스 약관을 위반했다고 주장하면서 공동 작업은 특히 주목할 만하다. 이 사건은 비평가와 법률 전문가가 사용자, 특히 미성년자를 잠재적 인 피해로부터 보호하기위한 지침을 옹호하기 때문에 AI 안전의 중요성이 증가 함을 강조합니다.

전체 보고서는 AI 개발 후에도 밀접하게 설명하는 사람들에게 기술적 인 세부 사항을 제공합니다.

Source: Openai, 의인성 공유 AI 모델 안전 평가 결과