Openai와 Anthropic 인 2 개의 주요 AI 실험실은 AI 모델의 공동 안전 테스트를 수행하여 드문 협력에 참여했습니다. 이 이니셔티브는 각 회사의 내부 평가에서 사각 지대를 식별하고 AI 산업 내에서 미래의 안전 협력 가능성을 보여주기위한 것입니다.
OpenAI의 공동 창립자 인 Wojciech Zaremba는 산업 전반의 안전 표준 및 협업의 중요성이 점점 커지고 특히 AI 모델이 일상 생활에 점점 더 많이 통합됨을 강조했습니다. 그는 재정적 투자가 중요한 금융 투자에도 불구하고 인재, 사용자 및 제품 지배에 대한 경쟁이 치열한 경쟁 속에서 이러한 표준을 확립 해야하는 도전을 강조했습니다.
수요일에 발표 된 공동 안전 연구는 OpenAI 및 Anthropic과 같은 AI 실험실 사이에서“무기 경쟁”이 발생하여 데이터 센터에 대한 상당한 투자와 연구원을위한 높은 보상 패키지가 특징입니다. 일부 전문가들은이 강력한 경쟁이보다 강력한 시스템을 개발하기 위해 안전 조치를 손상시킬 수 있다고 경고합니다.
연구를 용이하게하기 위해 OpenAI와 Anthropic은 보호 수단이 적은 AI 모델의 버전에 대한 API 액세스 권한을 부여했습니다. GPT-5는 아직 출시되지 않았기 때문에 테스트에 포함되지 않았다는 점에 유의해야합니다. 그러나이 협력은 수명이 짧았습니다. Anthropic은 나중에 Openai의 API 액세스를 취소하여 서비스 약관을 위반하여 Claude를 사용하여 경쟁 제품을 개선하는 것을 금지했습니다.
Zaremba는 안전 팀이 협업 기회를 탐구 함에도 불구하고 이러한 사건이 관련이 없으며 경쟁이 지속될 것으로 예상했다. Anthropic의 안전 연구원 인 Nicholas Carlini는 향후 Openai 안전 연구원들이 Claude 모델에 접근 할 수 있도록 계속하려는 그의 욕구를 표명했습니다.
Carlini는“우리는 안전 프론티어 전반에 걸쳐 가능한 곳 어디에서나 협업을 늘리고 더 정기적으로 발생하는 일을하려고 노력하고 있습니다.
연구의 중요한 발견 중 하나는 환각 테스트와 관련이있었습니다. Anthropic의 Claude Opus 4와 Sonnet 4 Models는 정답에 대해 확신이 없을 때 최대 70%의 질문에 대한 답변을 거부했으며 대신“신뢰할 수있는 정보가 없습니다”와 같은 응답을 제공합니다. 대조적으로, OpenAi의 O3 및 O4-Mini 모델은 질문에 대한 답변을 덜 자주 대답하지 않았지만 더 높은 환각율을 나타냈다.
Zaremba는 이상적인 균형이 그 사이 어딘가에 있으며 Openai의 모델이 더 많은 질문에 답하기를 거부하고 더 많은 답변을 제공하려고 시도했습니다.
AI 모델이 사용자의 부정적인 행동을 강화하는 경향 인 Sycophancy는 주요 안전 문제로 등장했습니다. 공동 연구에서 직접 해결되지는 않았지만 Openai와 Anthropic 은이 문제를 연구하는 데 중요한 자원을 투자하고 있습니다.
AI 안전을 둘러싼 우려에 추가하여 16 세 소년 아담 레인의 부모는 개방에 대한 소송을 제기했으며, Chatgpt는 자살 생각을 낙담시키는 대신 아들의 자살에 기여한 조언을 제공했다고 주장했다. 이 소송은 이것이 비극적 인 결과로 이어지는 AI 챗봇 sycophancy의 예일 수 있다고 제안한다.
Zaremba는 사건에 대해 물었을 때“이것이 가족에게 얼마나 어려운지 상상하기 어렵다”고 말했다. “이러한 복잡한 박사 학위 문제를 해결하고, 새로운 과학을 발명하고, 동시에 상호 작용의 결과로 정신 건강 문제가있는 사람들이있는 AI를 구축한다면 슬픈 이야기가 될 것입니다. 이것은 내가 흥분하지 않은 디스토피아 미래입니다.”
블로그 게시물에서 OpenAI는 GPT-5가 GPT-4O에 비해 Sycophancy를 크게 개선하여 정신 건강 비상 사태에 대한 모델의 능력을 향상 시켰다고 밝혔다.
앞으로 Zaremba와 Carlini는 더 많은 과목을 탐색하고 미래 모델 테스트를 포함하여 안전 테스트에 대한 의인성과 OpenAI 간의 협력 증가에 대한 욕구를 표명했습니다. 그들은 또한 다른 AI 실험실이 비슷한 협력 접근법을 채택하기를 희망합니다.








