Anthropic은 연구원과 경쟁자의 개발을 방해하는 숨겨진 가드레일을 사용하여 자사의 AI 모델인 Claude Fable 5를 비밀리에 제한한 것에 대해 사과했습니다. 회사는 Fable이 더 많은 문의를 거부하더라도 이러한 제한 사항이 적용되는 시기에 대한 투명성을 향상할 것이라고 밝혔습니다.

Fable은 Anthropic의 Mythos 클래스 AI 시스템 중 최초로 널리 사용 가능한 모델입니다. Anthropic은 공개 출시하기에는 너무 위험하다고 경고했습니다. 특정 “고위험” 쿼리에 응답하지 못하도록 방지하는 보호 장치를 갖추고 출시되었습니다.

제한 사항 중 하나는 더 큰 모델의 출력을 사용하여 더 작은 모델을 훈련하는 방법인 증류입니다. Fable의 시스템 카드에서 Anthropic은 사용자에게 이러한 변경 사항을 알리지 않고 증류 시도로 인식되는 쿼리에 대한 답변을 변경하고 품질을 저하할 것이라고 표시했습니다.

이제 증류 시도로 의심되는 쿼리는 회사의 초기 주력 모델인 Claude Opus 4.8로 기본 설정되며 사용자는 이러한 상황이 발생할 때마다 알림을 받게 됩니다. 이러한 대체는 마약, 무기와 같은 주제에 대한 광범위한 안전 규정으로 인해 해당 쿼리가 완전히 차단되지 않는 한 생물학, 화학, 사이버 보안과 같은 다른 고위험 도메인에도 적용됩니다.

  Anthropic은 Project Glasswing에 150개 이상의 조직을 추가로 초대합니다.

회사는 과도한 제한으로 인해 안전 조치로 인해 생물학과 같은 분야의 기본 쿼리에 Fable을 실수로 거의 사용할 수 없게 되었다는 점을 인정했습니다. Anthropic은 눈에 보이지 않는 안전 장치를 사용한 것이 실수였다고 인정하고 안전 조치의 투명성이 중요하다고 강조했습니다.

제한 사항을 숨기기로 한 회사의 결정은 AI 연구 커뮤니티로부터 상당한 반발에 직면했습니다. AI 연구 커뮤니티는 평가자와 경쟁자 모두를 위한 모델의 기능을 제한한다고 주장했습니다. Anthropic은 Claude를 활용하여 경쟁 모델을 만드는 것이 서비스 약관을 위반한다고 밝혔으며, 이전에는 DeepSeek를 포함한 경쟁업체가 자사 모델을 산업 규모로 증류했다고 비난했습니다.

Anthropic은 “눈에 보이는 안전 장치는 조사할 수 있으므로 견고해야 하며 제대로 작동하려면 시간이 걸립니다.”라고 썼습니다. “보이지 않는 보호 장치는 더 좁은 범위에서 타겟팅할 수 있으므로 오탐이 거의 없이 신속하게 배송할 수 있습니다. 우리는 이러한 이유로 보이지 않는 보호 장치를 사용했는데 이는 잘못된 절충안이었습니다. 우리가 갖추고 있는 보호 장치와 그 이유에 대한 가시성을 확보해야 합니다. 균형을 제대로 맞추지 못해 죄송합니다.”라고 회사는 덧붙였습니다.

  Nemotron 3 Nano Omni를 사용하면 상담원이 실시간으로 "보고 들을 수" 있습니다.

<시간 />

추천 이미지 크레딧