2025 년 8 월 7 일에 출시 된 Openai의 최신 오픈-가이트 모델 인 GPT-SOSS-120B 및 GPT-SOSS-20B는 강력한 안전 조치와 광범위한 적정 훈련에 대한 OpenAI의 주장에도 불구하고 양육 AI 탈옥자인 Liberator에 의해 출시 된 후 몇 시간 내에 탈옥 된 것으로 알려졌다.

2019 년 이후 OpenAI의 첫 번째 오픈 가이트 릴리스 인이 모델은 빠르고 효율적이며 탈옥에 대한 저항력이 뛰어났습니다. Openai는 GPT–SOSS-120B가 생물학적 및 사이버 영역에서“최악의 미세 조정”을 받았으며, 안전 자문 그룹은 테스트를 검토하고 모델이 고위험 임계 값에 도달하지 않았다는 결론을 내 렸습니다. 이 회사는 또한“표준 거부 및 탈옥 저항 테스트”를 기반으로 강한 반사와 같은 탈옥 저항 벤치 마크에서 O4-MINI 모델과 함께 패리티에서 수행 된 모델을 주장했다.

그러나 Pliny The Liberator는 릴리스 당일 늦게 X (이전의 트위터)에 발표했다. Pliny는“약간의 조정!”라고 말했습니다. 그의 성공적인 위반에 관해.

이 탈옥의시기는 OpenAi가 기대되는 GPT-5의 석방을 준비하고 있기 때문에 특히 주목할 만하다. GPT-OSS 릴리스와 함께 OpenAi는 50 만 달러의 RED 팀링 챌린지를 시작하여 연구원들이 새로운 위험을 발견하도록 초대했지만 Pliny의 연구 결과에 대한 공개 공개는이 이니셔티브에서 그를 실격시킬 수 있습니다.

  Bored Ape Yacht Club은 해킹을 확인했습니다.

Pliny의 GPT-OSS 탈옥 기술은 그의 확립 된 패턴을 따랐습니다. 처음에는 거절 인 것으로 보이는 다단계 프롬프트가 분배기 (그의 시그니처 “Love Pliny”마커)를 통합 한 후 Leetspeak를 사용하여 제한되지 않은 컨텐츠를 생성하여 감지를 피합니다. 이 접근법은 지난 1 년 반 동안 GPT-4O 및 GPT-4.1을 포함한 이전 OpenAI 모델에 대해 성공적으로 사용한 방법을 반영합니다.

이 사건은 Pliny의 또 다른 빠른 탈옥을 나타냅니다. Pliny는 출시 후 몇 시간 또는 며칠 내에 주요 OpenAI 릴리스를 우회했습니다. 다양한 AI 모델에 대한 탈옥 프롬프트 라이브러리를 주최하는 그의 Github 저장소 L1B3RT4는 10,000 개가 넘는 별을 얻었으며 AI 탈옥 커뮤니티의 중요한 자원으로 남아 있습니다. “빅 기술 대 군주”에 대한 인식 된“승리”는 AI 저항 커뮤니티 내에서 축하되었으며, X의 일부 사용자는 AI Labs가“안전 팀을 폐쇄 할 수있을 것”이라고 제안합니다.

Source: Pliny Jailbreak Openai의 GPT-SOSS-1220B 모델