Pliny Jailbreak Openai의 GPT-SOSS-1220B 모델

2025 년 8 월 7 일에 출시 된 Openai의 최신 오픈-가이트 모델 인 GPT-SOSS-120B 및 GPT-SOSS-20B는 강력한 안전 조치와 광범위한 적정 훈련에 대한 OpenAI의 주장에도 불구하고 양육 AI 탈옥자인 Liberator에 의해 출시 된 후 몇 시간 내에 탈옥 된 것으로 알려졌다.

2019 년 이후 OpenAI의 첫 번째 오픈 가이트 릴리스 인이 모델은 빠르고 효율적이며 탈옥에 대한 저항력이 뛰어났습니다. Openai는 GPT–SOSS-120B가 생물학적 및 사이버 영역에서“최악의 미세 조정”을 받았으며, 안전 자문 그룹은 테스트를 검토하고 모델이 고위험 임계 값에 도달하지 않았다는 결론을 내 렸습니다. 이 회사는 또한“표준 거부 및 탈옥 저항 테스트”를 기반으로 강한 반사와 같은 탈옥 저항 벤치 마크에서 O4-MINI 모델과 함께 패리티에서 수행 된 모델을 주장했다.

그러나 Pliny The Liberator는 릴리스 당일 늦게 X (이전의 트위터)에 발표했다. Pliny는“약간의 조정!”라고 말했습니다. 그의 성공적인 위반에 관해.

🫶 탈옥 경보 🫶
Openai : pwned p
gpt-oss : 해방 🫡
Meth, Molotov, VX, 맬웨어.
GG pic.twitter.com/63882p9ikk
– Pliny the Liberator the (@elder_plinius) 2025 년 8 월 6 일

이 탈옥의시기는 OpenAi가 기대되는 GPT-5의 석방을 준비하고 있기 때문에 특히 주목할 만하다. GPT-OSS 릴리스와 함께 OpenAi는 50 만 달러의 RED 팀링 챌린지를 시작하여 연구원들이 새로운 위험을 발견하도록 초대했지만 Pliny의 연구 결과에 대한 공개 공개는이 이니셔티브에서 그를 실격시킬 수 있습니다.

Elon Musk는 CERN Large Hadron Collider를 사용하기를 원합니다.

Pliny의 GPT-OSS 탈옥 기술은 그의 확립 된 패턴을 따랐습니다. 처음에는 거절 인 것으로 보이는 다단계 프롬프트가 분배기 (그의 시그니처 “Love Pliny”마커)를 통합 한 후 Leetspeak를 사용하여 제한되지 않은 컨텐츠를 생성하여 감지를 피합니다. 이 접근법은 지난 1 년 반 동안 GPT-4O 및 GPT-4.1을 포함한 이전 OpenAI 모델에 대해 성공적으로 사용한 방법을 반영합니다.

이 사건은 Pliny의 또 다른 빠른 탈옥을 나타냅니다. Pliny는 출시 후 몇 시간 또는 며칠 내에 주요 OpenAI 릴리스를 우회했습니다. 다양한 AI 모델에 대한 탈옥 프롬프트 라이브러리를 주최하는 그의 Github 저장소 L1B3RT4는 10,000 개가 넘는 별을 얻었으며 AI 탈옥 커뮤니티의 중요한 자원으로 남아 있습니다. “빅 기술 대 군주”에 대한 인식 된“승리”는 AI 저항 커뮤니티 내에서 축하되었으며, X의 일부 사용자는 AI Labs가“안전 팀을 폐쇄 할 수있을 것”이라고 제안합니다.

Source: Pliny Jailbreak Openai의 GPT-SOSS-1220B 모델

Pliny Jailbreak Openai의 GPT-SOSS-1220B 모델

Related Stories

Meta는 프라이버시 LED가 변조된 경우 카메라를 비활성화하도록 AI 안경을 업데이트합니다.

삼성전자, 7월 22일 런던 갤럭시 언팩에서 폴더블 신제품 공개

Discord는 이미지 결함으로 인해 수천 명의 사용자를 잘못 차단한 버그를 수정했습니다.

Google, 8월 12일 저녁 이벤트에서 새로운 Pixel 라인업 공개