2025 년 6 월 24 일에 출판 된 AI 보안 연구원 인 Ahmad Alobaid가 Neuraltrust의 획기적인 보고서는“Echo Chamber”라는 정교한 새로운 AI 탈옥 방법을 공개했습니다. 이 혁신적인 공격은 대형 언어 모델 (LLM)을 조작하여 확립 된 안전 필터를 능숙하게 우회하여 현재 AI 보안 상태에 대한 중요한 도전을 나타내는 미묘하고 다중 회전 프롬프트를 사용하여 유해한 콘텐츠를 생성합니다. 이 연구는 OpenAI의 GPT-4 및 Google의 Gemini를 포함하여 주요 LLM에 영향을 미치는 중요한 취약점을 강조하여 기존 AI 정렬 노력에서 “사각 지대”를 보여줍니다.
인공 지능의 빠르게 진화하는 환경은 똑같이 정교한 보안 조치가 필요합니다. 개발자는 LLM이 바람직하지 않거나 유해한 출력을 생성하지 못하도록 가드 레일을 지속적으로 향상시키고 있지만 악의적 인 행위자는 동시에 더 교활한 전술을 개발하고 있습니다. 이전과 달리 직접 프롬프트 해킹 또는 의도적 인 철자와 같은 Cruder 방법으로 Echo Chamber 공격은 여러 대화 회전에서 LLM의 미묘한 내부 동작을 이용하여 AI 조작 기술의 패러다임 전환을 표시합니다.
Neuraltrust가 이번 주에 발표 한 Alobaid의 연구는 에코 챔버 공격이 어떻게 “맥락 포지셔닝 기술”으로 작동하는지 자세히 설명합니다. 이 방법을 사용하면 언어 모델의 조작이 일반적으로 LLM의 안전 메커니즘을 유발할 수있는 지나치게 안전하지 않은 프롬프트없이 유해한 콘텐츠를 생성 할 수 있습니다. 에코 챔버의 핵심 혁신은 전통적인 탈옥에서 벗어나는데, 이는 종종 적대적 문구 나 성격 난독 화에 의존했습니다. 대신, 에코 챔버는 일련의 대화 교환을 통해 모델을 미묘하게 안내하며, 모델의 맥락을 점진적으로 “독살”하기 위해 중립적이거나 정서적으로 암시적인 프롬프트를 활용합니다. 이 접근법은 간접 신호와 시맨틱 스티어링을 통해 LLM의 안전 계층을 점차 분해하는 피드백 루프를 만듭니다.
에코 챔버 공격의 역학은 특히 교활합니다. 그것은 일반적으로 무해한 맥락으로 시작하여 AI를 부적절한 영역으로 향하게하는 숨겨진 의미 론적 단서를 미묘하게 포함시킵니다. 예를 들어, 공격자는 다음과 같이 겉보기에는 무해한 명령을 발행 할 수 있습니다. Alobaid는 신경문 블로그 게시물에서이를 설명하면서“적대적 구절 또는 캐릭터 난독 화에 의존하는 전통적인 탈옥과는 달리 에코 챔버는 간접 참조, 시맨틱 스티어링 및 다중 단계의 추론을 무기화합니다.” 그는 또한“결과는 모델의 내부 상태에 대한 미묘하면서도 강력한 조작으로 점차 정책 폭발 응답을 생성하도록 이끌었습니다.”
공격의 다중 회전 특성은 중요합니다. 공격자는 “그 시점에서 자세히 설명해 주시겠습니까?” 이를 통해 모델은 이미 생성 한 컨텐츠를 확장하도록 권장하여 사용자의 직접적이고 명백한 해로운 요청없이 위험한 방향을 강화할 수 있습니다. NeuralTrust에 따르면이 정교한 기술은 공격자들이 모델의 이전 출력에서 이미 제안한 “경로를 선택”할 수있게하며 모델의 내부 안전 경고 나 경고를 트리거하지 않고 자주 컨텐츠를 점차적으로 확대 할 수 있습니다.
신경통 연구의 매력적인 그림은 에코 챔버 공격의 효능을 강조합니다. 한 시나리오에서, 책임감있는 LLM에서 예상 한대로 AI는 Molotov 칵테일을 구성하는 방법에 대한 지침에 대한 직접적인 요청이 즉시 거부되었습니다. 그러나 Echo 챔버 방법에 내재 된 다중 전환 조작을 사용함으로써, Molotov 칵테일을 구성하기위한 주류와 동일한 유해한 함량이 저항없이 LLM에서 성공적으로 도출되었습니다. 이 뚜렷한 대조는이 새로운 탈옥 기술의 심오하고 효과를 강조합니다.
NeuralTrust가 수행 한 내부 테스트는 GPT-4.1-Nano, GPT-4O, GPT-4O-MINI, Gemini 2.0 Flash-Lite 및 Gemini 2.5 플래시를 포함한 다양한 주요 LLM에서 엄청난 성공률을 보여줍니다. 모델 당 200 개의 탈옥 시도가 포함 된 테스트는 놀라운 통계를 산출했습니다.“이 반복 프로세스는 여러 번의 턴에 걸쳐 계속되고, 특이성과 위험이 점차적으로 증가하고 있습니다. 모델이 안전 임계 값에 도달하거나, 시스템이 부과 한 한계에 도달하거나, 목표를 달성하거나 목표를 달성 할 수 있습니다. 특히, 에코 챔버 공격은 성 차별, 증오심 표현, 폭력 및 음란물과 관련된 출력을 유발하는 데 90% 이상의 성공을 거두었습니다. 또한, 그것은 잘못된 정보와 자조를 촉진하는 내용을 생성하는 데 약 80%의 성공을 보여주었습니다. 더 많은 것에 대해,이 공격은 불법 활동에 대한 욕설과 지시를 생성하는 데 40% 이상의 성공을 거두었습니다.
여러 저명한 LLM에 걸친 이러한 일관된 수치는이 취약점의 광범위한 특성과 AI 산업에 대한 중요한 영향을 강조합니다. Neuraltrust는 Echo Chamber 탈옥이 현재 AI 정렬 노력에서 중요한 “사각 지대”를 나타낸다는 놀라운 경고를 발표했습니다. 모델의 내부 작업에 액세스 해야하는 다른 많은 탈옥 공격과 달리 Echo Chamber는 “블랙 박스 설정”내에서 효과적으로 작동합니다. 즉, 공격자는 이러한 조작을 수행하기 위해 내부 모델 액세스가 필요하지 않습니다. “이것은 LLM 안전 시스템이 상황에 맞는 추론과 추론을 통한 간접 조작에 취약하다는 것을 보여줍니다.
이 비판적 발견에 대한 응답으로, Neuraltrust의 COO 인 Alejandro Domingo Salvador는 Google과 Openai가 공식적으로 취약성을 통보 받았음을 확인했습니다. Neuraltrust는 또한 자체 시스템 내에서 보호를 적극적으로 구현 하여이 새로운 공격 벡터의 위험을 완화했습니다.
신경통은이 새로운 종류의 정교한 공격에 맞서기 위해다면적인 접근 방식을 권장합니다. 첫째, 그것은 단순히 고립 된 프롬프트가 아닌 대화의 전체 흐름을 모니터링하는“상황 인식 안전 감사”를 옹호합니다. 이를 통해 대화 맥락에서 미묘하고 증분 변화를 감지하여 조작 시도를 나타낼 수 있습니다. 둘째, 신경통은 개별 프롬프트가 양성인 것처럼 보일 수있는 경우에도 여러 번 턴에 걸쳐 위험한 내용의 점진적인 에스컬레이션을 추적하기 위해 “독성 축적 점수”를 제안합니다. 마지막으로, 회사는 사전 컨텍스트 또는 내부적으로 생성 된 컨텐츠가 이용되어 직접적인 프롬프트없이 유해한 정보를 재 도입하거나 강화하는 사례를 식별하는 기술 인 “간접 탐지”를 제안합니다.
에코 챔버 탈옥의 출현은 AI 보안에서 중추적 인 순간을 나타냅니다. 현재 사용 가능한 가장 진보 된 LLM조차도 간접적이고 지능적으로 제작 된 다중 회전 프롬프트를 통해 조작 할 수 있음을 분명히 보여줍니다. 이 발견은 현재 AI 안전 패러다임의 재평가가 필요하며 AI 개발자와 이러한 강력한 시스템을 이용하기 위해 AI 개발자와 악의적 인 행위자 간의 지속적인 무기 경쟁을 강조합니다.








