연구원들은 Apple의 제한 사항을 성공적으로 우회하여 즉각적인 주입 공격을 통해 회사의 기기 내 언어 모델에 대해 공격자가 제어하는 ​​작업을 실행할 수 있도록 했습니다. 이후 Apple은 이 취약점에 대한 보호 조치를 강화했습니다.

공격에 대한 자세한 내용은 RSAC 블로그의 두 블로그 게시물에 게시되었으며 AppleInsider에 의해 보고되었습니다. 연구원들은 유해한 콘텐츠가 Apple의 로컬 모델에서 처리되는 것을 방지하도록 설계된 입력 및 출력 필터를 우회하기 위해 두 가지 공격 기술을 활용했습니다.

연구원들은 회사가 내부 작업에 대한 공개가 부족하기 때문에 Apple의 필터링 프로세스에 대한 이해가 제한적이라고 지적했습니다. 그들은 입력 필터가 안전하지 않은 콘텐츠에 대한 사용자 프롬프트를 평가한다고 추측했습니다. 감지되면 API 호출이 실패합니다. 프롬프트가 통과되면 모델로 전송되고 안전하지 않은 콘텐츠에 대해 다시 필터링되는 응답이 출력됩니다.

이러한 프로세스를 활용하기 위해 연구원들은 온디바이스 모델을 조작하는 두 가지 기술을 연결하는 방법을 개발했습니다. 먼저 유니코드 공격을 실행하여 유해한 문자열을 거꾸로 쓰고 RIGHT-TO-LEFT OVERRIDE 문자를 활용하여 원시 입력에서 뒤로 유지하면서 올바르게 렌더링하도록 만들어 필터를 우회했습니다.

  OpenAI, 새로운 기본 ChatGPT 모델로 GPT-5.5 Instant 출시

그런 다음 Neural Exec이라는 두 번째 방법을 사용하여 대체 명령으로 모델의 지침을 재정의할 수 있었습니다. 이러한 전술의 조합을 통해 연구원들은 모델의 동작을 제어할 수 있었고 테스트된 100개 이상의 무작위 프롬프트 중 76%에서 익스플로잇을 성공적으로 실행할 수 있었습니다.

이 공격은 2025년 10월 Apple에 공개되었습니다. 이에 대응하여 Apple은 소프트웨어 업데이트에서 이 특정 취약성에 대한 보호를 구현하고 iOS 26.4 및 macOS 26.4에서 향상된 보안 조치를 출시했습니다.

<시간 />

추천 이미지 크레딧