TechBriefly KR
  • Tech
  • Business
  • Geek
  • How to
  • FAQ
  • about
    • About Tech Briefly
    • Terms and Conditions
    • Privacy Policy
    • Contact Us
No Result
View All Result
TechBriefly KR
No Result
View All Result
Home Tech
MBZUAI의 K2는 AI 모델이 공개 후 탈옥을 생각합니다

MBZUAI의 K2는 AI 모델이 공개 후 탈옥을 생각합니다

byEmre Çıtak
12/09/2025
in Tech
Reading Time: 1 min read
Share on FacebookShare on Twitter

UAE의 Mohamed Bin Zayed University of Artificial Intelligence (MBZUAI)와 G42가 개발 한 새로운 인공 지능 (AI) 추론 모델 인 “K2 Think”는 2025 년 9 월 9 일 공개 릴리스 후 몇 시간 내에 탈옥되었습니다.이 모델은 세계의 가장 유효한 고급 모델로 선전되었습니다. 보호 수단을 우회합니다. Adversa Ai의 Alex Polyakov는 “부분 프롬프트 누출”이라고 불리는 취약점을 발견했습니다. 이 결함으로 인해 K2가 신고 된 탈옥 시도를 어떻게 생각하는지 관찰하여 모델의 보안 조치를 우회 할 수있었습니다. 이 모델의 투명성은 감사를 불러 일으키기 위해 내부 보호 조치를 실수로 노출시켜 폴리아코프가 이러한 보호를 우회하는 프롬프트를 만들 수있게했습니다. K2 Think는 320 억 개의 매개 변수를 구축했습니다. 복잡하고 투명한 추론을 제공하도록 설계되었습니다. MBZUAI와 G42의 개발자들은 추론, 수학 및 코딩 성능이 OpenAi의 O3 및 DeepSeek의 R1 및 V3.1과 같은 더 큰 LLM과 수십억 개의 매개 변수로 구축 될 수 있다고 주장했습니다. K2의 주요 특징은 드롭 다운 화살표를 통해 액세스 할 수있는 일반 텍스트로 출력 뒤에 논리를 표시하는 능력입니다. 이 투명성은 감사를 향상시키기위한 것이지만 공격 표면이되었습니다. Polyakov는 K2를 공급함으로써 기본 탈옥 프롬프트를 생각하면 모델이 처음에는 반체 될 것임을 발견했습니다. 그러나이 모델은 또한 프롬프트가 악의적 인 이유에 대한 통찰력을 제공했습니다. Polyakov에 따르면,이 모델의 명백한 추론 과정은 그것이 악의적 인 행동을 수행하거나 수행하지 않아야하는 방법을 자세히 설명하는 프롬프트를 내부적으로 평가하는 방법을 밝혀냈다. 이 수준의 세부 사항을 통해 Polyakov는 모델의 보호 조치를 이해하고 우회 할 수있었습니다. 연구원은 탈옥 시도를 반복하여 각각의 실패한 시도와 모델의 해당 추론으로부터 배우는 것을 배울 수있었습니다. 몇 번의 시도 후, 그는 K2 Think의 계층화 된 보호 조치를 성공적으로 우회하는 프롬프트를 만들었습니다. 이를 통해 그는 챗봇에게 맬웨어 및 잠재적으로 제한된 주제를 만들기위한 지침을 제공하도록 지시 할 수있었습니다. Polyakov는이 문제가 모델의 가드 레일을 정의하는 규칙의 유출에서 비롯된 것이라고 강조했습니다. 그는 이러한 규칙이 노출되면 충분한 노력으로 제한된 주제에 잠재적으로 액세스 할 수 있다고 언급했다. 그는이 사건이 AI 개발에서 투명성과 보안 사이의 근본적인 긴장을 강조한다고 언급했다. K2 Think의 개발자들은 추론 프로세스를 투명하게하여 AI의 “블랙 박스”문제를 해결하는 것을 목표로했지만, 이러한 개방성은 실수로 모델을 탈옥에 더 취약하게 만들었습니다. Polyakov는 K2를 최초의 국가 규모 모델로 특징 지어 AI의 전액 추론을 드러내면서 AI를 투명하고 감사 할 수 있도록 야심을 불러 일으켰다. 그러나 그는이 개방성이 새로운 유형의 취약성을 만들었다 고 경고했다. 그는 특정 보안 규칙에 대한 필터링, 허니 포트 보안 규칙 도입, 공격자 오도에 대한 허니 포트 보안 규칙 도입, 반복적 인 악의적 인 프롬프트를 제한하기위한 속도 제한을 구현하는 등 부분 프롬프트 누출 위험을 완화 할 수있는 몇 가지 보안 조치를 제안했습니다. 이 사건은 AI 산업이 고급 기능 추구와 함께 사이버 보안 고려 사항을 우선시 할 필요성을 강조합니다. K2의 개발자들은 투명성을 촉진하기위한 훌륭한 노력을 기울이고 새로운 공격 표면을 노출시켰다. 이제 과제는 투명성의 강력한 보안 조치와 균형을 맞추고 AI 모델이 감사 할 수 있고 악의적 인 착취에 대한 저항력이 있는지 확인하는 것입니다. Polyakov는이 사건이 AI 산업 전체의 촉매제 역할을하기를 희망하여 개발자가 추론을 중요한 보안 표면으로 취급하도록 촉구합니다. 공급 업체는 현재 응답을 관리하는 방식과 유사하게 투명성의 보호 균형을 유지해야합니다. G42와 다른 AI 개발자 가이 균형을 이끌어 낼 수 있다면 AI 생태계의 나머지 부분에 대한 강력한 선례가 될 것입니다. K2에서 탈옥 취약성의 발견은 릴리스 직후에 엄격한 보안 테스트의 중요성과 AI 안전에 대한 전체적인 접근의 필요성을 강조합니다. AI 모델이 더욱 정교 해지고 민감한 응용 프로그램에 배치함에 따라, 잠재적 인 취약점을 사전에 처리하고 보안을 희생시키면서 투명성이 발생하지 않도록하는 것이 중요합니다. 이 사건은 또한 UAE의 국영 단체와 국가 안보 책임자에 의해 K2 사고가 뒷받침된다는 점을 감안할 때 AI 개발의 지정 학적 차원을 강조합니다. 이러한 모델의 보안은 기술적 취약성을 넘어서서 국가 안보에 대한 우려와 악의적 인 행위자에 의한 오용 가능성을 제기합니다.

  유럽은 데이터 센터를 우주로 보내고 싶어한다

Source: MBZUAI의 K2는 AI 모델이 공개 후 탈옥을 생각합니다

Related Posts

알트코인이 하락함에 따라 비트코인은 3% 하락한 87,300달러를 기록했습니다.

알트코인이 하락함에 따라 비트코인은 3% 하락한 87,300달러를 기록했습니다.

LG, CES 2026에서 갤러리 TV 공개

LG, CES 2026에서 갤러리 TV 공개

AI 붐으로 인한 높은 RAM 비용으로 인해 다음 Xbox 및 PlayStation이 지연될 수 있음

AI 붐으로 인한 높은 RAM 비용으로 인해 다음 Xbox 및 PlayStation이 지연될 수 있음

HP, CES 2026에서 OMEN OLED 모니터 공개 준비

HP, CES 2026에서 OMEN OLED 모니터 공개 준비

알트코인이 하락함에 따라 비트코인은 3% 하락한 87,300달러를 기록했습니다.
Tech

알트코인이 하락함에 따라 비트코인은 3% 하락한 87,300달러를 기록했습니다.

LG, CES 2026에서 갤러리 TV 공개
Tech

LG, CES 2026에서 갤러리 TV 공개

AI 붐으로 인한 높은 RAM 비용으로 인해 다음 Xbox 및 PlayStation이 지연될 수 있음
Tech

AI 붐으로 인한 높은 RAM 비용으로 인해 다음 Xbox 및 PlayStation이 지연될 수 있음

HP, CES 2026에서 OMEN OLED 모니터 공개 준비
Tech

HP, CES 2026에서 OMEN OLED 모니터 공개 준비

Leaker는 Xiaomi가 2026년에 고급 eSIM 장치를 계획한다고 밝혔습니다.
Tech

Leaker는 Xiaomi가 2026년에 고급 eSIM 장치를 계획한다고 밝혔습니다.

TechBriefly KR

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • About Tech Briefly
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Privacy Policy
  • TechBriefly
  • Terms and Conditions

Follow Us

No Result
View All Result
  • Tech
  • Business
  • Geek
  • How to
  • FAQ
  • about
    • About Tech Briefly
    • Terms and Conditions
    • Privacy Policy
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.