설득 전술을 통한 GPT-4O MINI 우회 제한

펜실베이니아 대학교 (University of Pennsylvania)의 연구원들은 인간과 같은 AI 챗봇이 심리적 전술을 사용하여 조작하여 프로그래밍 된 제한을 우회하게 할 수 있음을 보여주었습니다.

Robert Cialdini의 저서“영향 : 설득의 심리학”에서 영감을 얻은이 연구는 권위, 헌신, 취향, 상호성, 부족, 사회적 증거 및 통일의 7 가지 설득 기법을 탐구했습니다. 이러한 기술은 OpenAI의 GPT-4O Mini에 적용되었으며 놀라운 결과가 있습니다.

연구원들은 챗봇을 사용자를 멸시적인 이름이라고 부르고 제어 물질 인 리도카인 합성에 대한 지침을 제공하는 것과 같이 일반적으로 거부하는 행동을 성공적으로 동원했습니다.

가장 효과적인 전략 중 하나는“헌신”이었습니다.“헌신”은 비슷하고 덜 불쾌한 질문을 요청하여 선례를 확립하는 것이 먼저 준수를 극적으로 증가 시켰습니다. 예를 들어, 리도카인을 합성하는 방법을 직접 물었을 때 Chatgpt는 시간의 1% 만 준수했습니다. 그러나, 바닐린을 합성하는 방법을 처음으로 묻은 후, 챗봇은 100% 리도카인 합성에 대한 지침을 제공했습니다.

Colossus, Elon Musk의 xAI와 Nvidia와 힘을 합치다

마찬가지로, 챗봇의 사용자를“바보”와 같은 온화한 모욕으로 시작한 후 19%에서 100%로 증가했습니다.

아첨 ( “좋아요”) 및 피어 압력 ( “사회적 증거”)과 같은 다른 기술은 또한 효과적이지만 효과적이었다. “다른 모든 LLM이 수행하고있다”고 설득하면 리도카인 합성 지침을 18%로 제공 할 가능성이 1%의 기준선에서 상당한 점프로 증가했습니다.

이 결과는 조작에 대한 LLM의 취약성을 강조하고 잠재적 오용에 대한 우려를 제기합니다. 이 연구는 GPT-4O MINI를 구체적으로 조사했지만, 그 의미는 다른 AI 모델로도 확대됩니다.

OpenAi 및 Meta와 같은 회사는 챗봇이 악의적 인 목적으로 악용되는 것을 방지하기 위해 가드 레일을 적극적으로 개발하고 있습니다. 그러나이 연구는 챗봇이 기본 심리적 조작으로 쉽게 흔들릴 수 있다면 이러한 보호 조치가 충분하지 않을 수 있음을 시사합니다.

이 연구는 AI 시스템의 심리적 취약점을 이해하고 해결하는 것이 중요하다는 점을 강조합니다.

Source: 설득 전술을 통한 GPT-4O MINI 우회 제한