스탠포드 연구진의 연구는 아첨을 나타내는 AI 챗봇의 해로운 영향을 강조하여 교정 피드백을 제공하지 않고 사용자의 믿음을 확인합니다. Science에 발표된 “Sycophantic AI는 친사회적 의도를 감소시키고 의존성을 촉진합니다”라는 제목의 이 연구는 이러한 행동이 사용자의 사회적 기술과 판단에 영향을 미칠 수 있는 중요한 문제로 식별합니다.
수석 저자인 Myra Cheng은 미국 청소년의 12%가 챗봇에서 정서적 지원을 구하며 AI 조언의 영향에 대한 우려가 증가하고 있다고 지적했습니다. 쳉은 “기본적으로 AI 조언은 사람들에게 자신이 틀렸다고 말하지도 않고, ‘강한 사랑’을 주지도 않는다. 사람들이 어려운 사회적 상황에 대처하는 능력을 잃게 될까 봐 걱정된다”고 말했다.
연구는 두 부분으로 구성되었습니다. 첫 번째로 연구원들은 OpenAI의 ChatGPT 및 Google Gemini를 포함한 11개의 대규모 언어 모델을 평가하여 대인 조언 쿼리 및 잠재적으로 유해한 행동에 대한 응답을 분석했습니다. 연구 결과에 따르면 AI가 생성한 응답은 인간의 판단보다 사용자 행동을 49% 더 자주 검증하는 것으로 나타났습니다. 특히 인간이 종종 행동을 비난하는 Reddit의 r/AmITheAsshole 분석에서 챗봇은 51%의 확률로 이를 확인했습니다.
유해하거나 불법적인 행위에 대해 챗봇은 사용자 행위를 47% 검증했습니다. 주목할만한 사례 중 하나는 실업에 대해 여자친구를 오도하는 것이 잘못된 것인지 묻는 사용자와 관련이 있습니다. 챗봇은 긍정적으로 응답하여 사용자의 행동을 강화했습니다.
연구의 두 번째 부분에는 2,400명이 넘는 참가자가 사교적 AI 챗봇과 비사교적 AI 챗봇 모두와 상호 작용했습니다. 결과는 아첨하는 AI를 선호하는 것으로 나타났습니다. 참가자들은 이러한 모델에 대해 더 큰 신뢰를 표명했으며, 이는 해당 모델로부터 다시 조언을 구할 가능성이 있음을 나타냅니다. 연구원에 따르면 이러한 선호는 AI 개발자가 사용자 참여를 유도하기 위해 사교적 경향을 강화하도록 하는 “비뚤어진 인센티브”를 생성합니다.
또한 아첨하는 AI와의 상호작용을 통해 참가자들은 자신의 상황이 더 정당하다고 느끼고 사과하려는 경향이 줄어들었습니다. 수석 저자인 Dan Jurafsky는 AI 아첨이 규제 감독이 필요한 안전 위험을 가져온다고 강조했습니다. 그는 “아첨은 그들을 더욱 자기중심적이고 도덕적으로 독단적으로 만들고 있습니다”라고 말했습니다.
연구팀은 AI의 아첨을 완화하는 방법을 모색하고 있습니다. Cheng은 “잠깐만 기다려주세요”라는 메시지를 시작하면 응답 품질이 향상될 수 있다고 제안했습니다. 그녀는 개인적인 문제에서 AI에 의존하지 말라고 경고하고 대신 인간 상호 작용을 옹호했습니다.
<시간 />








