OpenAI가 발표 한 획기적인 연구 논문에서 연구원들은 Chatgpt와 같은 대형 언어 모델 (LLM)이 종종 환각으로 잘못된 정보를 생성하는 이유에 대한 엄격한 수학적 설명을 제공했습니다. 2025 년 9 월 16 일 대화에서 Wei Xing이 발표 한이 연구는이 문제가 단순히 훈련 결함 일뿐 만 아니라 이러한 모델이 어떻게 작동하는지의 고유 한 결과라고 주장합니다. 이 논문은 잠재적 인 솔루션을 제공하지만이를 구현하면 사용자 경험과 계산 비용을 급격히 급증 할 수 있으며 소비자 애플리케이션에 대한 광범위한 채택이 가능하지 않습니다. 핵심 문제는 LLM의자가 회귀 특성에서 비롯되며, 이는 훈련 데이터에서 파생 된 확률에 따라 한 번에 한 단어를 예측하여 응답을 생성합니다. 이 순차적 프로세스는 본질적으로 오류 축적으로 이어진다. 연구원에 따르면, 전체 문장을 생성하기위한 총 오류율은 단순한 예/아니오 질문의 오류율보다 적어도 두 배 이상 높습니다. 예를 들어, 모델이 바이너리 쿼리에서 오류율이 10% 인 경우, 부정확성이 여러 토큰에 걸쳐 부정확함에 따라 문장 수준 오류가 더 두 배 이상 증가 할 수 있습니다. 환각은 기본적으로 다양한 지식 영역에서 도전적인 것으로 입증되는 유효성 대 잘못된 응답을 분류하는 모델의 능력에 의해 근본적으로 경계됩니다. 완벽한 훈련 데이터를 사용하더라도 확률 예측 메커니즘은 어느 정도의 피할 수없는 허위를 보장합니다. 이 논문은 교육 데이터 세트에서 정보의 희귀 성이이를 악화 시킨다고 강조합니다. 사실은 드물게 나타나는 사실이 오도하거나 제조하는 경향이 더 큽니다. 눈에 띄는 예는 주목할만한 인물의 생일과 관련이 있습니다. 분석에 따르면 이러한 생일의 20%가 교육 데이터에서 한 번만 나타나면 기본 LLM이 관련 쿼리의 최소 20%에 대해 ERR로 예상됩니다. 설명하기 위해 연구원들은 논문의 공동 저자 중 하나 인 Adam Kalai의 생일에 최첨단 모델을 테스트했습니다. Model DeepSeek-V3은 별도의 시도로 “03-07”, “15-06,”및 “01-01″의 세 가지 잘못된 날짜를 출력합니다. 실제 날짜는 가을에 떨어지며 모델이 현실에서 멀리 떨어진 세부 사항을 자신있게 주장 할 수있는 방법을 강조합니다. 문제를 복합화하는 것은 AI 벤치 마크에 사용 된 평가 프레임 워크입니다. 이 연구는 Google, OpenAi 및 주요 AI 리더 보드를 포함한 10 가지 주요 벤치 마크를 검토했습니다. 그들 중 9 명은 “모르겠다”와 같은 불확실성 표현으로 제로 포인트를 수여하는 이진 등급 시스템을 사용합니다. 이 설정은 무지의 정직한 입장을 명백한 오류로 인정하며, 모델에 대한 인센티브가 항상 기권하기보다는 항상 추측 할 수있는 인센티브를 만듭니다. 수학적으로, 연구원들은 이진 평가 하에서 진정한 정확성의 확률에 관계없이 응답을 원천 징수하는 것보다 예상 점수가 높다는 것을 증명합니다. 모델이 옳은 일이 얇은 기회 (1%)라면 잠재적 인 보상이 기권에 대한 형벌보다 중요합니다. 저자들이 설명 하듯이 불확실성에 대한 불확실성에 대한이 “전염병”은 과도한 신뢰할 수있는 결과를 영속하고 더 신뢰할 수있는 AI에 대한 진보를 영속시킨다. OpenAi의 제안 된 치료법은 신뢰 추정을 모델의 의사 결정 프로세스에 통합하는 것입니다. 응답하기 전에 AI는 확실성 수준을 평가하고 사전 정의 된 임계 값을 초과하는 경우에만 진행됩니다. 그런 다음 벤치 마크는 정답 (+1 포인트)을 보상하고 (+1 포인트) 보상을받는 동시에 실수 (예 : -3 포인트)와 같은 신뢰도에 따라 점수로 조정됩니다. 수학적 프레임 워크는 적절한 임계 값이 모델이 불확실성을 자연스럽게 표현하여 환각을 줄일 수 있음을 보여줍니다. 그러나 실질적인 구현은 상당한 단점을 보여줍니다. 이 논문은 75%의 신뢰 임계 값을 적용하면 Chatgpt가 훈련 데이터의 사실 격차를 기반으로 쿼리의 약 30%에 “I not know”에 응답 할 수 있다고 추정합니다. 즉각적이고 권위있는 답변으로 습관화 된 사용자는 이러한 실망을 발견하고 덜 신중한 대안으로 전환 할 수 있습니다. Wei Xing은 유타 주 솔트 레이크 시티의 항공 품질 모니터링 프로젝트에 참여한 것과 비슷합니다. 시스템에 불확실성 (날씨 또는 교정에 불이 붙는 불확실성)이 부정확 한 경우에도 자신감있는 디스플레이에 비해 USER 참여가 떨어집니다. 이 비유는 정확도보다 확실성에 대한 광범위한 인간 선호도를 강조하며, 이는 소비자 환경에서 불확실성 인식 AI를 채택 할 수 있습니다. 사용자 경험 외에도 계산 요구는 강력한 장벽을 제시합니다. 불확실성을 정량화하려면 여러 응답 경로를 평가하고 신뢰 구간을 추정해야합니다. 표준 토큰 예측보다 훨씬 더 많은 프로세스입니다. 수백만 건의 일일 쿼리를 처리하는 서비스의 경우 이는 운영 비용을 극적으로 곱할 수 있습니다. 통계 및 기계 학습과 같은 분야에서 수십 년에 걸쳐 개발 된 확립 된 불확실성 정량화 방법은 효과적이지만 계산적으로 비싸다. AI가 사용자에게 질문을 명확하게하는 Active Learning과 같은 고급 기술은 정확도를 더욱 향상시킬 수 있지만 요구 사항을 더욱 확대 할 수 있습니다. 이러한 접근법은 오류가 심각한 결과를 초래하는 고분비 도메인에서 실현 가능합니다. 예를 들어, 공급망 물류, 금융 거래 또는 의료 진단에서 환각제 (예 : 수백만의 수익 손실 또는 환자 피해)는 신중하고 컴퓨터가 많은 시스템에 대한 투자를 정당화합니다. 칩 설계 또는 경제 인프라 관리에서 불확실성 인식 AI는 단순히 가능할뿐만 아니라 필수가됩니다. 이 논문은 AI 에이전트가 중요한 운영을 감독 할 때 경제학 전환 : 철저한 신뢰의 비용은 과신의 오류의 위험에 대해 확인하는 것을 확인합니다. 그러나 개발 우선 순위를 지배하는 소비자 AI는 다른 규칙에 따라 운영됩니다. 사용자는 퀴즈에서 조언에 이르기까지 모든 쿼리에 대한 신속하고 확실한 응답을 요구합니다. 벤치 마크는 계속 추측을 선호하며, 토큰 당 에너지 비용 하락 또는 개선 된 칩 아키텍처와 같은 하드웨어 효율성은 결국 장벽을 낮출 수 있습니다. 그러나 오늘날의 간소화 된 추측 모델과 비교하여 불확실성 취급은 항상 더 많은 처리 능력을 요구할 것입니다. 이 논문은 실수로 비즈니스 인센티브의 오정렬을 드러냅니다. 속도와 신뢰도는 소비자 앱의 이익을 유도하는 반면 정확도는 뒷좌석을 차지합니다. 인간 피드백 (RLHF)의 강화 학습 (RLHF)과 같은 훈련 후 기술은 일부 환각을 완화했지만 근본 원인을 다루지 못했습니다. 이 연구는 최적화 된 모델조차도 이러한 수학적 불가피성을 유지한다는 것을 증명합니다. 평가 표준이 뉘앙스와 계산 경제학을 보상하기 위해 발전 할 때까지 속도에 대한 신뢰성을 우선시 할 때까지, 환각은 소비자 LLM의 특징으로 견딜 것입니다. 이 계시는 AI 산업의 궤적에 도전합니다. 모델이 점점 커지고 능력이 높아짐에 따라 혁신의 균형을 맞추는 압력이 강화됩니다. OpenAi의 작업은 패러다임 전환, 개발자, 벤치 마크 제작자 및 사용자에게 보정 된 응답을 가치있게 해줄 것을 요구합니다. 고 부가가치 부문에서는 입양이 임박한 것 같습니다. 일상적인 도구의 경우 먼 전망으로 남아 있습니다. Openai 연구원을 포함한이 논문의 저자들은 인센티브 재배치 없이는 완벽한 AI를 추구하는 것이 애매하지 않을 것이라고 결론 지었다. Sheffield University ‘s School of Mathematical and Physical Sciences의 조교수 인 Wei Xing은 Creative Commons 라이센스에 따라 대화에서 재 게시 된 기사의 메모에 따르면, 소비자 AI 개발을 이끄는 비즈니스 인센티브는 환각을 줄이는 데 근본적으로 잘못 정렬되어 있습니다. ” 이 연구는 지속적인 결함을 진단 할뿐만 아니라 유용성, 비용 및 진실성 사이의 상충 관계를 요구하는 경로를 차트로 도표로합니다. AI가 일상 생활을 더 깊이 통합함에 따라 이러한 긴장을 해결하는 것은 지속 가능한 발전에 중요 할 것입니다.
Source: OpenAi Research





