ChatGPT는 기본 모델의 발전에도 불구하고 기본 계산 작업에 계속 어려움을 겪고 있습니다. 챗봇은 “딸기”라는 단어에 “r” 문자가 두 개 포함되어 있다고 잘못 명시하고 있는데, 실제 개수는 3개입니다. 이 문제는 2025년 12월에 출시된 최신 버전인 GPT-5.2에서도 지속됩니다. 최신 AI 시스템은 마케팅 이미지 생성, 에이전트 브라우저를 통한 보고서 컴파일, 차트 1위 곡 작곡 등 복잡한 작업을 쉽게 처리합니다. 그러나 그들은 7세 어린이가 쉽게 완료할 수 있는 간단한 작업에는 실패합니다. “딸기”에서 “r”을 세는 것은 이러한 차이를 예시합니다. 단어가 딸기로 분해되어 문자 “r”이 세 번 생성됩니다. 최근 테스트에서는 문제가 아직 해결되지 않은 것으로 확인되었습니다. GPT-5.2가 출시된 후 ChatGPT에 대한 쿼리는 “2”라는 직접적인 응답을 얻었습니다. 이는 수십억 달러의 투자, RAM 가격 상승으로 인한 하드웨어 수요 증가, AI 훈련과 관련된 전 세계적으로 상당한 물 사용량에도 불구하고 발생합니다. 근본 원인은 ChatGPT와 같은 대규모 언어 모델의 토큰화된 입력 및 출력 설계에 있습니다. 개별 문자를 처리하는 대신 시스템은 텍스트를 전체 단어, 음절 또는 단어 부분이 될 수 있는 토큰으로 나눕니다. “딸기”의 경우 OpenAI Tokenizer는 “st”, “raw” 및 “berry”라는 세 가지 토큰을 표시합니다. 이 중 “raw”와 “berry” 두 개에만 문자 “r”이 포함되어 있습니다. 따라서 모델은 개별 문자가 아닌 “r”로 토큰을 계산합니다. 이 토큰화는 유사한 단어에 영향을 미칩니다. ChatGPT는 “raspberry”에도 두 개의 “r”이 있으며 세 번째는 간과하고 있다고 보고합니다. 시스템은 “berry”를 단일 토큰으로 처리하여 두 개의 “r”을 하나의 단위로 압축합니다. GPT-5.x는 OpenAI o1-mini 및 GPT-4o에 도입된 최신 “o200k_harmony” 토큰화 방법을 사용하지만 “딸기” 오류가 지속됩니다. OpenAI는 2022년 말 ChatGPT가 출시된 이후 많은 토큰 기반 문제를 해결했습니다. 초기 버전에서는 불규칙한 응답이나 처리 실패를 유발하는 특정 문구와 관련된 문제가 발생했습니다. 조정된 훈련 데이터와 개선된 시스템을 패치하여 “Mississippi”(미시시피)를 철자하거나 “lollipop”을 올바른 순서로 문자로 바꾸는 것과 같은 사례를 해결합니다. 그러나 AI 모델은 일반적으로 수학과 문제 해결에 탁월하더라도 작은 값의 정확한 개수에서는 성능이 좋지 않습니다. 고전적인 문제가 있는 단어에 대한 테스트에서는 알려진 딸기 사례를 넘어서는 실패가 없는 것으로 나타났습니다. ChatGPT는 ‘Mississippi’와 ‘lollipop’을 올바르게 처리했습니다. 주목할 만한 잔재 중 하나는 “solidgoldmagikarp” 문자열과 관련이 있습니다. GPT-3에서는 이 문구로 인해 사용자 모욕, 이해할 수 없는 출력, 토큰화 문제로 인한 처리 오류 등이 발생했습니다. GPT-5.2는 붕괴를 피하지만 환각을 일으킵니다. “solidgoldmagikarp”는 개발자가 GitHub 저장소에 숨긴 비밀 포켓몬 농담이라고 주장합니다. 활성화하면 아바타, 저장소 아이콘 및 기능이 포켓몬 테마 요소로 변환되는 것으로 추정됩니다. 이 주장은 문자열의 역사적 문제로 인해 완전히 거짓입니다. 다른 AI 모델은 “딸기” 질문에 올바르게 대답합니다. Perplexity, Claude, Grok, Gemini, Qwen 및 Copilot은 각각 세 개의 “r”을 식별합니다. OpenAI 모델을 활용하는 기업도 개별 문자를 더 잘 캡처하는 고유한 토큰화 시스템을 사용하기 때문에 성공합니다. ChatGPT는 실제 문자 수준의 지능보다는 후속 텍스트를 예측하기 위해 훈련 패턴을 사용하는 예측 엔진으로 작동합니다. 토큰화는 문자 그대로 계산하는 것보다 효율성을 우선시하여 딸기 문제와 같은 지속적인 문제를 설명합니다. OpenAI는 2022년 말부터 토큰 처리를 반복적으로 개선했습니다. 초기 출시에서는 특정 문자열에 대한 취약점이 드러났고, 내성적인 루프나 분노와 같은 반응을 촉발했습니다. “Mississippi” 문자 열거 및 “lollipop” 반전과 같은 체계적인 수정 사항은 이제 정확하게 작동합니다. 정확한 계산에 대한 더 넓은 제한은 모델 전반에 걸쳐 지속됩니다. 산술의 강점에도 불구하고 작은 값의 집계는 변압기 아키텍처에 도전합니다. “solidgoldmagikarp” 테스트는 명백한 실패에서 조작된 내러티브로 발전하면서 지속적인 토큰 민감성을 강조합니다. 비교를 통해 토큰화의 역할이 강조됩니다. Perplexity는 자체 방식을 사용하여 ‘딸기’에서 정확한 ‘r’ 감지를 가능하게 합니다. Anthropic의 Claude, xAI의 Grok, Google의 Gemini, Alibaba의 Qwen 및 Microsoft의 Copilot은 모두 3의 개수를 반환합니다. 토큰 경계의 변형으로 인해 OpenAI 설정에는 문자 수준의 세분성이 없습니다. OpenAI Tokenizer 도구는 “st-raw-berry” 분할을 보여줍니다. “St”에는 “r”이 없고 “raw”에는 1개가 있고 “berry”에는 2개가 있지만 하나의 토큰으로 계산됩니다. “Raspberry”는 다음과 같습니다. 토큰은 마지막 “r”을 압축합니다. GPT-5.2는 o1-mini 및 GPT-4o 시대의 효율성 향상을 목표로 “o200k_harmony”를 채택했지만 딸기 토큰화에는 결함이 남아 있습니다. OpenAI의 패치 기록은 노출된 사례에 대해 표적 개입이 효과가 있음을 시사합니다. 초기 ChatGPT는 셀 수 없는 문구에 토큰으로 인한 나선을 보였습니다. “Solidgoldmagikarp”는 다음을 예시합니다. GPT-3의 토큰 처리가 과부하되어 혼란을 초래합니다. GPT-5.2는 이를 존재하지 않는 GitHub 부활절 달걀로 재구성하여 발명을 통해 오류를 보존합니다. 테스트를 통해 수정 범위를 확인합니다. 이제 “Mississippi”에는 “i” 4개, “s” 4개, “p” 2개, “m” 1개 등 11개의 문자가 정확하게 나열됩니다. “Lollipop”은 그대로 “pillopol”으로 반전됩니다. 그럼에도 불구하고 코어 계산 부족은 여전히 ​​남아 있습니다. 모델은 제한된 상황에서 정확하게 열거하기보다는 대략적으로 계산합니다. 대체 제공자는 맞춤형 토크나이저를 통해 회피합니다. Perplexity의 검색 강화 접근 방식, Claude의 헌법 교육, Grok의 실시간 데이터, Gemini의 다중 모달 구문 분석, Qwen의 다국어 최적화, Copilot의 엔터프라이즈 튜닝 등 모두 올바른 딸기 대응을 가능하게 합니다. 이러한 차이는 토큰화가 중추적임을 강조합니다. OpenAI의 바이트 쌍 인코딩은 “strawberry”와 같은 화합물의 희귀 문자 분포를 희생하여 일반적인 하위 단어에 우선 순위를 둡니다. 역사적 맥락: 2022년 후반 출시에는 토큰 문제에 대한 보고가 넘쳐났습니다. OpenAI는 신속한 업데이트로 대응하여 2025년까지 대부분의 명백한 익스플로잇을 제거했습니다. 현재 작성 중인 GPT-5.2는 누적된 개선 사항을 구현하지만 딸기를 상징적인 결함으로 유지합니다. 사이드바 참조 참고 사항 관련 콘텐츠: “ChatGPT가 이 작업을 수행할 수 있다는 것을 알고 계셨습니까?” Amir Bohlooli 작성, 2025년 9월 27일자.

  오늘 LoLdle 능력 답변: Killer Instinct(2월 14일)

Source: ChatGPT GPT-5.2에서 딸기의 ‘r’을 잘못 계산함