Pokémon조차도 AI 벤치마킹 논쟁으로부터 안전하지 않습니다. X의 최근 게시물에 따르면 Google의 Gemini 모델은 원래 Pokémon 게임에서 Anthropic의 Claude 모델을 능가했으며 벤치마킹 방법에 대한 토론을 시작했습니다.

지난 주, X의 게시물은 바이러스에 걸쳐 Google의 최신 Gemini 모델이 원래 Pokémon 비디오 게임 3 부작에서 Anthropic의 플래그십 Claude 모델을 능가했다고 주장했습니다. 보도에 따르면, Gemini는 개발자의 Twitch 스트림에서 Lavender Town에 도착했습니다. Claude는 2 월 말에 Mount Moon에 갇혀있었습니다. 이 게시물은“Lavender Town에 도착한 후 Pokemon의 Claude ATM보다 문자 그대로 앞서 있습니다.”라고 읽었으며“119 개의 라이브 조회수 BTW, 엄청나게 과소 평가 된 스트림”이라는 주석이 포함 된 스크린 스크린 샷을 포함했습니다.

그러나 나중에 Gemini는 불공정 한 이점이 있음이 밝혀졌습니다. Reddit의 사용자는 Gemini 스트림을 유지하는 개발자가 모델이 절단 가능한 트리와 같은 게임에서 “타일”을 식별하는 데 도움이되는 맞춤형 최소값을 구축했다고 지적했습니다. 이 사용자 정의 미니 맵은 게임 플레이 결정을 내리기 전에 Gemini가 스크린 샷을 분석 할 필요성을 줄여서 상당한 우위를 점합니다.

Pokémon은 기껏해야 반 강한 AI 벤치 마크로 간주되지만 벤치 마크의 다양한 구현이 결과에 어떤 영향을 줄 수 있는지에 대한 유익한 예가됩니다. 논란은 AI 벤치마킹의 불완전 성과 사용자 정의 구현이 모델을 정확하게 비교하는 데 어려움을 겪을 수있는 방법을 강조합니다.

  Supergiant Games는 Switch 2 및 PC의 2 개의 선주문을 열어줍니다.

이 문제는 Pokémon에게 독특하지 않습니다. Anthropic은 SWE-Bench Verified Benchmark에서 Claude 3.7 Sonnet 모델에 대해 두 가지 점수를보고하여 모델의 코딩 능력을 평가합니다. “커스텀 스캐 폴드”가 없으면 Claude 3.7 Sonnet은 62.3% 정확도를 달성했지만 사용자 정의 스캐 폴드로 정확도는 70.3%로 증가했습니다. 마찬가지로 메타는 LM Arena 벤치 마크에서 더 나은 성과를 달성하기 위해 LLAMA 4 MAVERICK 모델의 버전을 미세 조정했습니다. 미세 조정 된 버전은 동일한 평가에서 바닐라 버전보다 상당히 높았습니다.

AI 벤치 마크가 시작하기에 불완전한 조치이기 때문에 사용자 정의 및 비표준 구현은 모델의 비교를 더욱 복잡하게 만듭니다. 결과적으로 모델이 출시 될 때 모델을 비교하기가 점점 어려워 질 것입니다.

Source: 사용자 정의에 의해 손상된 Pokémon의 AI 모델“성능”