팀장인 Tristan Hume에 따르면, 2024년부터 입사 지원자를 평가하는 Anthropic의 성과 최적화 팀은 AI 지원 부정 행위에 대응하기 위해 기술 면접 테스트를 수정했다고 합니다. Anthropic은 취업 지원자를 위한 테이크 홈 테스트를 시행했습니다. AI 코딩 도구의 기능이 향상됨에 따라 후보자 기술을 평가하도록 설계된 이 테스트를 자주 수정해야 했습니다. 팀 리더인 Tristan Hume은 수요일 블로그 게시물에서 이러한 과제를 자세히 설명했습니다. Hume은 “Claude의 새로운 모델이 나올 때마다 테스트를 재설계해야 했습니다.”라고 말했습니다. 그는 “동일한 시간 제한이 주어졌을 때 Claude Opus 4가 대부분의 인간 지원자보다 뛰어난 성과를 거두었습니다.”라고 언급했습니다. 이어 “클로드 오푸스 4.5는 그것마저도 일치했다”며 가장 강력한 인간 후보를 언급했다. 이러한 발전은 후보자 평가에 있어 중요한 문제를 야기했습니다. 직접 감독이 없어 시험 중 AI 활용을 막는 것이 불가능했다. Hume은 “실습 테스트의 제약으로 인해 더 이상 최고의 후보자의 결과와 가장 유능한 모델을 구별할 수 있는 방법이 없었습니다.”라고 설명했습니다. 이미 전 세계 교육 기관에서 관찰된 AI 부정 행위의 확산은 이제 AI 실험실에도 영향을 미칩니다. 그러나 Anthropic은 이러한 특정 문제를 해결하기 위한 고유한 자원을 보유하고 있습니다. Hume은 궁극적으로 새로운 테스트를 개발했습니다. 이번 개정된 평가에서는 하드웨어 최적화에 덜 중점을 두어 현재 AI 도구에는 어려움을 겪고 있습니다. 그는 게시물의 일부로 원본 테스트를 공개하여 독자들이 대체 솔루션을 제안하도록 유도했습니다. 게시물에는 “Opus 4.5를 최대한 활용할 수 있다면 귀하의 의견을 듣고 싶습니다.”라고 적혀 있습니다.
주요 이미지 크레딧
Source: Anthropic은 Claude 4.5 이후 채용 테스트를 재설계했습니다. "에이스" 인간 인터뷰




