Anthropic은 Claude Mythos에 대한 기술 문서를 발표하지 않았으며 Kye Gomez는 GitHub의 오픈 소스 프로젝트인 OpenMythos를 시작했습니다. OpenMythos는 PyTorch의 첫 번째 원칙을 사용하여 Claude Mythos 아키텍처를 재구성하도록 설계되었습니다.

이 프로젝트에서는 Claude Mythos가 RDT(Recurrent-Depth Transformers)로 알려진 아키텍처 유형으로 기존 변압기와 근본적으로 다르다고 제안합니다. 표준 변환기는 독립적인 가중치가 있는 일련의 고유 레이어를 통해 입력을 처리하는 반면, RDT는 단일 순방향 전달 중에 고정된 가중치 세트를 반복적으로 적용합니다.

이 방법론을 사용하면 추론 시간에 실행되는 반복 횟수에 따라 추론 깊이를 결정할 수 있습니다. OpenMythos는 Prelude, Recurrent Block, Coda의 세 부분으로 구성된 구조를 특징으로 합니다. 여기서 Prelude와 Coda는 각각 한 번 작동하는 표준 변환기 레이어로 구성되며 Recurrent Block은 최대 16회 반복할 수 있습니다.

각 루프 단계에서 숨겨진 상태는 방정식 ht+1 = A·ht + B·e + Transformer(ht, e)에 따라 업데이트됩니다. 여기서 e는 연속성을 유지하기 위해 모든 반복에서 다시 주입되는 Prelude의 인코딩된 입력을 나타냅니다. 행렬 A와 B는 이전 숨겨진 상태와 인코딩된 입력이 다음 상태에 얼마나 영향을 미치는지 나타냅니다.

  Nvidia, 엔터프라이즈 AI 에이전트를 위한 오픈 소스 소프트웨어 스택 출시

Recurrent Block은 토큰당 전문가 하위 집합을 선택적으로 활성화하여 계산 다양성을 촉진하는 MoE(Mixture-of-Experts) 계층을 통합합니다. 각 반복에서는 서로 다른 전문가를 사용하여 기본 가중치를 공유하면서 별도의 계산이 가능합니다.

OpenMythos는 또한 Multi-Latent Attention을 사용하여 KV 메모리 사용량을 크게 줄입니다. 이 아키텍처는 중간 토큰을 통해 추론을 처리하는 표준 사고 연쇄 프롬프트와 달리 중간 토큰 방출 없이 추론을 가능하게 합니다.

OpenMythos는 잔여 폭발 및 과도한 사고와 같은 안정성 문제 등 루프 모델과 관련된 일반적인 교육 문제를 해결합니다. Parcae 아키텍처에 표시된 대로 매트릭스 A의 스펙트럼 반경이 1 미만으로 유지되도록 강제함으로써 안정성이 유지됩니다.

ACT(동적 적응형 계산 시간) 중지는 토큰 복잡성을 기반으로 루핑 중지 기준을 결정하기 위해 구현됩니다. 또한 Depth-Wise LoRA 어댑터를 사용하여 반복마다 고유한 동작을 생성하고 매개변수 증가를 최소화합니다.

연구에 따르면 7억 7천만 개의 매개변수가 있는 RDT는 13억 개의 매개변수가 있는 표준 변압기와 동일한 성능을 제공할 수 있습니다. 이는 추론 계산을 통해 추론 깊이가 확장되어 매개변수 수와 모델 기능 간의 관계에 대한 기존 패러다임에 도전한다는 것을 나타냅니다.

  Tencent, WeChat과 OpenClaw를 연결하는 ClawBot 출시

OpenMythos는 루프형 변환기 역학 및 추론 깊이를 탐색하기 위한 실용적인 구현을 제공하여 잠재적으로 AI 개발의 미래 발전을 안내합니다. 이 프로젝트는 구성 가능한 PyTorch 구현, LTI 안정 반복 주입, 깊이별 LoRA 어댑터 및 재현 가능한 연구 기준선을 제공합니다.

Gomez는 “Mythos가 실제로 RDT인지 여부에 관계없이 OpenMythos는 연구 커뮤니티가 아직 탐구되지 않은 아키텍처 클래스와 AI에 미치는 영향을 조사할 수 있는 구체적인 리소스를 제공합니다.”라고 말했습니다.

<시간 />

추천 이미지 출처