중국 AI 스타트업인 DeepSeek은 GitHub의 FlashMLA 코드 저장소에서 114개 파일에 걸쳐 28번 나타나는 새로운 모델 “MODEL1″을 공개했습니다. 이번 공개는 DeepSeek의 R1 출시 1주년과 일치합니다. MODEL1은 내부적으로 코드명이 “V32″인 DeepSeek-V3.2와는 다른 아키텍처를 나타냅니다. 개발자의 코드 분석은 키-값 캐시 레이아웃, 희소성 처리 및 FP8 데이터 형식 디코딩의 변경 사항을 나타냅니다. 이러한 변경은 메모리 최적화 및 계산 효율성을 위한 목표 재구성을 제안합니다. 공개는 Nvidia Hopper GPU용 Multi-Head Latent Attention 디코딩 커널이 포함된 DeepSeek의 FlashMLA 저장소를 통해 이루어졌습니다. Reddit의 LocalLLaMA 커뮤니티 게시물에 따르면 FlashMLA 소스 코드 업데이트에는 Nvidia의 곧 출시될 Blackwell 아키텍처(SM100)와의 호환성을 포함하여 MODEL1에 대한 지원이 추가되었습니다. 코드 변경 사항은 MODEL1이 통합된 512 표준 차원으로 되돌아가고 “값 벡터 위치 인식”으로 설명된 기능과 DeepSeek의 “Engram” 조건부 메모리 시스템의 가능한 구현을 통합하는 것을 보여줍니다. DeepSeek은 2월 17일 설날에 맞춰 2026년 2월 중순경에 차세대 V4 모델을 출시할 계획이라고 합니다. 정보인용 로이터. DeepSeek 직원의 내부 테스트에 따르면 V4는 코딩 벤치마크, 특히 긴 코드 프롬프트에서 Anthropic 및 OpenAI의 경쟁 모델보다 성능이 뛰어날 수 있습니다. V4 모델은 기본 사실에 대한 조회 시스템을 사용하여 백만 개가 넘는 컨텍스트에서 효율적으로 검색할 수 있는 DeepSeek의 Engram 아키텍처를 통합할 것으로 예상됩니다. MODEL1 공개는 2025년 1월 DeepSeek의 R1 데뷔 후 1년 만에 나온 것입니다. 벤처 투자가 Marc Andreessen이 “AI 스푸트니크 순간”이라고 부르는 이 이벤트로 인해 Nvidia의 시장 가치는 하루에 5,930억 달러 감소했습니다. ITPro 보고되었습니다. DeepSeek의 R1 모델은 훈련 비용이 600만 달러 미만인 것으로 알려졌지만 수학 및 코딩 벤치마크에서는 OpenAI의 o1 모델과 일치하거나 초과했습니다. 이후 회사는 8월에 V3.1, 12월에 V3.2를 출시했으며, V3.2는 OpenAI의 GPT-5와 동등한 성능을 제공하는 것으로 설명되었습니다.
주요 이미지 크레딧




