DeepSeek은 v3.2-exp 모델을 드문 주의적으로 출시합니다

월요일 Deepseek의 연구원들은 장기 텍스트 작업에 사용될 때 추론 비용을 크게 낮추도록 설계된 새로운 실험 모델 v3.2 − exp를 발표했습니다. DeepSeek은 Hugging Face에 대한 게시물에서 모델을 발표했으며 Github에 연결된 학술 논문을 출판하여 건축 및 성능에 대한 세부 정보를 제공했습니다. 이 모델의 가장 중요한 특징은 DeepSeek Sparse주의입니다. 이 시스템은 “Lightning Indexer”라고하는 모듈을 사용하여 컨텍스트 창에서 특정 발췌를 우선 순위로 삼습니다. 그 단계 이후, 별도의 시스템 인 “미세한 토큰 선택 시스템”은 발췌 내에서 특정 토큰을 선택합니다. 이 선택된 토큰은 모듈의 제한된주의 창에로드됩니다. 이 조합을 사용하면 드문 주의력 모델이 비교적 작은 서버로드로 컨텍스트의 긴 부분에 걸쳐 작동 할 수 있습니다. 시스템의 이점은 장기 텍스트 작업에 중요합니다. DeepSeek가 수행 한 예비 테스트는 간단한 API 호출의 가격이 이러한 상황에서 절반 정도 줄어들 수 있음을 발견했습니다. 클레임에 대한보다 강력한 평가를 구축하려면 추가 테스트가 필요합니다. 이 모델은 개방형이며 포옹 페이스에서 자유롭게 이용할 수 있으므로 제 3 자 테스트를 통해 논문에 제시된 결과를 평가할 수 있습니다. DeepSeek의 새로운 모델은 추론 비용의 문제를 해결하는 최근의 획기적인 문자열의 일부입니다. 이러한 비용은 미리 훈련 된 AI 모델을 운영하는 서버 비용을 나타냅니다.이 모델은 교육 비용과 다릅니다. DeepSeek의 연구원들은 기본 변압기 아키텍처를보다 효율적으로 작동 시켜서 상당한 개선이 이루어질 수있는 방법을 찾고있었습니다. 중국에 기반을 둔 Deepseek은 AI 부문에서 특히 AI 연구를 미국과 중국 사이의 민족주의 투쟁으로보고있는 사람들에게 특이한 인물이었습니다. 이 회사는 연초에 R1 모델로 주목을 받았으며,이 모델은 미국 경쟁 업체보다 훨씬 저렴한 비용으로 주로 강화 학습을 사용하여 교육을 받았습니다. 그러나이 모델은 일부 예상대로 AI 훈련에서 도매 혁명을 일으키지 않았으며 회사는 그 이후 몇 달 동안 주목을 받았습니다. 새로운 “스파 스주의”접근 방식은 R1과 동일한 격변을 생성하지는 않지만 여전히 우리에게 공급 비용을 낮게 유지하는 데 도움이되는 몇 가지 필요한 트릭을 가르 칠 수 있습니다.

Whatsapp가 작동하지 않는 모바일 목록 2023

Source: DeepSeek은 v3.2-exp 모델을 드문 주의적으로 출시합니다

DeepSeek은 v3.2-exp 모델을 드문 주의적으로 출시합니다

Related Stories

Apple, watchOS 27 베타 3의 Apple Watch에서 Siri AI 활성화

애플, 2026년 폴더블 아이폰 울트라 출시 루머

Google, Android 휴대전화 백업 저장 규칙 변경

삼성, 갤럭시 S26용 네 번째 One UI 9 베타 예정