월요일 Deepseek의 연구원들은 장기 텍스트 작업에 사용될 때 추론 비용을 크게 낮추도록 설계된 새로운 실험 모델 v3.2 − exp를 발표했습니다. DeepSeek은 Hugging Face에 대한 게시물에서 모델을 발표했으며 Github에 연결된 학술 논문을 출판하여 건축 및 성능에 대한 세부 정보를 제공했습니다. 이 모델의 가장 중요한 특징은 DeepSeek Sparse주의입니다. 이 시스템은 “Lightning Indexer”라고하는 모듈을 사용하여 컨텍스트 창에서 특정 발췌를 우선 순위로 삼습니다. 그 단계 이후, 별도의 시스템 인 “미세한 토큰 선택 시스템”은 발췌 내에서 특정 토큰을 선택합니다. 이 선택된 토큰은 모듈의 제한된주의 창에로드됩니다. 이 조합을 사용하면 드문 주의력 모델이 비교적 작은 서버로드로 컨텍스트의 긴 부분에 걸쳐 작동 할 수 있습니다. 시스템의 이점은 장기 텍스트 작업에 중요합니다. DeepSeek가 수행 한 예비 테스트는 간단한 API 호출의 가격이 이러한 상황에서 절반 정도 줄어들 수 있음을 발견했습니다. 클레임에 대한보다 강력한 평가를 구축하려면 추가 테스트가 필요합니다. 이 모델은 개방형이며 포옹 페이스에서 자유롭게 이용할 수 있으므로 제 3 자 테스트를 통해 논문에 제시된 결과를 평가할 수 있습니다. DeepSeek의 새로운 모델은 추론 비용의 문제를 해결하는 최근의 획기적인 문자열의 일부입니다. 이러한 비용은 미리 훈련 된 AI 모델을 운영하는 서버 비용을 나타냅니다.이 모델은 교육 비용과 다릅니다. DeepSeek의 연구원들은 기본 변압기 아키텍처를보다 효율적으로 작동 시켜서 상당한 개선이 이루어질 수있는 방법을 찾고있었습니다. 중국에 기반을 둔 Deepseek은 AI 부문에서 특히 AI 연구를 미국과 중국 사이의 민족주의 투쟁으로보고있는 사람들에게 특이한 인물이었습니다. 이 회사는 연초에 R1 모델로 주목을 받았으며,이 모델은 미국 경쟁 업체보다 훨씬 저렴한 비용으로 주로 강화 학습을 사용하여 교육을 받았습니다. 그러나이 모델은 일부 예상대로 AI 훈련에서 도매 혁명을 일으키지 않았으며 회사는 그 이후 몇 달 동안 주목을 받았습니다. 새로운 “스파 스주의”접근 방식은 R1과 동일한 격변을 생성하지는 않지만 여전히 우리에게 공급 비용을 낮게 유지하는 데 도움이되는 몇 가지 필요한 트릭을 가르 칠 수 있습니다.

  DBD PUBG 드와이트 스킨을 얻는 방법? 보상 설명

Source: DeepSeek은 v3.2-exp 모델을 드문 주의적으로 출시합니다