DeepSeek의 획기적인 대형 언어 모델 인 R1은 AI 커뮤니티에 오랫동안 업계 대기업과 경쟁 할 수있는 능력에 대해 오랫동안 흥미를 불러 일으켰습니다. 저널에 새로 출판 된 논문 자연 DeepSeek AI 팀은 구체적인 내용에 대해 빛을 비추고 있습니다.이 모델은 512 NVIDIA H800 칩을 사용하여 294,000 달러로 훈련되었습니다. 이 계시는 OpenAI와 같은 경쟁 업체의 고도로 지출에 도전하는 비용 효율적인 접근 방식을 강조하며, DeepSeek의 혁신적인 시행 및 오류 기반 강화 학습 사용을 강조하여 인상적인 결과를 달성합니다. 핵심 혁신은 노동 집약적이며 복잡한 추론 과제에 대해 정액이 적은 값 비싼 인간 주석 데이터 및 데모에 대한 전통적인 의존을 우회하는 데 있습니다. 대신, DeepSeek은 보상-표현 시스템을 모방하는 강화 학습 기술을 사용했습니다. Carnegie Mellon University 조교수 Daphne Ippolito와 PhD 학생 Yiming Zhang이 동반 기사를 통해 어린이 학습과 비슷합니다.이 방법은 비디오 게임을 통해 어린이 학습과 비슷합니다. “아이가 게임 세계를 통해 아바타를 탐색함에 따라, 재판과 오류를 통해 금화를 수집하는 것과 같은 일부 행동 (예 : 적을 수집하는 등)을 통해 동작과 오류를 통해 동작과 오류를 통해 동작과 오류를 통해 동작과 오류를 통해 동작을 통해 배웠습니다. DeepSeek-R1은 질문에 올바르게 답변했을 때 높은 점수를 받았으며 잘못된 답변을했을 때 점수가 낮았습니다. ” 이 강화 전략은 수학 및 프로그래밍 문제와 같은 검증 가능한 정답이있는 작업에 특히 효과적인 것으로 판명되었습니다. 모델이 개선 된 정확도에 대한 단계별 설명을 생성하도록하는 이전 방법과 달리, DeepSeek는 출력에 직접 할당 된 점수를 직접 출력하여 올바른 결과를 독립적으로 달성 할 때까지 모델이 반복하도록 장려합니다. 결과? 인간이 유도 된 추론이 필요하지 않고 정밀도가 향상되어 겸손한 자원에도 불구하고 DeepSeek가 경쟁력을 유지할 수 있습니다. 그러나 접근 방식은 제한이 없습니다. 출력은 종종 더 정확하지만 모델의 내부 추론 프로세스는 인간 관찰자에게는 투명하지 않습니다. 예를 들어, 사고 과정을 설명하라는 메시지가 표시되면 DeepSeek-R1은 때때로 영어와 중국어 사이에서 예측할 수 없을 정도로 10,000 단어를 초과하는 긴 응답을 생성했습니다. 이 기술은 바이너리 오른쪽 또는 종일 시나리오에서 탁월하지만 명확한 점수 메트릭이없는 미묘한 또는 주관적인 쿼리로 흔들립니다. Deepseek의 업적은 회사의 중국 정부와의 유대 관계에 대한 광범위한 조사에서 기술의 잠재적 편견에 대한 의문을 제기합니다. 최근 시연이보고했다 워싱턴 포스트 행동과 관련하여 공개 :이 모델은 프롬프트가 중국 당국에 의해 민감하다고 간주되는 그룹과의 관여를 나타낼 때 상당한 보안 취약점으로 코드를 생성하는 것을 거부했습니다. 반대로, 그것은 티베트, 대만, 파룬공 종교 운동, 또는 이슬람 국가와 관련된 주제에 대한 안전한 코드를 덜 생산하여 글로벌 배치에 영향을 줄 수있는 임베디드 지정 학적 영향을 시사합니다. 이 논문은 Deepseek의 효율적인 훈련 패러다임을 비난 할뿐만 아니라 AI 개발의 미래에 대한 토론을 촉발시킵니다. 강화 학습을 활용함으로써 DeepSeek와 같은 소규모 플레이어는 자원이 많은 재직자에 대해 경기장을 잠재적으로 평평하게 할 수 있습니다. 그러나 국가 민감성의 주입은 AI 혁신에 대한 투명성과 윤리적 감독의 필요성을 강조하면서주의 사항 역할을합니다. 업계가 발전함에 따라, 그러한 계시는 근본적인 위험을 다루면 전 세계적으로 비용 절감 방법론을 고무시킬 수 있습니다.

  미즈 마블 공식 예고편 공개

Source: DeepSeek R1 모델 512 NVIDIA H800 칩을 사용하여 294,000 달러