DeepSeek의 획기적인 대형 언어 모델 인 R1은 AI 커뮤니티에 오랫동안 업계 대기업과 경쟁 할 수있는 능력에 대해 오랫동안 흥미를 불러 일으켰습니다. 저널에 새로 출판 된 논문 자연 DeepSeek AI 팀은 구체적인 내용에 대해 빛을 비추고 있습니다.이 모델은 512 NVIDIA H800 칩을 사용하여 294,000 달러로 훈련되었습니다. 이 계시는 OpenAI와 같은 경쟁 업체의 고도로 지출에 도전하는 비용 효율적인 접근 방식을 강조하며, DeepSeek의 혁신적인 시행 및 오류 기반 강화 학습 사용을 강조하여 인상적인 결과를 달성합니다. 핵심 혁신은 노동 집약적이며 복잡한 추론 과제에 대해 정액이 적은 값 비싼 인간 주석 데이터 및 데모에 대한 전통적인 의존을 우회하는 데 있습니다. 대신, DeepSeek은 보상-표현 시스템을 모방하는 강화 학습 기술을 사용했습니다. Carnegie Mellon University 조교수 Daphne Ippolito와 PhD 학생 Yiming Zhang이 동반 기사를 통해 어린이 학습과 비슷합니다.이 방법은 비디오 게임을 통해 어린이 학습과 비슷합니다. “아이가 게임 세계를 통해 아바타를 탐색함에 따라, 재판과 오류를 통해 금화를 수집하는 것과 같은 일부 행동 (예 : 적을 수집하는 등)을 통해 동작과 오류를 통해 동작과 오류를 통해 동작과 오류를 통해 동작과 오류를 통해 동작을 통해 배웠습니다. DeepSeek-R1은 질문에 올바르게 답변했을 때 높은 점수를 받았으며 잘못된 답변을했을 때 점수가 낮았습니다. ” 이 강화 전략은 수학 및 프로그래밍 문제와 같은 검증 가능한 정답이있는 작업에 특히 효과적인 것으로 판명되었습니다. 모델이 개선 된 정확도에 대한 단계별 설명을 생성하도록하는 이전 방법과 달리, DeepSeek는 출력에 직접 할당 된 점수를 직접 출력하여 올바른 결과를 독립적으로 달성 할 때까지 모델이 반복하도록 장려합니다. 결과? 인간이 유도 된 추론이 필요하지 않고 정밀도가 향상되어 겸손한 자원에도 불구하고 DeepSeek가 경쟁력을 유지할 수 있습니다. 그러나 접근 방식은 제한이 없습니다. 출력은 종종 더 정확하지만 모델의 내부 추론 프로세스는 인간 관찰자에게는 투명하지 않습니다. 예를 들어, 사고 과정을 설명하라는 메시지가 표시되면 DeepSeek-R1은 때때로 영어와 중국어 사이에서 예측할 수 없을 정도로 10,000 단어를 초과하는 긴 응답을 생성했습니다. 이 기술은 바이너리 오른쪽 또는 종일 시나리오에서 탁월하지만 명확한 점수 메트릭이없는 미묘한 또는 주관적인 쿼리로 흔들립니다. Deepseek의 업적은 회사의 중국 정부와의 유대 관계에 대한 광범위한 조사에서 기술의 잠재적 편견에 대한 의문을 제기합니다. 최근 시연이보고했다 워싱턴 포스트 행동과 관련하여 공개 :이 모델은 프롬프트가 중국 당국에 의해 민감하다고 간주되는 그룹과의 관여를 나타낼 때 상당한 보안 취약점으로 코드를 생성하는 것을 거부했습니다. 반대로, 그것은 티베트, 대만, 파룬공 종교 운동, 또는 이슬람 국가와 관련된 주제에 대한 안전한 코드를 덜 생산하여 글로벌 배치에 영향을 줄 수있는 임베디드 지정 학적 영향을 시사합니다. 이 논문은 Deepseek의 효율적인 훈련 패러다임을 비난 할뿐만 아니라 AI 개발의 미래에 대한 토론을 촉발시킵니다. 강화 학습을 활용함으로써 DeepSeek와 같은 소규모 플레이어는 자원이 많은 재직자에 대해 경기장을 잠재적으로 평평하게 할 수 있습니다. 그러나 국가 민감성의 주입은 AI 혁신에 대한 투명성과 윤리적 감독의 필요성을 강조하면서주의 사항 역할을합니다. 업계가 발전함에 따라, 그러한 계시는 근본적인 위험을 다루면 전 세계적으로 비용 절감 방법론을 고무시킬 수 있습니다.

DeepSeek R1 모델 512 NVIDIA H800 칩을 사용하여 294,000 달러
Written by
Starting with coding on Commodore 64 in elementary school moving to web programming in his teenage years, Aytun has been around technology for over 30 years, and he has been a tech journalist for over 20 years now. He worked in many major Turkish outlets (newspapers, magazines, TV channels and websites) and managed some. Besides journalism, he worked as a copywriter and PR manager (for Lenovo, HP and many international brands ) in agencies. He founded his agency, Linkmedya in 2019 to execute his way of producing content. He is recently interested in AI, automation and MarTech.
View all posts →Related Stories
Blue Origin과 NASA는 New Glenn 발사대 수리 일정을 놓고 충돌합니다.
이 변칙적인 현상은 48개의 Amazon 인터넷 위성을 지구 저궤도로 운반하는 정기 비행에 대한 일상적인 핫파이어 테스트 중에 Launch...
Asus, Computex에서 새로운 Zenbook 및 ExpertBook 노트북 공개
새로워진 14인치 모델은 Windows 11의 개별 반복에 걸쳐 Intel Core Ultra 9, AMD Ryzen AI 9 및 Snapdragon...
카리브 해에서 다이버가 발견한 미공개 Pixel Watch 5
Randy Pitchford는 자신의 친구가 카리브해에서 스쿠버 다이빙을 하던 중 예고 없이 Google Pixel Watch 5를 발견했다고 주장하여 온라인...
Spotify는 사용자가 사용자 이름을 편집하고 프로필 약력을 추가하도록 허용할 수 있습니다.
Spotify는 곧 사용자가 사용자 이름을 편집하고 프로필 약력을 추가할 수 있게 하여 오랫동안 기다려온 음악 스트리밍 플랫폼에 대한...



