엔비디아는 비전, 오디오, 언어 기능을 통합 아키텍처에 통합한 개방형 멀티모달 AI 모델인 Nemotron 3 Nano Omni를 공개했습니다.
이 모델은 종종 단편화된 파이프라인에 의존하는 현재 엔터프라이즈 AI 시스템의 비효율성을 해결하는 것을 목표로 합니다. 텍스트 출력을 생성하는 동안 텍스트, 이미지, 오디오, 비디오, 문서, 차트 및 그래픽 인터페이스를 포함한 다양한 입력을 처리합니다.
300억 매개변수 하이브리드 전문가 혼합 아키텍처를 기반으로 구축된 Nemotron 3 Nano Omni는 추론당 약 30억 매개변수를 활성화합니다. Nvidia는 컴퓨팅 비용을 크게 줄이면서 더 큰 모델의 지식 용량을 제공한다고 주장합니다.
Nvidia는 Nemotron 3 Nano Omni가 동급 개방형 옴니 모델보다 최대 9배 더 높은 처리량을 달성했다고 밝혔습니다. 비디오 추론 작업의 경우 256K 토큰 컨텍스트 창을 통해 2.75배 더 낮은 컴퓨팅 요구 사항으로 약 3배 더 높은 처리량을 제공합니다. 이 모델은 복잡한 문서 지능과 비디오 및 오디오 이해에 대한 6가지 벤치마크를 선도하는 것으로 알려졌습니다.
이 모델을 채택한 주목할만한 업체로는 Foxconn, Palantir 및 H Company가 있습니다. H Company의 CEO인 Gautier Cloix는 “Nemotron 3 Nano Omni를 활용하면 에이전트가 이전에는 불가능했던 기능인 풀 HD 화면 녹화를 신속하게 분석할 수 있습니다.”라고 말했습니다.
Dell, Oracle 및 Infosys는 현재 잠재적인 채택을 위해 모델을 평가하고 있습니다. Nemotron 3 Nano Omni는 Hugging Face, OpenRouter, Amazon SageMaker JumpStart, Vultr 등의 플랫폼과 25개 이상의 파트너 플랫폼에서 액세스할 수 있습니다. 다양한 환경에 배포할 수 있는 개방형 가중치, 데이터 세트 및 훈련 레시피가 포함되어 있습니다.
이 모델은 보다 집중적인 추론 작업을 위해 설계된 Super 및 Ultra 모델을 포함하는 Nvidia의 광범위한 Nemotron 3 제품군의 일부입니다. Nemotron 3 시리즈는 지난 한 해 동안 5천만 건 이상의 다운로드를 달성했습니다.
<시간 />








