Mistral은 Voxtral : 오픈 소스 음성 이해 모델을 시작합니다

Voxtral은 음성 인터페이스를보다 신뢰할 수 있고 액세스 할 수 있도록 인간-컴퓨터 상호 작용에 혁명을 일으키는 새로운 오픈 소스 음성 이해 모델을 시작했습니다. Apache 2.0 라이센스에 따라 24B 및 3B 변형으로 제공되는 이러한 최첨단 모델은 현재 독점 및 오픈 소스 시스템의 한계를 해결하여 뛰어난 전사 및 깊은 이해 기능을 제공합니다.

Voxtral은 고비용, 폐쇄 된 API와 덜 정확한 오픈 소스 대안 사이의 간격을 연결합니다. 그것은 비슷한 API의 가격의 절반 미만으로 최첨단 정확도와 기본 의미 론적 이해를 제공합니다. 이 모델은 전사의 경우 최대 30 분, 이해를 위해 40 분, 32k 토큰 컨텍스트 길이를 특징으로하는 장기 오디오를 40 분 동안 지원합니다. 또한 내장 Q & A 및 요약, 널리 사용되는 언어 (영어, 스페인어, 프랑스어, 포르투갈어, 힌디어, 독일어, 네덜란드어, 이탈리아어)에 대한 자동 언어 탐지, 음성 명령에서 직접 기능을 제공합니다.

Mistral은 Voxtral : 오픈 소스 음성 이해 모델을 시작합니다 — 이미지 : 미스트랄

벤치 마크에서 Voxtral은 Whisper Large-V3와 같은 주요 오픈 소스 모델보다 훨씬 능가하며 GPT-4O Mini Transcribe 및 Gemini 2.5 스피치 전사 및 오디오 이해에서 강력하게 경쟁합니다. 예를 들어, Voxtral Mini Transcribe는 Openai Whisper보다 비용 효율적이며 Voxtral Small은 더 낮은 가격대에서 Elevenabs Scribe의 성능과 일치합니다. 이 모델은 또한 Mistral Small 3.1 백본에서 강력한 텍스트 이해 기능을 유지합니다.

Voxtral 모델은 Hugging Face 및 API를 통해 지역 다운로드 할 수 있으며 가격은 분당 $ 0.001로 시작합니다. 엔터프라이즈 기능에는 개인 배포, 도메인 별 미세 조정 및 스피커 식별 및 감정 탐지와 같은 고급 컨텍스트 기능이 포함됩니다. 향후 업데이트에는 스피커 세분화, 오디오 마크 업 및 워드 레벨 타임 스탬프가 포함되어 유틸리티가 더욱 향상됩니다.

Google Family Link는 어떻게 사용하나요?

Source: Mistral은 Voxtral : 오픈 소스 음성 이해 모델을 시작합니다

Mistral은 Voxtral : 오픈 소스 음성 이해 모델을 시작합니다

Related Stories

Apple, watchOS 27 베타 3의 Apple Watch에서 Siri AI 활성화

애플, 2026년 폴더블 아이폰 울트라 출시 루머

Google, Android 휴대전화 백업 저장 규칙 변경

삼성, 갤럭시 S26용 네 번째 One UI 9 베타 예정